엔비디아, 세계 정상급 딥 러닝 컴퓨팅 플랫폼 성능 6개월 만에 10배 향상

2019-03-28 임병선 기자

[smartPC사랑=임병선 기자] 엔비디아는 GTC 2018에서 자사의 세계 정상급 딥 러닝 컴퓨팅 플랫폼에 대한 성능 개선 사항을 연이어 공개하며, 딥 러닝 워크로드 면에서 6개월 만에 이전 세대 대비 10배의 성능 개선을 이뤄냈다고 발표했다.

세계 유수의 클라우드 서비스 제공업체 및 서버 제조사들 대부분이 채택한 엔비디아 플랫폼의 핵심 개선 사항은 가장 강력한 데이터센터 GPU인 엔비디아 테슬라 V100(NVIDIA Tesla V100)의 메모리 2배 확충과 획기적인 GPU 인터커넥트 패브릭인 엔비디아 NV스위치(NVIDIA NVSwitch)를 포함하며, NV스위치를 활용해 최대 16개의 테슬라 V100 GPU가 초당 2.4테라바이트라는 기록적인 속도에서 동시에 커뮤니케이션 할 수 있다. 이외에도 소프트웨어 스택의 업데이트 및 최적화 소식을 함께 발표했다.엔비디아는 엔비디아 DGX-2(NVIDIA DGX-2)출시로 딥 러닝 컴퓨팅 분야에 2페타플롭의 연산 능력을 제공할 수 있는 사상 첫 단일 서버라는 또 하나의 전기를 마련했다. DGX-2의 딥 러닝 처리 성능은 데이터센터에서 15개의 랙을 차지하는 서버 300대의 성능에 준하지만 크기는 60배 가량 작고 전력 효율성은 18배 가량 우수하다.엔비디아의 창립자 겸 CEO인 젠슨 황(Jensen Huang)은 GTC 2018에서 이 소식을 공개하며, “이번에 발표하는 딥 러닝 분야의 발전은 앞으로 펼쳐질 미래를 살짝 엿본 수준에 불과하다”며 “개선 사항의 대부분은 전세계의 표준으로 빠르게 자리 잡은 엔비디아의 딥 러닝 플랫폼을 토대로 하고 있다. 우리는 이 플랫폼의 성능을 무어의 법칙을 압도적으로 능가하는 속도로 강화해 나가고 있어, 헬스케어, 교통, 과학 탐구 및 기타 수많은 영역에서 획기적인 변혁을 이끌 돌파구를 만들고 있다”고 말했다.

메모리가 2배 확충된 테슬라 V100

세계 정상의 연구진들로부터 널리 채택되고 있는 테슬라 V100 GPU는 가장 메모리 집약적인 딥 러닝 및 고성능 컴퓨팅 워크로드를 처리할 수 있도록 메모리가 2배 확충됐다.데이터 과학자는 이제 32GB의 메모리를 장착한 테슬라 V100 GPU를 통해 딥 러닝 모델의 트레이닝을 질적, 양적 측면에서 심화할 수 있게 되며 정확성도 더욱 향상된다. 또한 메모리 제약이 심한 HPC 애플리케이션의 성능을 이전의 16GB 버전 대비 최대 50% 가량 향상시킬 수 있다.테슬라 V100 32GB GPU는 전체 엔비디아 DGX 시스템 포트폴리오에 즉시 적용된다. 주요 컴퓨터 제조업체인 크레이(Cray), 휴렛패커드 엔터프라이즈(Hewlett Packard Enterprise), IBM, 레노버(Lenovo), 슈퍼마이크로(Supermicro) 및 타이안(Tyan)에서는 새로운 테슬라 V100 32GB를 적용한 시스템을 2분기 내 출시할 것이라고 발표했다. 오라클 클라우드 인프라스트럭처(Oracle Cloud Infrastructure)도 올해 상반기 내 테슬라 V100 32GB를 자사 클라우드에서 제공한다는 계획을 발표했다.

NV스위치: 획기적인 인터커넥트 패브릭

NV스위치는 최고의 PCIe 스위치 대비 5배로 높은 대역폭을 제공해, 개발자들이 더 많은 GPU를 하이퍼커넥트 방식으로 연결해 시스템을 구축할 수 있도록 돕는다. 이에 따라 개발자들은 종전의 시스템 상 한계를 극복하고 더 많은 데이터셋을 실행할 수 있게 될 전망이다. 또한, 뉴럴 네트워크의 병렬 트레이닝 모델링처럼 복잡한 대규모 워크로드의 실행 가능성도 열리게 됐다.NV스위치는 엔비디아가 개발한 첫 고속 인터커넥트 기술인 엔비디아 NV링크(NVIDIA NVLink)를 통해 이뤄낸 기술 혁신의 연장선 상에 있다. NV스위치를 통해 시스템 디자이너는 NV링크 기반 GPU의 어떤 토폴로지라도 유연하게 연결할 수 있는 첨단 시스템을 구축할 수 있다.

첨단 GPU 가속 딥 러닝 및 HPC 소프트웨어 스택

엔비디아의 딥 러닝 및 HPC 소프트웨어 스택 업데이트는 엔비디아의 개발자 커뮤니티에 무료로 공개된다. 엔비디아 개발자 커뮤니티의 등록 회원 수는 82만여 명으로, 1년 전의 48만 명에서 크게 늘어났다.이번에 공개되는 업데이트에는 새로운 버전의 엔비디아 CUDA(NVIDIA CUDA), 텐서RT(TensorRT), NCCL, cuDNN이 포함되며, 새로운 로보틱스 아이작(Isaac) 소프트웨어 개발 키트도 포함되어 있다. 이외에도 업계를 선도하는 클라우드 서비스 기업들과의 긴밀한 협업을 통해 모든 주요 딥 러닝 프레임워크가 엔비디아 GPU 컴퓨팅 플랫폼의 다양한 이점을 충분히 활용할 수 있도록 지속적인 최적화 작업이 진행된다.

엔비디아 DGX-2: 세계 최초의 2페타플롭 시스템

엔비디아의 DGX-2 시스템은 컴퓨팅 스택의 모든 수준에서 엔비디아가 이끌어 온 여러 선도적인 기술 발전이 종합적으로 반영된 것으로, 2페타플롭이라는 새로운 이정표를 세웠다.DGX-2는 시스템 내 GPU 16개 모두 통합된 메모리 공간을 공유할 수 있도록 하는 NV스위치가 적용된 최초의 시스템이다. 이제 개발자들은 최대 규모의 데이터셋과 가장 복잡한 딥 러닝 모델을 처리할 수 있는 딥 러닝 트레이닝 성능을 활용할 수 있게 된다.최적화 및 업데이트가 완료된 엔비디아 딥 러닝 소프트웨어를 적용한 DGX-2는 딥 러닝 연구 및 연산의 한계에 도전하는 데이터 과학자를 위해 개발된 제품이다.DGX-2에서는 뉴럴 네트워크 기반의 최첨단 기계 번역 모델인 FAIRSeq의 트레이닝이 채 이틀도 소요되지 않는다. 9월에 도입된 볼타(Volta) 아키텍처 기반 DGX-1과 비교했을 때 성능이 10배 가량 개선된 것이다.

테슬라 V100 32GB에 대한 업계의 지원

마이크로소프트의 수석 음성 과학자 겸 기술연구원인 쉐동 황(Xuedong Huang)은 “마이크로소프트와 엔비디아는 중국어-영어 번역 분야에서 거둔 최근의 획기적 발전을 비롯해 AI 기술 협력 분야에서 수년 간 특기할 만한 발전을 이뤄냈다”며, “새로운 테슬라 V100 32GB GPU를 통해 더욱 규모가 크고 복잡한 AI 모델을 더 빠르게 트레이닝할 수 있을 것이다. 이에 따라 음성 인식 및 기계 번역 분야에서 우리 모델의 정확성이 향상되며 인간과 유사한 수준에 도달해, 코타나(Cortana), 빙(Bing) 및 마이크로소프트 번역기(Microsoft Translator) 등의 서비스를 개선하는 데 도움이 될 것이다”라고 말했다.이스라엘 소재 SAP 이노베이션 센터의 부사장인 마이클 케멜마허(Michael Kemelmakher)는 “거의 실시간에 가까운 속도로 브랜드 노출도를 자동 분석하는 SAP 브랜드 임팩트 애플리케이션을 위해 새로운 테슬라 V100 32GB를 적용한 DGX-1을 평가했다”며, “메모리가 확장되어 대규모 ResNet-152 모델에서의 고선명(HD) 이미지 처리 능력이 향상됐으며, 착오율은 평균적으로 40%만큼 낮아졌다. 이에 따라 내부통제가 가능하며 정확하고 적절한 시간에 상당한 규모의 서비스를 제공할 수 있게 됐다”라고 말했다.

엔비디아 DGX 제품 포트폴리오

DGX-2는 엔비디아 DGX(NVIDIA DGX) 제품 포트폴리오에 가장 최근에 추가된 제품으로, 엔비디아 DGX 제품 포트폴리오는 데이터 과학자들이 새로운 딥 러닝 모델 및 기술 혁신을 빠르게 개발, 테스트, 배포 및 확장할 수 있도록 고안된 세 가지 시스템으로 구성됐다.16개의 GPU가 탑재된 DGX-2는 해당 라인업의 최상단에 위치한 제품이며, 이외에도 8개의 테슬라 V100 GPU가 탑재된 엔비디아 DGX-1 시스템, 책상 옆에 비치할 수 있는 소형 디자인으로 4개의 테슬라 V100 GPU가 탑재된 세계 최초의 개인용 딥 러닝 슈퍼컴퓨터 DGX 스테이션(DGX Station)이 있다.이들 시스템을 통해 데이터 과학자는 책상 앞에 앉아 실행하는 다소 복잡한 실험에서 대규모 딥 러닝 과제에 이르기까지 작업을 확장하며, 연구 활동을 꾸준히 이어가게 될 것이다.