엔비디아, 마이크로소프트 애저에서 구동되는 새로운 GPU 가속 슈퍼컴퓨터 공개

2020-11-19 임병선 기자

[smartPC사랑=임병선 기자] 엔비디아(CEO: 젠슨 황)가 마이크로소프트(Microsoft)의 클라우드 컴퓨팅 플랫폼 애저(Azure)에서 구동되는 새로운 GPU 가속 슈퍼컴퓨터를 공개했다.

가장 까다로운 인공지능(AI) 및 고성능 컴퓨팅(HPC) 애플리케이션을 처리하도록 설계된 애저의 새로운 NDv2 인스턴스는 세계에서 가장 빠른 슈퍼컴퓨터 중 하나로, 단일 멜라녹스 인피니밴드(Mellanox InfiniBand) 백엔드 네트워크에서 상호 연결된 최대 800개의 엔비디아 V100 텐서 코어(Tensor Core) GPU를 제공한다.

이안 벅(Ian Buck) 엔비디아 가속 컴퓨팅 담당 부사장 겸 총괄은 “지금까지 AI와 HPC를 위해 슈퍼컴퓨터를 이용할 수 있는 기회는 주로 세계 최대 규모의 기업 및 기관에 국한됐다. 마이크로소프트 애저의 새로운 제품은 AI를 민주화시켜, 세계가 직면한 주요 도전과제들의 일부를 해결하는데 필요한 툴을 폭넓게 이용할 수 있도록 한다”고 설명했다.

기리시 바블라니(Girish Bablani) 마이크로소프트의 애저 컴퓨트 담당 부사장은 “클라우드 컴퓨팅이 전 세계 모든 업계에 걸쳐 도입이 가속화되면서 고객들은 보다 강력한 서비스를 요구하고 있다. 마이크로소프트는 엔비디아와 협력해 고객들로 하여금 이전에는 상상할 수 없었던 수준의 슈퍼컴퓨팅 파워에 즉각적으로 액세스할 수 있도록 함으로써, 새로운 혁신의 시대를 열고 있다”고 밝혔다.

획기적인 성능, 합리적인 비용

복잡한 AI, 머신러닝 및 HPC 워크로드에 이상적인 이 새로운 제품은 기존 CPU 기반 컴퓨팅과 비교해 성능과 비용 모든 측면에서 상당한 이점을 제공한다. 빠른 성능을 제공하는 솔루션이 필요한 AI 연구진은 여러 NDv2 인스턴스를 신속하게 스핀업(spin up)하고 복잡한 대화형 AI 모델을 단 몇 시간 만에 교육할 수 있다.

마이크로소프트와 엔비디아 엔지니어들은 시험판 버전의 클러스터에서 64개의 NDv2 인스턴스를 사용하여 구글의 AI 언어모델인 버트(BERT)를 약 3시간 만에 훈련시켰다. 여기에는 NCCL, 엔비디아 쿠다 X(CUDA X) 라이브러리, 그리고 고속 멜라녹스 인터커넥트에서 제공되는 다중 GPU 최적화가 활용됐다.

고객들은 또한 여러 NDv2 인스턴스를 사용하여 LAMMPS와 같은 복잡한 HPC 워크로드를 실행할 때에도 이점을 얻을 수 있다. LAMMPS는 약물 개발 및 발견과 같은 영역에서 원자 규모로 물질을 시뮬레이션하는데 사용되는 분자 역학 애플리케이션이다.

단일 NDv2 인스턴스는 딥 러닝과 같은 특정 유형의 애플리케이션에 GPU 가속 없이 기존 HPC 노드보다 훨씬 빠른 결과를 제공할 수 있다. 이 같은 성능은 대규모 시뮬레이션을 위해 백 개의 인스턴스로 선형적으로 확장할 수 있다.

모든 NDv2 인스턴스는 GPU에 최적화된 HPC 애플리케이션, 머신러닝 소프트웨어, 그리고 엔비디아 NGC 컨테이너 레지스트리 및 애저 마켓플레이스에서 이용가능한 텐서플로우(TensorFlow), 파이토치(PyTorch), MxNet 등과 같은 딥 러닝 프레임워크의 지원을 받는다. 이 레지스트리는 또한 쿠버네티스(Kubernetes) 클러스터에 AI 소프트웨어를 쉽게 배포할 수 있는 헬름(Helm) 차트를 제공한다.