엔비디아, MLPerf 벤치마크서 AI 훈련 성능 입증

2022-12-03 임병선 기자

[smartPC사랑=임병선 기자] 엔비디아(CEO: 젠슨 황)가 MLPerf 벤치마크에서 엔비디아 AI 기반 시스템을 통해 훈련 성능을 입증했다고 밝혔다.

클라우드 서비스 및 OEM 선도기업인 델 테크놀로지스(Dell Technologies), 인스퍼(Inspur), 슈퍼마이크로(Supermicro) 및 마이크로소프트 애저(Microsoft Azure)는 엔비디아 AI를 사용해 MLPerf 벤치마크 AI 트레이닝 부문에서 신기록을 세웠다. 해당 시스템들은 새롭게 발표된 MLPerf 트레이닝(training) 1.1의 주요 워크로드 8개 부문 모두에서 기록을 경신했다.

MLPerf 벤치마크에서 엔비디아 A100 텐서 코어(Tensor Core) GPU는 각 시스템에 최고 수준의 표준화된 칩당 성능(per-chip performance)을 제공했다. 엔비디아 인피니밴드(InfiniBand) 네트워킹 및 소프트웨어 스택은 엔비디아 DGX 슈퍼(Super)POD 기반 AI 슈퍼컴퓨터 셀린(Selene)의 훈련 시간을 획기적으로 단축했다.

최고 수준으로 발돋움한 클라우드 성능

최근 결과에 따르면 AI 모델 훈련 부문에서 애저의 NDm A100 v4 인스턴스가 전세계에서 가장 빠른 것으로 입증됐다. NDm A100 v4는 해당 벤치마크의 모든 테스트를 거쳤으며 2,048개의 A100 GPU로 확장된 시스템이다.

테스트에서 우수한 성능을 보여준 애저의 시스템은 현재 미국 전역 6개 지역에서 대여 및 사용 가능하다.

AI 훈련은 고도의 사양을 요구하는 복잡한 작업이다. 엔비디아는 사용자가 선호하는 서비스나 시스템을 사용해 기록적인 속도로 모델을 훈련하도록 지원한다. 이는 엔비디아 AI가 클라우드 서비스, 코로케이션(co-location) 서비스, 기업 및 과학 컴퓨팅 센터용 제품을 폭넓게 지원하는 이유이다.

서버 제조사, 엔비디아 AI로 성능 강화

OEM 중 인스퍼는 8방향 GPU 시스템 NF5688M6과 액상 냉각식 NF5488A5를 사용해 단일 노드 성능에서 가장 우수한 기록을 세웠다. 한편, 델과 슈퍼마이크로는 4방향 A100 GPU 시스템에서 신기록을 세웠다.

8개의 OEM과 2개의 클라우드 서비스를 비롯해 총 10개의 엔비디아 파트너가 테스트 결과를 제출했으며, 이들의 결과는 제출된 모든 결과의 90% 이상을 차지했다. 이는 엔비디아 생태계와 관련해 진행된 역대 MLPerf 트레이닝 테스트에서 5번째로 우수한 결과이다.

엔비디아 파트너들이 참여하는 MLPerf는 AI 훈련 및 추론을 위한 유일한 업계 표준 벤치마크이며, AI 플랫폼과 공급업체를 평가하는 고객에게 이는 중요한 지표가 된다.

뛰어난 속도로 입증된 서버

바이두 패들패들(Baidu PaddlePaddle), 델 테크놀로지스, 후지츠(Fujitsu), 기가바이트(GIGABYTE), 휴렛 팩커드 엔터프라이즈(Hewlett Packard Enterprise), 인스퍼, 레노버(Lenovo) 및 슈퍼마이크로는 로컬 데이터 센터에 단일 및 다중 노드의 작업에서 실행되는 결과를 제출했다.

대부분의 OEM 파트너는 가속화 컴퓨팅을 추구하는 기업 고객을 위해 검증된 서버인 엔비디아 인증 시스템(NVIDIA-Certified Systems)에서 테스트를 실행했다.

광범위하게 제출된 결과를 통해 엔비디아는 모든 규모의 기업에 최적의 솔루션을 제공하는 엔비디아 플랫폼의 다양성과 전문성을 입증했다.

빠르고 유연한 성능

엔비디아 AI는 모든 벤치마크 및 활용사례를 제출하는 데 사용된 유일한 플랫폼 참가자이며, 이를 통해 고성능 및 다용도성을 증명했다. 빠르고 유연한 시스템은 고객이 작업 속도를 높이는 데 필수적인 생산성을 지원한다.

AI 훈련 벤치마크는 컴퓨터 비전, 자연어 처리, 추천 시스템, 강화 학습 등 오늘날 가장 인기있는 AI 워크로드 및 시나리오 8가지를 다룬다.

MLPerf 테스트의 투명하고 객관적인 결과를 활용해 사용자들은 정보에 입각한 구매결정을 내릴 수 있다. 2018년 5월 결성된 업계 벤치마킹 그룹은 알리바바(Alibaba), Arm, 구글(Google), 인텔(Intel) 및 엔비디아를 비롯한 수많은 업계 리더들의 지원을 받고 있다.

3년 동안 20배 속도 향상

이와 같은 수치는 지난 18개월 동안 A100 GPU의 성능이 5배 이상 향상되었음을 보여준다. 이는 오늘날 엔비디아의 작업에서 큰 비중을 차지하는 소프트웨어의 지속적인 혁신 덕분이다.

엔비디아의 성능은 3년 전 처음 MLPerf 테스트가 실행된 이후 20배 이상 향상되었다. 이렇게 획기적인 속도 향상은 GPU, 네트워크, 시스템 및 소프트웨어의 풀 스택 제품 전반에 걸친 발전의 결과이다.

지속적인 소프트웨어 개선

엔비디아는 여러 소프트웨어 개선을 통해 지속적으로 발전해 왔다. 예를 들어, 새로운 클래스의 메모리 복사 작업을 통해 의료 영상용 3D-UNet 벤치마크에서 2.5배 빠른 속도를 달성했다.

병렬처리를 위한 GPU 미세 조정 방법 덕분에 객체감지를 위한 Mask R-CNN 테스트 속도가 10%가량 향상됐고, 추천 시스템의 경우 27% 향상됐다. 엔비디아는 많은 GPU에서 실행되는 작업에 특히 효과적인 기술로서 독립적인 작업을 중첩시켰다.

엔비디아는 호스트 CPU와의 통신을 최소화하기 위해 CUDA 그래프 사용을 확대했다. 이를 통해 이미지 분류를 위한 ResNet-50 벤치마크에서 6% 향상된 성능을 제공했다.

또한, GPU 간 통신을 최적화하는 라이브러리인 NCCL에서 두 가지 새로운 기술을 구현했다. 그 결과 BERT와 같은 대규모 언어 모델에서 최대 5% 가속화된 성능을 기록했다.

엔비디아의 지속적 지원

엔비디아가 사용한 모든 소프트웨어는 누구든지 MLPerf 리포지토리에서 이용할 수 있다. 엔비디아는 GPU 애플리케이션을 위한 소프트웨어 허브 NGC의 컨테이너에 다양한 최적화 사항을 지속적으로 추가하고 있다.

이는 최신 업계 벤치마크에서 입증된 풀 스택 플랫폼의 일부이며, 오늘날 실질적인 AI 작업을 처리하는 다양한 파트너에게 제공된다.