엔비디아, 파스칼 기반 딥 러닝 플랫폼 ‘테슬라 P4, P40’ 발표
2017-09-19 임병선 기자
인공지능 추론에 특화된 테슬라 P4, P40 GPU
테슬라 P4와 P40은 엔비디아의 최신 GPU 아키텍처인 파스칼을 기반으로 음성, 이미지 또는 텍스트를 인식하기 위해 훈련된 심층 신경망을 구동한다. 특히 8비트(INT8) 기반의 특수 추론 명령을 사용해 CPU 대비 45배, 지난 1년 내 출시된 GPU 솔루션 대비 4배 더 빠른 속도로 추론 작업을 실행하는 등 인공지능 추론에 특화된 성능을 제공한다.테슬라 P4는 작은 사이즈의 폼팩터와 50W(와트)의 저전력 디자인으로 최고 수준의 에너지 효율을 필요로 하는 데이터 센터에 적합하다. CPU 기반의 추론 작업과 비교했을 때 40배 더 뛰어난 수준의 에너지 효율을 제공한다고 볼 수 있다.가령 하나의 테슬라 P4은 영상 추론 작업에서 13대의 CPU 단일 서버를 대체할 수 있기 때문에 서버 구입 및 전력비용을 모두 포괄하는 총소유비용(TCO)에 있어 8배 이상의 절감 효과를 기대할 수 있다.이처럼 테슬라 P4가 에너지 효율에 특화됐다면, 테슬라 P40은 달리 최고 수준의 딥 러닝 작업 처리 성능을 제공하는데 주력하는 제품이다.8개의 테슬라 P40 가속기를 탑재한 서버는 44 TOPS INT8(새로운 딥 러닝 추론 명령어)의 성능을 갖추게 되며, 140대 이상의 CPU 기반 서버를 대체 가능하다. 서버당 가격을 5,000달러(한화 약 550만 원)로 가정할 경우, 서버 구입에서만 650,000달러(한화 약 7억2,000만 원) 이상의 비용 절감 효과를 볼 수 있는 것이다.엔비디아 이안 벅(Ian Buck) 엑설레이티드 컴퓨팅 부문 부사장은 “엔비디아는 기 선보인 테슬라 P100을 비롯해 이번 P4, P40 출시를 바탕으로 데이터 센터용 엔드-투-엔드 딥 러닝 플랫폼을 제공하는 유일한 기업으로 발돋움 했다”며 “이를 통해 딥 러닝 트레이닝 시간은 몇 일에서 몇 시간 단위로 단축되며, 즉각적인 인사이트를 추출하는 것도 가능해진다. 다시 말해 소비자가 실시간으로 인공지능 기반 서비스를 활용할 수 있는 시대가 앞당겨진 것”이라고 전했다.한편, 엔비디아 테슬라 P4와 P40은 각각 11월과 10월에, ODM, OEM 및 공식 파트너사의 공인된 서버에 탑재돼 출시될 예정이다.추론 가속 소프트웨어, 텐서RT, 딥스트림 SDK
엔비디아는 테슬라 P4, P40과 연계하여 인공지능 추론을 가속화하는 혁신적인 소프트웨어인 텐서RT와 딥스트림 SDK도 함께 공개했다.복잡한 딥 러닝 네트워크에 즉각적인 응답성을 제공하는 텐서RT는 생산 배치용 딥 러닝 모델에 최적화된 소프트웨어 라이브러리다. 32비트 또는 16비트를 기반으로 훈련된 신경망을 정밀 INT8 연산에 최적화하여 딥 러닝 애플리케이션의 처리량과 효율을 극대화했다.딥스트림 SDK는 파스칼 기반 서버의 성능을 통해 사용자에게 93개의 HD 동영상 스트림을 동시에 실시간 디코딩 및 분석할 수 있는 환경을 제공한다. 이는 동일한 조건에서 7개의 HD 동영상 스트림을 처리 가능한 듀얼 CPU 서버와 비교했을 때 비약적으로 개선된 수준이다.딥스트림 SDK의 등장은 대량의 영상 콘텐츠를 분석하고 이해해야 하는 자율주행, 로봇, 광고 마케팅 등 다양한 분야에서 인공지능 기술이 효과적으로 활용되는데 기여할 것으로 기대를 모으고 있다. 또한, 기업은 딥 러닝 기술을 동영상 애플리케이션에 통합 적용함으로써, 이전까지는 불가능했던 혁신적인 서비스를 제공할 수 있게 된다.