엔비디아, 아스트라제네카와 새로운 AI 연구 프로젝트 진행중
[smartPC사랑=임병선 기자] 엔비디아(CEO: 젠슨 황)가 바이오 제약사 아스트라제네카(AstraZeneca), 플로리다대 학술보건센터, UF헬스(UF Health)와 신경망 아키텍처인 트랜스포머(Transformer)를 활용한 새로운 AI 연구 프로젝트를 진행 중이라고 밝혔다.
트랜스포머 기반 신경망 아키텍처를 통해 연구자들은 사전훈련 중에 수동으로 레이블링된 예제를 사용할 필요없이, 자가지도 학습을 통해 대규모 데이터 세트를 활용할 수 있다.
엔비디아는 아스트라제네카와 협력하여 약물 발견에 사용되는 화학 구조용 트랜스포머 기반 AI 모델을 개발중이다. 이 모델은 영국 내 최대 슈퍼컴퓨터가 될 캠브리지-1(Cambridge-1)에서 실행되는 최초의 프로젝트 중 하나이다. 또한, 오픈소스 형태로 제공되어 연구자와 개발자들은 엔비디아 NGC 소프트웨어 카탈로그를 통해 사용할 수 있으며, 컴퓨팅 기반의 신약 발견을 위해 엔비디아 클라라 디스커버리(NVIDIA Clara Discovery)플랫폼에 배포할 수 있다.
UF 헬스는 NGC에서 이용가능한 엔비디아의 최첨단 메가트론(Megatron) 프레임워크와 바이오 메가트론(BioMegatron) 사전교육 모델을 활용하여 오늘날 최대 임상 언어 모델인 게이터트론(GatorTron)을 개발하고 있다.
새로운 NGC 애플리케이션에는 DNA의 접근가능한 영역을 식별하는 딥 러닝 모델인 에이텍웍스(AtacWorks)와 희소하고 모호하거나 노이즈가 많은 데이터에서 생체 분자의 구조를 추론하는 툴인 MELD가 포함된다.
분자에 대한 인사이트를 제공하는 메가트론 모델
엔비디아와 아스트라제네카가 개발중인 메가몰바트(MegaMolBART) 약물 발견 모델은 반응 예측, 분자 최적화, 드 노보(de novo) 분자 생성에 사용될 예정이다. 이 모델은 아스트라제네카의 몰바트(MolBART) 트랜스포머 모델을 기반으로 하며, 엔비디아의 메가트론 프레임워크를 사용해 ZINC 화합물 데이터베이스에서 훈련되어, 슈퍼컴퓨팅 인프라에서 대규모 확장 훈련이 가능하다.
대규모 ZINC 데이터베이스를 통해 연구원은 화학 구조를 이해하는 모델을 사전 학습하여 수동으로 라벨링된 데이터의 필요성을 제거할 수 있다. 화학에 대한 통계적 이해로 무장한 이 모델은 화학 물질이 서로 반응하는 방식을 예측하고 새로운 분자 구조를 생성하는 것을 포함한 여러 다운스트림 작업에 이상적이다.
아스트라제네카의 분자 AI, 발견과학 및 연구개발(R&D) 담당 총괄인 올라 엥크비스트(Ola Engkvist)는 “AI 언어 모델이 문장에서 단어 간의 관계를 학습할 수 있는 것처럼, 우리의 목표는 분자 구조 데이터에 대해 훈련된 신경망이 실제 분자에서 원자 간의 관계를 학습하도록 하는 것이다. 해당 NLP 모델이 개발되면, 오픈소스 형태로 제공되어 과학계가 약물발견을 가속화하는데 사용할 수 있는 강력한 툴이 될 것”이라고 설명했다.
엔비디아 DGX 슈퍼POD(SuperPOD)를 사용하여 훈련되는 이 모델은 연구원들에게 데이터베이스에 존재하지 않지만 잠재적인 약물 후보가 될 수 있는 분자에 대한 아이디어를 제공한다. 인-실리코(in-silico) 기술로 알려진 계산법을 사용하면 약물 개발자가 비용과 시간이 많이 소요되는 실험실 테스트로 전환하기 전에 더 많은 화학공간을 검색하고 약리학적 특성을 최적화할 수 있다.
이번 협력을 위해 엔비디아 DGX A100 기반 캠브리지-1 및 셀린(Selene) 슈퍼컴퓨터를 사용해 방대한 워크로드를 대규모로 실행한다. 캠브리지-1은 영국에서 가장 큰 슈퍼컴퓨터로 그린(Green)500 리스트에서 3위, 세계에서 가장 강력한 시스템 TOP 500에서 29위를 차지했다. 엔비디아의 셀린 슈퍼컴퓨터는 최근 그린500 리스트에서 1위를 차지했으며 세계에서 가장 강력한 시스템 TOP 500에서 5위를 차지했다.
언어 모델로 의료 혁신 가속화
2백만여 환자와의 5천만건의 상호작용 기록을 기반으로 훈련된 UF 헬스의 게이터트론 모델은 생명을 구하는 임상시험을 위해 환자를 식별하고, 생명을 위협하는 상태에 대해 의료팀에 알림을 보내고, 의료진의 임상 의사결정을 도울 수 있는 획기적인 기술이다.
최근 엔비디아 DGX 슈퍼POD를 통해 교내 슈퍼컴퓨팅 시설을 강화한 플로리다대 학장 조셉 글로버(Joseph Glover)는 “게이터트론은 최첨단 모델 개발을 위해 10년 이상의 전자 의료 기록을 활용한다. 이러한 대규모의 툴을 사용하면 의료 연구진이 통찰력을 얻을 수 있을 뿐 아니라, 임상 기록에서 이전에는 파악할 수 없었던 동향을 확인할 수 있다”고 설명했다.
임상학 외에도, 이 모델은 임상실험을 위한 환자 코호트를 신속하게 생성하고 특정 약물, 치료 또는 백신의 효과를 연구하는 것을 용이하게 하여 약물 발견을 가속화한다.
게이터트론은 펍메드(PubMed)의 코퍼스(corpus) 데이터를 사용하여 엔비디아의 응용 딥 러닝 연구팀에서 개발한 가장 큰 생체의학 트랜스포머 모델인 바이오 메가트론을 통해 만들어졌다. 바이오 메가트론은 생체의학 및 임상 텍스트에 대해 사전 훈련된 엔비디아 클라라 디스커버리(NVIDIA Clara Discovery)모델의 집합인 클라라(Clara) NLP를 통해 NGC에서 이용할 수 있다.
UF 헬스의 대표 데이비드 넬슨(David Nelson)은 “게이터트론 프로젝트는 학계 및 업계 전문가가 최첨단 AI 기술과 세계적 수준의 컴퓨팅 리소스를 사용하여 협업한 결과로 탄생한 대표적인 예라고 할 수 있다. 엔비디아와의 파트너십은 UF 헬스가 AI 전문지식과 개발의 종착지로 부상하는데 매우 중요한 역할을 한다”고 말했다.
약물 발견 시스템을 한층 강화하는
엔비디아 클라라 디스커버리 라이브러리 및 엔비디아 DGX 시스템
엔비디아 클라라 디스커버리 라이브러리와 엔비디아 DGX 시스템은 컴퓨팅 기반 약물발견 시스템에 도입되어 제약 연구에 힘을 보태고 있다.
화학 시뮬레이션 소프트웨어 분야의 선도기업인 슈뢰딩거(Schrödinger)는 엔비디아와의 전략적 협업을 발표했다. 이번 협업에는 과학 컴퓨팅 및 머신러닝에 대한 연구, 엔비디아 플랫폼에서 슈뢰딩거 애플리케이션 최적화, 수십억 개의 잠재적 약물 화합물 평가를 위한 엔비디아 DGX 슈퍼POD 기반 솔루션 공동 개발이 포함된다.
생명공학 기업인 리커전(Recursion)은 엔비디아 DGX 슈퍼POD 참조 아키텍처를 기반으로 한 슈퍼컴퓨터 바이오하이브-1(BioHive-1)을 구축했다. 바이오하이브-1은 기존 클러스터를 통해서는 완료하는 데 일주일이 걸렸던 딥 러닝 프로젝트를 하루 내에 실행할 수 있도록 한다.
엔비디아 인셉션 액셀러레이터 프로그램의 파트너인 인실리코 메디슨(Insilico Medicine)은 최근 특발성 폐섬유화증을 치료할 새로운 전임상 후보물질을 발견했는데, 이는 임상시험 대상으로 지명된 새로운 질병을 위한 AI 설계 분자의 첫 사례다. 화합물은 엔비디아 텐서 코어 GPU에 의해 구동되는 시스템에서 생성되었으며, 목표 가설에서 선임상 후보 선택까지 18개월로 200만 달러(한화 약 22억원) 미만이 소요됐다.
엔비디아 인셉션 액셀러레이터 프로그램의 회원인 바이아사 애널리틱스(Vyasa Analytics)는 클라라 NLP 및 엔비디아 DGX 시스템을 사용하여 사용자가 생물의학 연구를 위해 사전 훈련된 모델에 액세스 할 수 있도록 한다. GPU로 가속화된 바이아사 레이어 데이터 패브릭(Vyasa Layar Data Fabric)은 여러 기관에 걸친 암 연구, 임상시험 분석 및 생물의학 데이터 조화를 위한 솔루션을 강화하고 있다.