이정도면 타임머신도 만들 수 있지 않을까? 슈퍼컴퓨터 기술 어디까지 왔나
2013-08-14 PC사랑
인텔 아이비브릿지 i5-3550 CPU의 기본 클럭은 3.3Ghz이다. 그런데 최근 일본에서 개발된 슈퍼컴퓨터에 장착된 CPU의 클럭은 2Ghz에 ‘불과’하다. 슈퍼컴퓨터인데 왜 당신의 PC에 꽂혀 있는 것보다 느린 속도의 CPU를 쓰냐고 질문할 것인가? 그 CPU가 집채만한 공간에 놓인 800개의 케이스에 6만개가 넘게 꽂혀 있는데도?
정환용 기자
정환용 기자
하드웨어의 발전은 18개월에 두 배
슈퍼컴퓨터에 대해 알기 위해 먼저 CPU의 발전상을 살펴볼 필요가 있다. 쉽게 생각하면 같은 클럭의 싱글 코어보다 듀얼 코어의 성능이 2배가 아니라 1.3배 정도라는 것을 보면 된다. PC의 성능이 온전히 CPU만으로 이뤄지는 것은 아니기 때문이다. 800w 대용량 파워서플라이에 2Gb급 GPU의 그래픽카드를 갖췄다 해도 브레인이 싱글코어 CPU라면 별무소용이라는 얘기다.
하지만 정확히 1년 반마다 하드웨어의 성능이 수학처럼 2배씩 향상되는 것은 아니다. 물론 필자의 어린 시절 ‘무려’ 80mb 용량의 하드디스크에 감격했을 때에 비하면 놀라운 발전이긴 하지만, 실질적 PC 보급률이 90%에 육박하는 현재 PC의 성능은 PC 자체보다 게임 등의 활용을 위해 소프트웨어의 성능에 따라가는 현상이 확대되며, 일반인들의 성능 향상에 대한 관심은 예전만큼 크지 않은 것이 사실이다. 게다가 PU(Processing Unit)의 경우, 제조 공정의 소형화가 점차 한계점에 다다르고 있어 기술의 발전도 조금씩 그 방향을 선회하고 있다. 싱글 코어에서 듀얼 코어로, 그리고 쿼드 코어와 옥타(8)코어가 점차 보편화되는 것을 보면 22nm까지 작아진 제조공정 또한 언젠가는 한계에 부딪히는 시점이 올 것이다.
그렇다면 일반 용도가 아닌 초과학적 계산에 필요한 초고성능의 컴퓨터, 즉 ‘슈퍼컴퓨터’는 그 성능을 어떻게 끌어올릴까? 바로 ‘물량공세’다. 10이나 100 단위가 아니라 1만 단위로 물량 공세를 펼치는 것이다. 8Gb 램이 32개 장착되는 보드를 수백 개 연결해 램 메모리가 테라바이트 단위로 늘어난다. 이쯤 되면 이미 가격이나 성능은 안중에서 사라진 지 오래다. 가장 궁금한 것은 바로 ‘숫자’ 아니었던가. CPU를 6만 개씩 잡아먹고 있는 이 괴물들이 어떻게 생겨먹었는지 알아보자.
일반 PC와 용도부터 다른 슈퍼컴퓨터
일반 사용자가 집에서 게임을 하거나 내일 발표할 프리젠테이션 자료를 만드는 데에 슈퍼컴퓨터가 필요할 일은 없다. 슈퍼컴퓨터는 처음부터 개인용이 아니라 과학기술에 필요한 계산을 빠른 시간 내에 처리할 수 있도록 만들어졌다. 구조해석, 우주개발, 기상예측, 대규모 선형계획 등 뜻도 분간하기 어려운 대형 과학기술 계산에서 편미분 방정식이나 연립 방정식의 수치 계산이 슈퍼컴퓨터의 용도 중 하나다.
간단하게 정의하자면, 당신이 사용하는 PC에 꽂혀 있는 CPU의 클럭 수와 슈퍼컴퓨터의 CPU 클럭 수는 별 차이가 없다. 오히려 코어 수는 많더라도 클럭 수는 낮은 경우도 있다. 다만 그 개수의 차이가 일반 PC와 슈퍼컴퓨터의 선을 긋는다. 당신이 사용하는 CPU는 한 개지만, 슈퍼컴퓨터의 CPU는 그 숫자가 1만 개를 넘어간다. 보통 8Gb를 넘지 않는 RAM 또한 100Tb(테라바이트)를 우습게 넘긴다.
2010년 6월까지 슈퍼컴퓨터 순위 1위를 차지하고 있었던 ‘CRAY xt5’는 2.6Ghz의 AMD 옵테론 헥사(6)코어 프로세서를 37,276개 사용했다. 이 컴퓨터의 연산 속도는 2009년 당시 1.759Petaflops로 세계 1위를 지켰지만, 2010년 6월 중국의 ‘Tianhe-1A’ 모델이 2.57Petaflops의 성능을 보이며 1위 자리를 내줬다.
CPU가 6만개, 램은 60Tb가 넘는다고!?
일본의 이화학연구소와 후지쯔가 공동 개발한 슈퍼컴퓨터 ‘K’의 CPU 숫자는 총 68544개. 옥타(8)코어 CPU이니 총 548,352개의 코어가 동시에 연산 작업을 하는 ‘K’의 연산 속도는 무려 8.162페타플롭스(Petaflpos)이다. CPU의 초당 연산속도를 계산하는 단위인 플롭스(Flops)는 페타 단위면 초당 1,000조 회의 연산 처리가 가능하다. 잘 와닿지 않는가? 1천조를 숫자로 나타내면 ‘1,000,000,000,000,000’이다. ‘K’에게 8,000조 회의 연산 처리를 의뢰해도 ‘준비, 시~작!’ 구호를 외치기도 전에 계산이 끝난다는 소리다.
CPU 뿐만 아니라 RAM도 마찬가지다. 2010년 한국의 기상청에 도입된 3호 슈퍼컴퓨터 ‘CRAY XE6’를 보면, 협업 형태의 ‘해온’과 연구 및 백업 담당의 ‘해담’ 2조로 구성돼 있다. 각 시스템의 메모리 용량은 60테라바이트. 일반 PC에 사용되는 8Gb 단일 메모리로 환산하면 약 7,600개가 장착돼 있다. 각 시스템은 20개의 XE6 캐비넷으로 구성돼 있고 각 캐비넷에는 최대 24슬롯의 탈착형 보드 형태의 블레이드가 장착된다. 하나의 블레이드에는 독립적 OS가 운영되는 4개의 노드가 있고, 각 노드에는 2개의 도데카(12) 코어 AMD 프로세서와 32Gb의 메모리가 장착돼 있다.
이쯤 되면 점점 ‘이 기자가 무슨 소리를 하고 앉았나’ 하는 생각이 들 것 같다. 그렇다면 우리가 가장 쉽고 빠르게 받아들일 수 있는 방법으로 슈퍼컴퓨터의 가치를 알아보자. 용산의 PC 매장에 가서 “크레이 XE6는 요새 얼마나 해요?” 하고 묻지 말고, 아래의 계산을 참조하자. 각 부품은 실제 사용 제품이 아니라 같은 제품군 중 임의로 선정했고, 가격은 해당 제품의 현재 평균 판매가격을 기준으로 산출했다. 저장장치의 경우, 지난 2011년 후지쯔의 스토리지 ‘DX8000’이 사용되고 있으나 정확한 가격을 알 수 없어 일반 서버용 HDD로 대체한다.
가격비교 사이트를 대강 검색해서 계산기 몇 번 두들겨 보니 나온 대략적인 ‘일부’ 하드웨어의 가격이 약 218억원이다. 여기에 장착 모듈과 노드, 블레이드와 캐비넷에 냉각 시스템과 설치·유지보수 비용까지 포함하면 근 350억 원이라는 가격이 산출된다. 놀라움을 넘어서 어이가 없는 수준이다. 이전의 기상청 슈퍼컴퓨터 2호기 대비 약 41배의 성능 향상이 이뤄졌다고 하니 금전적인 것보다 더한 가치를 가지고는 있지만, 일반인과 동떨어져 있는 세계에 대한 경외심이 약간 생긴다.
이쯤 되면 드는 생각이 있다. 도대체 어떤 계산을 하길래 이정도 수준의 처리 능력이 필요한 것일까? 고 사양으로 유명한 ‘배틀필드3’나 곧 발매될 ‘크라이시스3’와 같은 PC게임을 테스트하는 건 분명 아니다. 흔히 생각할 수 있는 3D CG 작업에도 이만한 사양의 PC는 필요하지 않다. 기상청에서는 5년 주기로 새로운 슈퍼컴퓨터를 도입하며 2호기 대비 수치의 정확도가 10~20% 가량 향상됐고, 수치 예보자료의 해상도를 100km 수준에서 25km 수준까지 끌어올릴 수 있게 됐다.
CPU 뿐만 아니라 RAM도 마찬가지다. 2010년 한국의 기상청에 도입된 3호 슈퍼컴퓨터 ‘CRAY XE6’를 보면, 협업 형태의 ‘해온’과 연구 및 백업 담당의 ‘해담’ 2조로 구성돼 있다. 각 시스템의 메모리 용량은 60테라바이트. 일반 PC에 사용되는 8Gb 단일 메모리로 환산하면 약 7,600개가 장착돼 있다. 각 시스템은 20개의 XE6 캐비넷으로 구성돼 있고 각 캐비넷에는 최대 24슬롯의 탈착형 보드 형태의 블레이드가 장착된다. 하나의 블레이드에는 독립적 OS가 운영되는 4개의 노드가 있고, 각 노드에는 2개의 도데카(12) 코어 AMD 프로세서와 32Gb의 메모리가 장착돼 있다.
이쯤 되면 점점 ‘이 기자가 무슨 소리를 하고 앉았나’ 하는 생각이 들 것 같다. 그렇다면 우리가 가장 쉽고 빠르게 받아들일 수 있는 방법으로 슈퍼컴퓨터의 가치를 알아보자. 용산의 PC 매장에 가서 “크레이 XE6는 요새 얼마나 해요?” 하고 묻지 말고, 아래의 계산을 참조하자. 각 부품은 실제 사용 제품이 아니라 같은 제품군 중 임의로 선정했고, 가격은 해당 제품의 현재 평균 판매가격을 기준으로 산출했다. 저장장치의 경우, 지난 2011년 후지쯔의 스토리지 ‘DX8000’이 사용되고 있으나 정확한 가격을 알 수 없어 일반 서버용 HDD로 대체한다.
가격비교 사이트를 대강 검색해서 계산기 몇 번 두들겨 보니 나온 대략적인 ‘일부’ 하드웨어의 가격이 약 218억원이다. 여기에 장착 모듈과 노드, 블레이드와 캐비넷에 냉각 시스템과 설치·유지보수 비용까지 포함하면 근 350억 원이라는 가격이 산출된다. 놀라움을 넘어서 어이가 없는 수준이다. 이전의 기상청 슈퍼컴퓨터 2호기 대비 약 41배의 성능 향상이 이뤄졌다고 하니 금전적인 것보다 더한 가치를 가지고는 있지만, 일반인과 동떨어져 있는 세계에 대한 경외심이 약간 생긴다.
이쯤 되면 드는 생각이 있다. 도대체 어떤 계산을 하길래 이정도 수준의 처리 능력이 필요한 것일까? 고 사양으로 유명한 ‘배틀필드3’나 곧 발매될 ‘크라이시스3’와 같은 PC게임을 테스트하는 건 분명 아니다. 흔히 생각할 수 있는 3D CG 작업에도 이만한 사양의 PC는 필요하지 않다. 기상청에서는 5년 주기로 새로운 슈퍼컴퓨터를 도입하며 2호기 대비 수치의 정확도가 10~20% 가량 향상됐고, 수치 예보자료의 해상도를 100km 수준에서 25km 수준까지 끌어올릴 수 있게 됐다.
슈퍼컴퓨터의 구조
보통의 PC는 메인보드에 CPU와 램, 그래픽카드를 꽂고 케이스에 보드를 고정시키면 된다. 하지만 슈퍼컴퓨터는 수천 단위의 하드웨어가 장착돼야 하기 때문에 일반용와 다른 전용 보드가 필요하다. CPU 보드를 보면 다른 장착 구조 없이 오로지 CPU만 12~18개를 장착하도록 설계돼 있다. 램 또한 한 보드에 32개를 병렬로 장착하고, 이 보드를 수백 개 연결하는 것이 슈퍼컴퓨터의 기본 설계다.
수많은 부품들이 장착된 케이스 개념의 캐비넷을 하나로 봤을 때 보통 슈퍼컴퓨터의 규모는 20대의 캐비넷을 연결하는 구조로 되어 있다. 시스템마다 차이는 있지만 일본의 ‘K’ 모델은 캐비넷 20대가 모여 하나의 슈퍼컴퓨터를 이루고 있다. ‘한 대’라고 표현하기 약간은 애매하지만 ‘1 piece’ 개념으로 생각하면 되겠다.
PC 케이스의 나열처럼 보이지만 천장에 닿을 듯한 랙 시스템이 나열된 슈퍼컴퓨터이다.
게다가 대부분의 슈퍼컴퓨터는 데스크탑처럼 책상 옆에 놔두는 것이 아니라 특수 냉각시설이 설치된 방 전체를 차지한다. 수십만 개의 CPU와 각종 장비에서 발생하는 열은 엄청나기 때문에 냉각 시스템이 절대적으로 필요하다. 영화 ‘미션 임파서블:고스트 프로토콜’에서 서버에 접근한 요원의 얼굴에서 비오듯 흐르는 땀을 떠올리면 된다. 국내 기상청과 같이 슈퍼컴퓨터를 위해 독립된 건축물을 짓는 경우도 많다. 현재 슈퍼컴퓨터 ‘해담’과 ‘해온’은 충북 청원 오창과학산업단지에 건축한 국가기상슈퍼컴퓨터센터에 있다. 일반인에게는 이전에 사용했던 슈퍼컴퓨터 Cray X1E의 구조와 설계를 공개하고 있다.
비슷한 성능의 슈퍼컴퓨터라도 설계 구조에는 차이가 있다. 크레이 시리즈나 NEC의 SX-3 모델 등은 모든 프로세서를 병렬 처리하고 파이프라이닝 개념을 사용해 설계된 컴퓨터이다. 파이프라이닝은 명령어를 실행할 때 사용되는 하드웨어들을 단계별로 분할하고 하드웨어로 하여금 서로 다른 명령어를 처리하도록 해 CPU의 성능을 극대화시키는 기술이다. 10만 명의 사람이 10만 개의 연산을 처리하는데 차례대로 할 필요는 없지 않은가. 게다가 컴퓨터는 단순 수치 연산에서 ‘오답’이 산출될 수 없기 때문에 연산 시간을 더욱 단축할 수 있는 것이다.
비슷한 성능의 슈퍼컴퓨터라도 설계 구조에는 차이가 있다. 크레이 시리즈나 NEC의 SX-3 모델 등은 모든 프로세서를 병렬 처리하고 파이프라이닝 개념을 사용해 설계된 컴퓨터이다. 파이프라이닝은 명령어를 실행할 때 사용되는 하드웨어들을 단계별로 분할하고 하드웨어로 하여금 서로 다른 명령어를 처리하도록 해 CPU의 성능을 극대화시키는 기술이다. 10만 명의 사람이 10만 개의 연산을 처리하는데 차례대로 할 필요는 없지 않은가. 게다가 컴퓨터는 단순 수치 연산에서 ‘오답’이 산출될 수 없기 때문에 연산 시간을 더욱 단축할 수 있는 것이다.
세계의 슈퍼컴퓨터
한국 - 기상청, 해담ㆍ해온
슈퍼컴퓨터를 설계, 제작하는 미국의 크레이리서치 社의 쌍둥이 슈퍼컴퓨터 CRAY XE6. AMD 옵테론, 연산속도 758테라플롭스(초당 758조 회의 연산), 현재 세계 31, 32위
슈퍼컴퓨터를 설계, 제작하는 미국의 크레이리서치 社의 쌍둥이 슈퍼컴퓨터 CRAY XE6. AMD 옵테론, 연산속도 758테라플롭스(초당 758조 회의 연산), 현재 세계 31, 32위
미국 - 미항공우주국(NASA), Pleiades
미항공우주국의 슈퍼컴퓨터 SGI Altix. 연산속도 1.088페타플롭스 (초당 1,088조 회의 연산). 현재 세계 7위
미항공우주국의 슈퍼컴퓨터 SGI Altix. 연산속도 1.088페타플롭스 (초당 1,088조 회의 연산). 현재 세계 7위
중중국 - 천진 국립슈퍼컴퓨터센터, Tianhe-1A
2010년 11월 세계 1위에 올랐던 중국의 ‘Tianhe-1A’. 인텔 제온, 연산속도 2.566페타플롭스 (초당 2,566조 회의 연산). 현재 세계 2위
2010년 11월 세계 1위에 올랐던 중국의 ‘Tianhe-1A’. 인텔 제온, 연산속도 2.566페타플롭스 (초당 2,566조 회의 연산). 현재 세계 2위
일본 - 이화학연구소, ‘K
일본 이화학연구소와 후지쯔가 공동개발 중인 슈퍼컴퓨터 ‘K’. 2011년 6월 연산속도 10.51페타플롭스 (초당 1경 510조 회의 연산)를 기록해 세계 1위를 차지하기도 했다. 현재 세계 1위
일본 이화학연구소와 후지쯔가 공동개발 중인 슈퍼컴퓨터 ‘K’. 2011년 6월 연산속도 10.51페타플롭스 (초당 1경 510조 회의 연산)를 기록해 세계 1위를 차지하기도 했다. 현재 세계 1위
프랑스 - 원자력연구기관(CEA), Tera-100
프랑스 원자력 연구기관 CEA에서 사용 중인 ‘Tera-100’. Bull-SA 시스템, 연산속도 1.050페타플롭스 (초당 1,050조 회의 연산), 현재 세계 9위
프랑스 원자력 연구기관 CEA에서 사용 중인 ‘Tera-100’. Bull-SA 시스템, 연산속도 1.050페타플롭스 (초당 1,050조 회의 연산), 현재 세계 9위
독일 - 슈투트가르트 대학교 HLRS, Hermit
프랑스 슈투트가르트 대학교 슈퍼컴퓨터센터의 ‘Hermit’. AMD 옵테론 6276, 연산속도 831.4테라플롭스 (초당 831조 4,000억 회의 연산). 현재 세계 12위
프랑스 슈투트가르트 대학교 슈퍼컴퓨터센터의 ‘Hermit’. AMD 옵테론 6276, 연산속도 831.4테라플롭스 (초당 831조 4,000억 회의 연산). 현재 세계 12위