인텔, 제온 파이 발표 “머신러닝의 열쇠”

인텔이 국내에 새 제온 파이 프로세서를 소개했다. 지난 6월 말 독일 프랑크푸르트 세계 컴퓨터 학술대회(ISC)에서 첫 공개된 바로 그 프로세서다.

제온 파이 프로세서는 병렬 처리에 특화된 CPU다. 병렬 컴퓨팅은 막대한 데이터를 빠르게 처리하는 환경에 주로 쓰인다. 대표적인 병렬 컴퓨팅의 예가 최근 이슈화되고 있는 머신러닝이다. 알파고만 봐도 CPU 1202개, GPU 176개의 시스템이 있었기 때문에 4주동안 100만 번의 기보를 학습할 수 있었다. 휴고 살레 인텔 HPC 그룹 마케팅 책임자는 머신러닝과 병렬 컴퓨팅의 상관 관계를 이렇게 설명했다.

“전통적인 분석은 데이터를 사람이 직접 검토하고 판단을 내렸다. 머신러닝은 컴퓨터가 사람 대신 데이터를 보고 판단을 내리고, 어떻게 대응해야 하는지 알려주는 기술이다. 많은 데이터를 보려면 높은 병렬 컴퓨팅 성능이 필요하다”

hugu_saleh_intel

그야말로 사람이 손으로 하던 것들을 아주 빠르게 반복해서 돌리는 작업이라는 이야기다. 머신러닝이나 HPC, 슈퍼컴퓨터 등이 주목받으면서 병렬 컴퓨팅 성능은 근래 가장 중요한 이슈로 떠오르고 있다. 특히 복잡한 처리가 가능한 고성능 CPU 대신 GPU처럼 단순한 보조 프로세서로 분산처리하는 것은 일부 분야에서 거의 정답처럼 쓰인다.

정확한 비유는 아니지만 대학생 한 명과 초등학생 50명이 수학 문제를 푼다고 생각해보면 쉽다. 대학생은 함수나 미적분까지 다양한 계산을 할 수 있지만 ‘1+2’ 수준의 단순한 연산 속도는 초등학생과 큰 차이가 없을 것이다. 이런 연산을 50번 해야 한다면 어떨까? 아무리 수학을 잘 하는 대학생이라도 혼자서 초등학생 50명을 이겨낼 수는 없다. 실제 데이터 처리에서는 비슷한 일이 종종 일어나곤 한다. 제온 파이 역시 이런 흐름에서 태어났던 병렬처리에 특화된 보조 프로세서였다.

하지만 새 제온 파이는 그 구조를 다시 뿌리부터 새로 시작하는 프로세서다. 제온의 브랜드를 쓰지만 제온과 제온 파이 프로세서는 전혀 다르다. 그리고 새 제온 파이 프로세서는 기존 제온 파이와 비교해도 완전히 다른 설계로 만들어졌다. 기존의 어떤 제품과 연결짓기보다 사실상 이전에 없던 새로운 형태의 프로세서라고 보는 편이 더 맞을 수 있다.

“스스로 부팅할 수 있는 프로세서”

제온 파이 프로세서의 가장 큰 특징은 ‘부팅할 수 있는 호스트 프로세서’라는 점이다. 기존의 제온 파이는 PCI익스프레스 슬롯에 꽂는 그래픽카드 형태의 보조 프로세서였다. 이 때문에 이제까지의 시스템에는 제온 프로세서와 제온 파이가 함께 꽂혀야 했다. 하지만 새 제온 파이 프로세서는 그 자체로 운영체제를 돌릴 수 있는 독자적인 프로세서다.

xeon_phi_1

제온 파이의 설계를 프로세서 형태로 바꾼 근본적인 이유는 여러개의 컴퓨터를 묶는 HPC 환경에 있다. 일단 프로세서 내부부터 살펴보자. 이 프로세서는 최대 72개 코어를 품는다. 그 자체로 병렬 처리를 위해 설계됐다. 이 코어들이 외부의 입출력 장치들과 데이터를 주고받으면서 생기는 손실을 막기 위해 프로세서 안에 16GB의 고성능 메모리를 품는다 이 메모리는 1초에 500GB의 데이터를 읽고 쓸 수 있다. 이 메모리는 필요에 따라서 시스템 메모리로 쓸 수도 있고, 데이터 캐시 용도로 활용할 수도 있다. 시스템을 설계할 때 필요에 따라 할당하면 된다.

시스템 메모리의 활용성도 높였다. 병렬처리를 위해서는 메모리가 많이 필요한데 프로세서당 6개 메모리 슬롯에 최대 384GB의 메모리를 운영할 수 있다. 하드디스크와 메모리로 처리하던 것을 메모리와 프로세서 내부 메모리로 처리하는 형식으로 바꿨다고 보면 된다. 제온 파이는 메모리를 통해서 그 자체로 인메모리 시스템 수준의 데이터 처리를 하고, 병렬 처리 과정에서 생기는 병목 현상을 근본적으로 해소하도록 했다.

xeon_phi_3

시스템끼리, 그러니까 노드간 연결도 수월하다. 일단 PCI익스프레스를 쓰지 않기 때문에 버스에서 오는 병목 현상이 없다. 인텔이 제온파이를 보조 프로세서에서 호스트 프로세서로 바꾼 각 프로세서끼리는 이더넷이나 인피니밴드 등으로 연결할 수도 있지만 응답 속도가 실시간에 가까운 옴니패스 아키텍처로 노드 대 노드로 직접 연결할 수도 있다.

‘묶는 과정’ 병목 해소에 초점

인텔이 요즘 밀고 있는 SSF(확장형 시스템 프레임워크)로 연결도 쉽다. 옴니패스 아키텍처를 이용해서 제온 파이 시스템과 제온 시스템을 유연하게 묶을 수도 있다. 머신러닝처럼 강력한 컴퓨팅 성능과 병렬 컴퓨팅이 동시에 필요한 환경에 대응할 수 있다.

결국 제온 파이는 모든 부분에서 생기는 병목 현상과 효율성 저하를 정리하도록 설계됐고, 이를 통해서 수 백 대 수 천 대의 컴퓨터를 엮을 수 있다. 64개 노드는 손쉽게 묶을 수 있고, 필요에 따라 128개도 묶을 수 있다. 제온 파이 128개를 묶었을 때 약 50배의 성능 향상을 볼 수 있다고 한다. 128개는 극단적인 상황이고, 보통 몇 개를 묶는 정도에서는 거의 노드 수와 성능이 비례한다.

xeon_phi_2

그렇다면 GPU는 이제 쓰이지 않는 걸까? GPU를 이용한 GPGPU 컴퓨팅은 이제 병렬 컴퓨팅의 한 분야가 됐다. 효율성도 높아지고 있고, 아예 이에 특화된 고성능 GPU도 속속 출시되고 있다. 애초 ‘이종 컴퓨팅’이라는 말로 시작한 이 복합 프로세서 처리 구조는 한 분야로 자리 잡았다.

제온 파이는 그 구조를 조금 더 확대한 개념이라고 보면 된다. 인텔이 그린 슈퍼컴퓨터 그림을 보면 고성능 처리는 제온 프로세서가 맡고, GPU로 처리하던 병렬 컴퓨팅 부분은 제온 파이로 대체한다. 그리고 대량의 특수 컴퓨팅에는 프로그램할 수 있는 FPGA를 더해 시스템을 특화할 수 있다.

제온 파이는 4가지 종류로 출시된다. 최상위 제품인 ‘제온 파이 7290’은 1.5GHz로 작동하는 코어 72개로 구성됐다. 72코어 CPU라고 보면 된다. 그 아래로 68코어, 1.4GHz로 작동하는 7250이 있다. 64코어 1.3GHz의 7230과 7210도 있다. 이 둘의 차이는 내장 메모리 속도다. 다만 모든 프로세서가 16GB의 내장 MCD램을 품고 있는 것은 차이가 없다. 전력 소비는 215W부터 260W로 프로세서 소켓당 3TFlops 정도의 성능을 낼 수 있다.

xeon_phi_4

글. 바이라인네트워크
<최호섭 기자> hs.choi@byline.network

관련 글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다