미 국립에너지연구소 과학컴퓨팅센터(NERSC)의 슈퍼컴퓨터 펄머터(Perlmutter)

미국 국립에너지연구소 과학컴퓨팅센터(NERSC)의 AI 슈퍼컴퓨터 펄머터(Perlmutter)에 AMD EPYC 7763과 엔비디아 A100 텐서코어가 탑재된다고 AMD가 30일 발표했다. 펄머터 슈퍼컴퓨터는 2019년부터 개발하고 있는 NERSC의 슈퍼컴퓨터로, 고성능 컴퓨팅 성능을 기반으로 기후, 청정에너지, 반도체, 초소형 전자공학, 양자 정보과학 등 고도의 컴퓨팅 기술을 필요로 하는 분야에 사용될 전망이다. 펄머터는 7000명 이상의 NERSC 연구자들에게 약 4엑사플롭스의 AI 성능을 제공할 예정이다.

AMD 측에 따르면, 펄머터 슈퍼컴퓨터는 두 단계로 나누어 가동될 예정이다. 우선 첫 번째 단계에서는 1536개의 노드가 배치된다. 하나의 노드에는 1개의 AMD EPYC 7763 프로세서와 엔비디아 A100 텐서코어 GPU 4개가 탑재된다. 이후 두 번째 단계에서는 2개의 EPYC 7763 프로세서와 512GB 메모리가 탑재된 CPU 전용 노드 3072개를 탑재한다.

우선 AMD EPYC 7763은 EPYC는 2017년부터 AMD가 제공하고 있는 서버용 CPU 제품군으로, EPYC 7003 시리즈 중 하나다. 성능이 높고 호환성이 좋은 것으로 알려진 젠(Zen) 아키텍처를 기반으로 하며, 지난 5월 중순 싱가포르 국립 슈퍼컴퓨팅 센터(NSSC)에도 EPYC 7763 프로세서를 제공한 바 있다.

램 페디보틀라(Ram Peddibhotla) AMD EPYC 제품 관리 담당 부사장은 “EPYC 프로세서는 슈퍼컴퓨팅을 필요로 하는 연구를 선도하고 있다”며 “이후에도 과학적 발전을 위해 노력할 전망”이라고 전했다.

수딥 도산지(Sudip Dosanjh) NERSC 박사는 “AMD와의 협력을 통해 컴퓨팅 성능과 과학 연구 역량을 지속적으로 확장하고 있다”며 “개발 초기 단계부터 시뮬레이션, 데이터분석을 모두 지원할 수 있을 것”이라고 전했다.

회사 측에 따르면, 이번에 탑재되는 엔비디아 A100 텐서코어 GPU는 AI, 데이터분석, 고성능 컴퓨팅(High Performance Computing) 가속화를 제공하는데, 엔비디아 MIG(Multi-Instance GPU) 기술을 통해 수천 개의 GPU와 연결될 정도로 확장성이 좋다. 또한 매 단계에서 생기는 워크로드를 각각 빠르게 처리하도록 가속화할 수 있다. 이를 통해 빠른 시간 안에 효율적으로 데이터를 다량 처리할 수 있다고 회사 측은 강조했다.

아울러 V100 텐서코어에서 10시간에 걸쳐 처리해야 하던 데이터를 A100 텐서코어에서는 4시간만에 처리할 수 있다고 회사 측은 설명했다. 특히 A100을 사용하는 가속화 서버는 대규모 워크로드를 효율적으로 처리할 수 있는 통신방식 ‘멜라녹스 인피니밴드(Mellanox InfiniBand)’와 GPU 가속을 위한 스파크(Spark) 3.0,  GPU 가속 데이터 분석을 위한 소프트웨어 엔비디아 래피즈(NVIDIA Rapids)와 결합된다. 따라서 대용량의 워크로드를 가속화할 수 있다.

와히드 빔지(Wahid Bhimji) NERSC 데이터분석서비스그룹 대표대행은 “펄머터는 엔비디아의 A100 GPU와 더불어 올플래시 파일 시스템, 스트리밍 데이터 기능 등을 갖추고 있기에 AI에 대한 요구를 적절한 시기에 충족할 것”이라고 전했다.


글. 바이라인네트워크
<배유미 기자> youme@byline.network



이전레터 보기