AWS가 말하는 클라우드에서 HPC 제대로 쓰는 법

고성능컴퓨팅(HPC)은 고성능 연산 기능이 필요한 엔터프라이즈 업계에서는 높은 퍼포먼스를 위한 핵심 기술 중 하나로 인식되고 있다. HPC는 최근 거대언어모델(LLM)이나 머신러닝 등에도 활용되며 더 진화했다는 의미의 플러스(+)를 붙인 ‘HPC+’로 고도화되고 있다.

이미 고성능인데 유연성까지 갖추면 금상첨화일 테다. 클라우드를 쓰면 어떨까. 동일한 비용으로도 연산에 필요한 리소스를 줄이고 일의 민첩성을 높일 수 있다. 아마존웹서비스(AWS)가 여기에 힘을 보탠다.

AWS의 맹지선 사업개발 매니저는 11일 서울 강남구 코엑스에서 열린 ‘2023 AWS 인더스트리 위크’에서 최근의 HPC 트렌드와 AWS의 클라우드를 활용한 구축 방안을 소개했다.

과거 온프레미스 환경에서 주로 쓰이던 HPC는 고정된 수의 노드만 활용할 수 있어 활용도가 떨어졌다. 새로운 애플리케이션에 적용하려고 해도 노드를 확장하는 데 따르는 대기 시간 등 장애물이 있었다. 모든 앱에 같은 프로세서를 써야 하고, 모든 자원을 효과적으로 사용하기 위한 별도의 스케줄링 작업도 필요했다.

반면 클라우드 환경에서의 HPC는 유연한 노드 확장과 유휴 자원을 재빨리 다른 작업으로 전환하는 등 리소스 확대 또는 축소가 훨씬 원활하다. 유연함이라는 클라우드의 장점이 고성능 컴퓨팅에도 그대로 녹아있는 셈이다.

맹지선 AWS 사업개발 매니저가 11일 서울 강남구 코엑스에서 열린 ‘2023 AWS 인더스트리 위크’에서 HPC 트렌드와 산업 접목 사례를 발표하고 있는 모습.

병렬처리로 민첩성을 높여 필요한 작업을 훨씬 신속하게 완료할 수 있다는 게 맹지선 매니저의 설명이다. 그는 “서비스에 머신러닝을 통합하거나 최신 기술 접근 또한 용이하기 때문에 (HPC 기술 활용을 바탕으로 한) 신속한 상품화 또한 가능하다”고 설명했다.

일례로 일본의 소니(Sony)는 클라우드에서의 HPC를 지원하는 서비스 ‘HPC on AWS’를 통해 업무 효율을 높였다. 소니는 AWS의 인프라를 이미지센서 개발을 위한 반도체설계자동화(EDA) 작업에 접목, 온프레미스에서 쓰는 것과 똑같은 모습으로 HPC를 클라우드에서 돌렸다. 그 결과 온프레미스에서는 최대 1개월이 걸리던 대규모 블럭 작업을 작업을 하루 만에 끝냈고, 대규모 병렬처리를 통해 주문부터 납품까지의 기간인 턴어라운드타임(TAT)도 단축했다.

HPC의 구성요소는 크게 컴퓨팅 자원·네트워크·스토리지·소프트웨어 등 4개 요소로 구성된다. 이중 하나라도 성능이 뒷받침하지 못하면 고성능 컴퓨팅이라는 HPC 본연의 기능을 십분 발휘할 수 없다.

AWS는 이를 EC2를 비롯해 러스터용 아마존 FSx(Amazon FSx for Lustre), AWS 배치(Batch), 패러럴클러스터(ParallelCluster) 등 각 요소에 맞춘 솔루션을 지원한다.

컴퓨팅 서비스인 EC2는 인텔이나 AMD 등 다양한 기업의 프로세서를 원하는 대로 선택할 수 있고 최대 400Gbps의 네트워크 대역폭을 지원한다. 반대로 네트워크 레이턴시는 15ms 미만이다. 또한 Batch는 다양한 업무의 스케줄링을 효과적으로 할 수 있도록 돕고, 스토리지 서비스인 러스터용 아마존 FsX는 오픈소스인 러스터의 활용을 지원한다.

또한 패러럴클러스터로 HPC 작업 관리를 지원한다. 오케스트레레이션 서비스인 패러럴클러스터는 네트워크나 스토리지 등 전체 작업 현황을 쉽게 설정할 수 있어 HPC 클러스터 관리에 도움을 준다.

이처럼 AWS가 HPC의 구성요소 전반을 아우르는 서비스를 제공하면서 이를 채택하는 국내 기업도 늘어나고 있다. 대표적인 곳이 제약기업 종근당이다.

제약업의 경우 생명공학 기술을 활용해 질병의 원인을 찾고 이를 치료하는 데 효과적인 화학물 구조를 찾아내는 실험이 빈번하다. 이를 시뮬레이션하는 데 클라우드를 활용한 HPC가 힘을 보탠다.

기존 온프레미스 환경에서는 정해진 코어 수와 그래픽처리장치(GPU)만을 활용함에 따라 시간이 오래 소요되는 문제가 있었다. 이에 종근당은 HPC on AWS 서비스를 통해 단일 작업을 처리할 때는 33.8%의 성능향상을 이뤄낼 수 있었다. 또 다중 노드로 병렬 실행하며 50여개의 작업 시간은 기존 이틀에서 1시간으로 줄일 수 있었다.

신경식 AWS 솔루션 아키텍트는 “단시간에 시뮬레이션을 완료할 수 있게 한 좋은 사례”라며 “AWS를 통해 비용 효율적인 환경에서 HPC 워크로드를 실행할 수 있다”고 말했다.

글. 바이라인네트워크
<이진호 기자>jhlee26@byline.network

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다