AWS, 엔비디아 GB200 기반 AI 인프라 공개

아마존웹서비스(AWS)는 엔비디아 그레이스 블랙웰 슈퍼칩으로 구동되는 P6e-GB200 울트라서버를 출시했다고 15일 밝혔다.

P6e-GB200 울트라서버는 매우 크고 정교한 AI 모델의 훈련과 배포를 위해 설계됐다. AWS는 올해 초, 다양한 AI 및 고성능 컴퓨팅(HPC) 워크로드를 위해 엔비디아 블랙웰 GPU로 구동되는 P6-B200 인스턴스를 출시했었다.

P6e-GB200 울트라서버는 AWS에서 제공하는 최고 사양 GPU 제품으로, 최대 72개의 엔비디아 블랙웰 GPU를 탑재하고, 5세대 엔비디아 NV링크를 통해 상호 연결된 단일 컴퓨팅 유닛(NVL72)으로 작동한다. 각 울트라서버는 360페타플롭스의 FP8 고밀도 컴퓨팅과 13.4테라바이트(TB)의 총 고대역폭 GPU 메모리(HBM3e)를 제공한다.

P5en 인스턴스와 비교해 단일 NV링크 도메인에서 20배 이상의 컴퓨팅 성능과 11배 이상의 메모리를 제공한다. P6e-GB200 울트라서버는 4세대 일래스틱 패브릭 어댑터(EFAv4) 네트워킹으로 최대 초당 28.8테라비트(Tbps)의 통합 대역폭을 지원한다.

P6-B200 인스턴스는 다양한 AI 활용 사례에 유연하게 대응 가능한 옵션이다. 각 인스턴스는 NV링크로 상호 연결된 8개의 엔비디아 블랙웰 GPU와 1.4TB의 고대역폭 GPU 메모리, 최대 3.2Tbps의 EFAv4 네트워킹, 5세대 인텔 제온 스케일러블 프로세서를 제공한다. P6-B200 인스턴스는 P5en 인스턴스와 비교해 최대 2.25배 향상된 GPU 테라플롭스(TFLOPs) 연산 성능, 1.27배의 GPU 메모리 크기, 1.6배의 GPU 메모리 대역폭을 제공한다.

P6e-GB200 울트라서버는 조 단위 매개변수 규모의 프론티어 모델 훈련 및 배포와 같은 컴퓨팅 및 메모리 집약적인 AI 워크로드에 이상적이다. 72개의 GPU가 통합된 메모리 공간과 조정된 워크로드 분산을 통해 단일 시스템으로 작동할 때, NVL72 아키텍처는 GPU 노드 간 통신 오버헤드를 줄여 더 효율적인 분산 훈련을 가능하게 한다.  추론 워크로드의 경우, 1조 개 매개변수 모델을 단일 NV링크 도메인 내에 완전히 포함할 수 있어 대규모 환경에서도 더 빠르고 일관된 응답 시간을 제공한다.

엔비디아 다이나모 기반 분산 서빙 등의 최적화 기법과 결합될 때, GB200 NVL72 아키텍처의 대규모 도메인 크기는 전문가 혼합 모델 등 다양한 모델 아키텍처에서 추론 효율성을 제공한다. GB200 NVL72는 특히 초대형 컨텍스트 윈도우를 처리하거나 실시간으로 높은 동시성 애플리케이션을 실행해야 할 때 강력한 성능을 발휘한다.

P6-B200 인스턴스는 광범위한 AI 워크로드를 지원하며 중대형 규모의 훈련 및 추론 워크로드에 이상적이다. 기존 GPU 워크로드를 이식하려는 경우, P6-B200 인스턴스는 코드 변경을 최소화하고 현재 세대 인스턴스로부터의 마이그레이션을 간소화하는 친숙한 8-GPU 구성을 제공한다. 엔비디아의 AI 소프트웨어 스택이 Arm과 x86 모두에 최적화되어 있지만, 워크로드가 x86 환경에 특별히 구축된 경우, 인텔 제온 프로세서를 사용하는 P6-B200 인스턴스가 이상적인 선택이 될 것이다.

엔비디아 블랙웰을 AWS에 도입하는 것은 단일 기술적 돌파구에 관한 것이 아니라, 인프라의 여러 계층에 걸친 지속적인 혁신의 결과이다. 컴퓨팅, 네트워킹, 운영 및 관리형 서비스 전반에 걸친 수년간의 경험과 혁신을 바탕으로, AWS는 고객들이 AWS에서 기대하는 안정성과 성능과 함께 엔비디아 블랙웰의 모든 역량을 제공한다.

AWS 니트로 시스템 전용 하드웨어, 소프트웨어 및 펌웨어는 AWS 직원을 포함한 누구도 고객의 민감한 AI 워크로드와 데이터에 접근할 수 없도록 엄격한 제한을 적용하도록 설계됐다. 보안 측면을 넘어, 니트로 시스템은 인프라를 유지, 관리하고 최적화하는 방식을 근본적으로 변화시킨다. 네트워킹, 스토리지 및 기타 I/O 기능을 처리하는 니트로 시스템은 운영 상태를 유지하면서 펌웨어 업데이트, 버그 수정, 최적화를 적용할 수 있도록 지원한다. 시스템 중단 없이 업데이트를 가능하게 하는 ‘라이브 업데이트’ 기능을 제공한다. P6e-GB200과 P6-B200 모두 6세대 니트로 시스템을 탑재한다.

AWS는 3세대 EC2 울트라클러스터에 P6e-GB200 울트라서버를 배포해 가장 큰 데이터센터를 포괄할 수 있는 단일 패브릭을 구현했다. 3세대 울트라클러스터는 전력 소모를 최대 40% 줄이고 케이블링 요구사항을 80% 이상 줄여 효율성을 높이는 동시에, 장애 가능성을 유발하는 요소들을 획기적으로 감소시킨다.

대규모 환경에서 일관된 성능을 제공하기 위해, AWS는 SRD 프로토콜을 사용하는EFA를 활용한다. 여러 네트워크 경로를 지능적으로 활용해 트래픽을 분산시켜, 혼잡이나 장애 상황에서도 원활한 운영을 유지한다. AWS는 4세대에 걸쳐 EFA의 성능을 지속적으로 개선해 왔다. EFAv4를 사용하는 P6e-GB200과 P6-B200 인스턴스는 EFAv3을 사용하는 P5en 인스턴스와 비교해 분산 훈련에서 최대 18% 더 빠른 집합 통신 성능을 보여준다.

P6-B200 인스턴스는 공기 냉각 인프라를 사용하는 반면, P6e-GB200 울트라서버는 액체 냉각 방식을 사용해 대규모 NV링크 도메인 아키텍처에서 더 높은 컴퓨팅 밀도를 가능하게 하고 더 높은 시스템 성능을 제공한다. P6e-GB200은 새로운 기계식 냉각 솔루션을 적용한 액체 냉각 방식으로 설계됐다. 신규 및 기존 데이터 센터 모두에서 칩 수준까지 냉각이 가능한 유연한 액체-칩(liquid-to-chip) 냉각 방식을 제공한다.

AWS 액체 냉각시스템 내부

AI 개발을 가속화하면서 인프라 및 클러스터 운영 관리에 소요되는 시간을 줄이고 싶다면, 아마존 세이지메이커 하이퍼팟을 사용하면 된다. 대규모 GPU 클러스터의 프로비저닝과 관리를 자동으로 처리하는 탄력적인 관리형 인프라를 제공한다. AWS는 예측 가능한 학습 일정 수립과 예산 내 운영을 지원하기 위해, 유연한 학습 계획 등 다양한 기능을 지속적으로 추가하며 세이지메이커 하이퍼팟을 고도화하고 있다.

세이지메이커 하이퍼팟은 P6e-GB200 울트라서버와 P6-B200 인스턴스 모두를 지원하며, 워크로드를 동일한 NV링크 도메인 내에 유지해 최대 성능을 낼 수 있도록 최적화됐다. 포괄적인 다층 복구 시스템을 구축해, 세이지메이커 하이퍼팟이 동일한 NV링크 도메인 내에서 오류가 발생한 인스턴스를 사전 구성된 예비 인스턴스로 자동 대체할 수 있도록 지원한다. 내장된 대시보드는 GPU 사용률과 메모리 사용량부터 워크로드 메트릭과 울트라서버 상태를 보여준다.

아마존 EKS는 P6e-GB200 울트라서버와 P6-B200 인스턴스를 모두 지원하며, 관리형 노드 그룹을 통한 자동 프로비저닝과 수명 주기 관리 기능을 제공한다. P6e-GB200 울트라서버의 경우, GB200 NVL72 아키텍처를 인식하는 토폴로지 인식 기능을 적용해, 각 노드를 울트라서버 ID 및 네트워크 토폴로지 정보와 함께 자동으로 라벨링함으로써 최적의 워크로드 배치가 가능하도록 지원한다. 사용자는 노드 그룹을 여러 울트라서버에 걸쳐 구성하거나, 개별 울트라서버에 전용으로 할당하는 방식 중 선택할 수 있어 학습 인프라를 더욱 유연하게 구성할 수 있다. 또한, Amazon EKS는 GPU 및 가속기 오류를 모니터링하고, 해당 정보를 쿠버네티스 제어 플레인에 전달해 필요시 복구 조치를 수행할 수 있도록 지원한다.

P6e-GB200 울트라서버는 엔비디아 DGX 클라우드를 통해서도 제공될 예정이다. DGX 클라우드는 다중 노드 AI 훈련 및 추론 기능과 엔비디아의 완전한 AI 소프트웨어 스택을 기반으로, 모든 계층에서 최적화된 통합 AI 플랫폼이다. 사용자는 엔비디아의 최신 최적화 기술, 벤치마킹 레시피, 기술 전문성을 바탕으로 AI 효율성과 성능을 향상시킬 수 있다. 또한 유연한 이용 기간 옵션과 엔비디아 전문가의 포괄적인 지원 및 서비스를 통해 AI 이니셔티브를 가속화할 수 있도록 지원한다.

글. 바이라인네트워크
<김우용 기자>yong2@byline.network

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다


The reCAPTCHA verification period has expired. Please reload the page.