엔비디아, H100보다 4배 빠른 괴물 GPU '블랙웰' 공개

엔비디아(CEO 젠슨 황)가 호퍼를 잇는 신 제품 블랙웰(Blackwell) 플랫폼을 출시한다고 발표했다. 수퍼컴퓨터용 GPU로 설계된 블랙웰은 이전 세대 대비 최대 25배 적은 비용과 에너지로 구동된다. 온디바이스로 구동 가능한 변수는 조 단위 수준이다. 대규모 언어 모델(LLM)에서 실시간 생성형 AI를 구축하고 실행할 수 있도록 지원한다. 이름은 블랙웰은 게임 이론과 통계학을 전공한 수학자이자 흑인으로는 최초로 미국국립과학원(National Academy of Sciences)에 입회한 데이비드 헤롤드 블랙웰(David Harold Blackwell)을 기리기 위해 붙여진 이름이다.

엔비디아의 창립자 겸 CEO인 젠슨 황(Jensen Huang)은 “엔비디아는 지난 30년 동안 딥 러닝, AI와 같은 혁신을 실현하기 위해 가속 컴퓨팅을 추구해 왔다. 생성형 AI는 우리 시대를 정의하는 기술이다. 블랙웰 GPU는 이 새로운 산업 혁명을 구동하는 엔진이다. 세계에서 가장 역동적인 기업들과 협력해 모든 산업에서 AI의 가능성을 실현할 것”이라고 말했다.

데이터 처리, 엔지니어링 시뮬레이션, 전자 설계 자동화, 컴퓨터 지원 신약 설계, 양자 컴퓨팅, 생성형 AI 등에서 사용 가능한 블랙웰 GPU 아키텍처는 가속 컴퓨팅을 위한 여섯가지 신기술을 갖추고 있다.

세계에서 가장 강력한 칩: 블랙웰 아키텍처 GPU는 2,080억 개의 트랜지스터를 탑재했다. GPU 다이가 초당 10테라바이트(TB)의 칩 투 칩(chip-to-chip) 링크로 연결된 단일 통합 GPU로 맞춤형 2레티클 제한 4NP TSMC 공정을 통해 제조된다.
2세대 트랜스포머 엔진: 블랙웰은 새로운 마이크로 텐서 확장 지원과 엔비디아 텐서RT-LLM(TensorRT-LLM), 네모 메가트론(NeMo Megatron) 프레임워크에 통합된 엔비디아의 고급 동적 범위 관리 알고리즘에 기반한다. 이를 통해 새로운 4비트 부동 소수점 AI 추론 기능으로 컴퓨팅과 모델 크기를 두 배로 늘릴 예정이다.
5세대 NV링크(NVLink): 수조 개의 파라미터와 여러 전문 AI 모델 조합의 성능을 가속화하기 위해 최신 버전의 엔비디아 NV링크는 GPU당 획기적인 초당8테라바이트의 양방향 처리량을 제공한다. 이는 오늘날 가장 복잡한 LLM을 위한 최대 576개의 GPU 간의 원활한 고속 통신을 보장한다.
RAS 엔진: 블랙웰 기반 GPU에는 안정성, 가용성, 서비스 가능성을 위한 전용 엔진이 포함된다. 또한 블랙웰 아키텍처는 칩 수준에서 AI 기반 예방적 유지보수 기능을 활용해 진단을 실행하고 안정성 문제를 예측하는 기능을 추가한다. 이를 통해 시스템 가동 시간을 극대화하고 복원력을 개선해 대규모 AI 배포를 몇 주 또는 몇 달 동안 중단 없이 한 번에 실행하고 운영 비용을 절감할 수 있다.
보안 AI: 고급 기밀 컴퓨팅 기능은 의료와 금융 서비스와 같이 개인정보 보호에 민감한 산업에 필수적인 새로운 기본 인터페이스 암호화 프로토콜을 지원한다. 이는 성능 저하 없이 AI 모델과 고객 데이터를 보호한다.
압축해제 엔진: 최신 형식을 지원하는 전용 압축해제 엔진은 데이터베이스 쿼리를 가속화해 데이터 분석과 데이터 과학에서 최고의 성능을 제공한다. 앞으로 기업들이 매년 수백억 달러를 지출할 것으로 예상되는 데이터 처리는 GPU를 통해 점점 더 가속화될 것이다.

오픈AI의 CEO인 샘 알트만(Sam Altman)은 “블랙웰은 엄청난 성능 도약을 제공하며, 최첨단 모델을 제공하는 우리의 능력을 가속화할 것이다. AI 컴퓨팅을 향상시키기 위해 엔비디아와 계속 협력하게 되어 기대가 매우 크다”고 말했다.

테슬라와 xAI의 CEO인 일론 머스크(Elon Musk)는 “현재 AI를 위한 엔비디아 하드웨어보다 더 좋은 것은 없다”고 말했다.

GB200

블랙웰 슈퍼칩은 GB200에 탑재된다. 그레이스 CPU와 두개의 엔비디아 B200 텐서 코어를 합친 제품이다.

대부분의 생성 AI가 클라우드에서 구동된다는 것에 착안해 칩 성능 외에도 네트워크 속도도 높였다. 엔비디아 퀀텀-X800 인피니밴드(Quantum-X800 InfiniBand)와 스펙트럼-X800 Ethernet(Spectrum-X800 이더넷) 플랫폼을 통해 이들은 최대 800Gb/s의 속도로 네트워킹을 제공한다.

GB200은 가장 컴퓨팅 집약적인 워크로드를 위한 멀티 노드, 수냉식 랙 스케일 시스템인 엔비디아 GB200 NVL72의 핵심 구성요소다. 이 시스템은 72개의 블랙웰 GPU와 5세대 NV링크로 상호 연결된 36개의 그레이스 블랙웰 슈퍼칩과 36개의 그레이스 CPU가 결합돼 있다. 또한 GB200 NVL72에는 엔비디아 블루필드-3(BlueField-3) 데이터 처리 장치가 포함된다. 이는 하이퍼스케일 AI 클라우드에서 클라우드 네트워크 가속화, 컴포저블 스토리지, 제로 트러스트 보안, GPU 컴퓨팅 탄력성을 지원한다. GB200 NVL72는 LLM 추론 워크로드에서 엔비디아 H100 텐서 코어 GPU 대비 최대 30배의 성능 향상을 제공하며, 비용과 에너지 소비를 최대 25배까지 줄여준다.

GB200은 1.4 엑사플롭의 AI 성능과 30테라바이트의 고속 메모리를 갖춘 단일 GPU 역할을 하며 최신 DGX 슈퍼팟(DGX SuperPOD)의 빌딩 블록으로 활용되게 된다.

HGX B200

서버 보드 역시 HGX B200으로 업데이트됐다. NV링크를 통해 8개의 B200 GPU를 연결하는 서버 보드 제품이며, HGX B200은 엔비디아 퀀텀-2 인피니밴드와 스펙트럼-X 이더넷 네트워킹 플랫폼을 통해 최대 초당 400기가바이트의 네트워킹 속도를 지원한다.

클라우드 구동 가능성

GB200은 선도적인 클라우드 서비스 제공업체들과 공동 엔지니어링한 AI 플랫폼인 엔비디아 DGX 클라우드에서도 사용할 수 있다. 엔비디아 DGX 클라우드는 기업 개발자가 고급 생성형 AI 모델을 구축하고 배포하는 데 필요한 인프라와 소프트웨어에 대한 전용 액세스를 제공하고 있다. AWS, 구글 클라우드, 오라클 클라우드 인프라는 올해 말 새로운 엔비디아 그레이스 블랙웰 기반 인스턴스를 호스팅할 계획이다.

아울러 앤시스(Ansys), 케이던스(Cadence), 시놉시스(Synopsys)와 같은 엔지니어링 시뮬레이션 분야의 글로벌 선도업체가 블랙웰 기반 프로세서를 사용할 예정이다. 이를 통해 전기, 기계, 제조 시스템과 부품을 설계하고 시뮬레이션하는 자사 소프트웨어를 가속화할 것이다. 이들 기업의 고객은 생성형 AI와 가속 컴퓨팅을 사용해 더 낮은 비용과 더 높은 에너지 효율로 제품을 더 빠르게 출시할 수 있게 된다.

엔비디아의 소프트웨어 지원

블랙웰 제품 포트폴리오는 생산 등급 AI를 위한 엔드투엔드 운영 체제인 엔비디아 AI 엔터프라이즈(AI Enterprise)에서 지원된다. 엔비디아 AI 엔터프라이즈에는 이번에 발표된 엔비디아 NIM 추론 마이크로서비스와 기업이 엔비디아 가속 클라우드, 데이터센터, 워크스테이션에 배포할 수 있는 AI 프레임워크, 라이브러리, 툴이 포함된다.