인텔 “가우디 3 엔비디아 H100보다 추론 성능 50% 뛰어나”

인텔이 비전 2024 행사에서 AI 가속기 가우디 3를 공개하고 관련 전략을 함께 발표했다. 인텔에 따르면, 가우디 3는 엔비디아의 대표 GPU인 H100 대비 추론 성능 평균 50%, 전력 효율성 평균 40%, 더 뛰어난 가격 대 성능 비를 제공한다.

가우디 2와 비교하면 AI 컴퓨팅(FP8) 2배 혹은 4배(BF16), 네트워크 대역폭 2배, 메모리 대역폭 1.5배의 성능을 자랑한다.

가우디 3의 대표적인 특징은 이더넷을 통해 수만개의 가속기를 연결할 수 있다는 것이다. 이를 통해 70억~130억개의 매개변수를 갖춘 라마 2(LLaMa 2) 혹은 1750억개 매개 변수의 GPT-3 모델 전체에서 H100 대비 50% 높은 성능을 낼 것으로 기대하고 있다. 전력 효율성의 경우 70억~700억개 매개변수의 라마와 1800억개의 매개변수를 갖춘 팔콘(Falcon)에서 평균 40% 더 우수할 것으로 예상 중이다. 같은 변수 기준 H200보다도 30% 빠른 추론 성능을 갖추고 있다고 인텔은 주장한다.

[무료 웨비나] 아이덴티티 보안 없는 보안 전략은 더 이상 안전할 수 없습니다

◎ 일시 : 2025년 7월 15일 (화) 14:00 ~ 15:30
◎ 장소 : https://bylineplus.com/archives/webinar/53537

맞춤형 아키텍처로 생성형 AI 성능과 효율성 제공: 효율적인 대규모 AI 컴퓨팅을 위해 설계된 인텔 가우디 3 가속기는 5나노미터(nm) 공정으로 제조되며 이전 제품보다 크게 향상된 성능을 제공한다. MME(Matrix Multiplication Engine), 텐서 프로세서 코어(TPC), 네트워킹 인터페이스 카드(NIC) 등 모든 엔진을 병렬로 활성화할 수 있도록 설계되어 빠르고 효율적인 딥러닝 연산 및 확장에 필요한 가속화를 지원한다. 주요 특징은 다음과 같다.

가우디 3 특징

AI 전용 컴퓨팅 엔진: 인텔 가우디 3 가속기는 고성능, 고효율 생성형 AI 컴퓨팅을 위해 설계됐다. 각 가속기는 64개 AI 맞춤형 및 프로그래밍 가능한 TPC와 8개의 MME로 구성된 이종 컴퓨팅 엔진을 갖추고 있다. 가우디 3 MME는 6만 4천개의 병렬 연산을 수행할 수 있어 높은 수준의 연산 효율성을 제공하며, 딥 러닝 알고리즘의 기본 연산 유형인 복잡한 행렬 연산을 능숙하게 처리할 수 있다. 가우디 3만의 설계는 병렬 AI 작업의 속도와 효율성을 가속화하고 FP8 및 BF16을 비롯한 여러 데이터 유형을 지원한다.

LLM을 위한 메모리 가속: 128 GB의 HBMe2 메모리 용량, 3.7 TB의 메모리 대역폭, 96MB의 SRAM(온보드 정적 기억 장치)으로 더 적은 수의 인텔 가우디 3에서 대규모 생성형 AI 데이터세트를 처리할 수 있는 충분한 메모리를 제공하며, 특히 대규모 언어 및 멀티모달 모델을 제공하는 데 유용하여 워크로드 성능과 데이터센터 비용 효율성이 향상된다.

기업용 생성형 AI를 위한 효율적인 시스템 확장: 24개의 200Gb 이더넷 포트가 모든 인텔 가우디 3 가속기에 통합되어 있어 유연한 개방형 표준 네트워킹을 제공한다. 이를 통해 효율적인 확장이 가능해 대규모 컴퓨팅 클러스터를 지원하고 독점 네트워킹 패브릭이 한 벤더에 종속될 필요가 없다. 인텔 가우디 3 가속기는 단일 노드에서 수천 개까지 효율적으로 스케일업 및 스케일아웃할 수 있도록 설계되어 생성형 AI 모델의 광범위한 요구 사항을 충족한다.

개발자의 생산성을 위한 개방형 산업 소프트웨어: 인텔 가우디 소프트웨어는 파이토치(PyTorch) 프레임워크를 통합하며 오늘날 생성형 AI 개발자에게 가장 널리 사용되는 AI 프레임워크인 허깅 페이스(Hugging Face) 커뮤니티 기반 최적화 모델을 제공한다. 이를 통해 생성형 AI 개발자는 높은 추상화 수준에서 작업하여 사용 편의성과 생산성을 높이고 하드웨어 유형 간에 모델을 쉽게 이식할 수 있다.

가우디 3 PCle: 가우디 3 PCle 부속(add-in) 카드가 제품군에 새로 추가되었다. 저전력으로 높은 효율성을 제공하도록 맞춤 설계된 새로운 폼팩터는 미세 조정, 추론 및 RAG(retrieval-augmented generation)와 같은 워크로드에 이상적이다. 600와트의 풀 하이트 폼 팩터로, 128GB의 HBM2e 메모리 용량과 초당 3.7TB의 대역폭을 제공한다.

오픈 플랫폼으로서의 AI

인텔은 가우디 3를 발표하며 개방형 커뮤니티 기반 소프트웨어와 업계 표준 이더넷 네트워킹을 사용하겠다고 밝혔다. 특히 여러 업체와의 협업을 강조했는데, 보쉬, IBM, 올라/크루트림, 닐슨, 애니스케일(Anyscale), 아르큘8(Articul8), 데이터스택스(DataStax), 도미노(Domino), 허깅페이스(Hugging Face), KX 시스템즈(KX Systems), 마리아DB(MariaDB), MinIO, Qdrant, 레드햇(RedHat), 레디스(Redis), SAP, SAS, VMware, 옐로브릭(Yellowbrick), 질리즈(Zilliz)와 협력하여 엔터프라이즈 AI를 위한 개방형 플랫폼 개발 계획을 발표했다.

국내에서는 네이버와 함께 LLM 소프트웨어 개발을 한다고 발표했다.

네이버와의 협업

인텔은 비전 2024 행사에서 네이버와의 협업도 발표했다. 네이버와의 협업은 가우디 2를 기반으로 한다. 네이버와의 협업은 LLM 구축보다는 LLM을 위한 소프트웨어 구축에 초점이 맞춰져 있다. 예를 들어 쿠다 코딩은 제품이 바뀔 때마다 코딩이 바뀌어야 하므로, 엔비디아는 코딩이 필요 없는 바이너리 파일을 직접 제공 중이다. 인텔과 네이버의 협업은 엔비디아가 개발사들에게 제공하는 바이너리 파일과 같은 LLM 전용 소프트웨어를 제작하고, 이를 오픈 소스로 공개하는 것이다. 주요 대상은 국내 스타트업과 학교 등이 될 것이다. 행사 발표를 맡은 이동수 박사(네이버 클라우드)는 “가우디 2는 전력 대비 성능이 뛰어나고, 폭넓은 데이터 센터 운영 경험이 있어 안정적인 운영이 가능할 것이라고 본다”며 인텔과의 국내 협업에 대한 소회를 밝혔다.

출시일

인텔 가우디 3 가속기는 2024년 2분기에 범용 베이스보드 및 개방형 가속기 모듈(OAM)의 산업 표준 구성으로 OEM에 제공될 예정이다. 가우디 3를 시장에 출시할 주요 OEM 업체는 델 테크놀로지스(Dell Technologies), HPE, 레노버(Lenovo), 슈퍼마이크로(Supermicro) 등이다. 인텔 가우디 3 가속기의 GA(General availability)는 2024년 3분기로 예정되어 있으며, 인텔 가우디 3 PCIe 애드인 카드는 2024년 마지막 분기에 출시될 것으로 예상된다.

글. 바이라인네트워크
<이종철 기자> jude@byline.network