엔비디아 빠진 GPU 상호연결 컨소시엄, 정식 출범
‘反 NV링크’ 연합체, 내년 1분기 첫 사양 공개
GPU 상호연결의 개방형 표준을 구축하는 기업 연합체가 내년 첫 사양을 공개한다. 이 연합체는 엔비디아 ‘NV링크’와 인피니밴드의 독점력을 해체하려는 IT산업계의 집단 행동이다. AMD, 아마존웹서비스(AWS), 브로드컴, 시스코, 구글, HPE, 인텔, 메타, 마이크로소프트 등 유명 IT기업을 총망라해 회원사로 거느렸다.
최근 외신에 따르면, 울트라 액셀러레이터 링크 컨소시엄(이하 UA링크)은 내년 1분기 초당 200기가비트(Gbps) GPU 인터커넥트 스펙을 공개한다고 밝혔다.
현재 UA링크 컨소시엄은 공식 법인으로 설립된 상태다. 공개된 UA링크 1.0의 티저에 의하면, 새 사양은 GPU 등의 AI 가속기 간, 스위치 간 연결에 사용되는 네트워킹 표준으로 AI POD 내 최대 1024개 GPU에 레인당 최대 200Gbps의 스케일업 연결을 지원한다.
커티스 바우만 UA링크컨소시엄 의장은 “낸 1분기 UA링크 1.0 사양 출시는 AI 가속기와 스위치가 더 효과적으로 통신하고, 대규모 AI 모델 요구 사항을 충족하기 위한 메모리 액세스를 확장하며, 산업 협업의 이점을 입증할 수 있는 개방형 산업 표준을 확립하기 때문에 중요한 이정표”라고 밝혔다.
이 컨소시엄은 지난 5월 설립을 발표한 이래 새 GPU 네트워킹 표준 수립 작업을 이어오고 있다 UA링크 컨소시엄 참여사에 엔비디아는 빠졌다.
UA링크는 이전에 AMD, 인텔, 아리스타 등이 공동 설립한 울트라이더넷컨소시엄(UEC)과 연관된다. UEC는 이더넷 기반 GPU 클러스터 구축 기술을 수립하기 위해 만들어진 단체다. UA링크 1.0 공개도 울트라이더넷 1.0 출시와 비슷한 시점에 이뤄질 예정이다.
현재 생성형 AI와 대형언어모델(LLM)의 학습, 추론 등은 GPU를 필수로 활용하고, 엔비디아가 AI GPU 인프라 시장을 독점하고 있다. 엔비디아는 H100 GPU 탐재 서버의 여러 GPU를 연결하는데 NV링크를 제공하고, GPU 서버와 서버 간 연결에 고속 인피니밴드 스위치를 활용하라고 가이드한다.
인피니밴드 표준은 멜라녹스에서 독점하는데, 멜라녹스도 엔비디아 소유다. 엔비디아는 GPU, GPU 네트워킹 등 전 부문의 수직계열화를 달성한 상태에서 시장에서 막강한 지배력을 행사하고 있다.
기존 네트워킹 인프라로 확장성에 약점을 갖는 인피니밴드를 대신해 이더넷 기반의 GPU 클러스터링도 조금씩 늘어나는 추세다. 그런데 엔비디아는 일찌감치 이더넷 네트워킹 장비 사업에도 진출했고, 이더넷으로 H100 GPU 클러스터를 구성하는 상황에도 제품을 공급하고 있다. 엔비디아 네트워킹 사업은 연간 140억달러 매출을 거둬들일 정도로 성장했다. 이는 시스코와 화웨이의 데이터센터 매출과 맞먹는다.
최근 밀론 머스크 소유 회사인 xAI가 AI용 슈퍼컴퓨터인 콜로서스(Colossus)에 10만개 엔비디아 H100 GPU 클러스터를 구축하면서 인피니밴드 대신 이더넷을 채택했는데, 이 역시 엔비디아의 이더넷 제품인 스펙트럼-X 솔루션이 활용됐다.
기존 이더넷 네트워킹 솔루션 제공기업은 엔비디아와 AI 관련 사업에서 협력하면서도 동시에 엔비디아와 경쟁해야 하는 불리한 입장이다. ‘로키(RDMA over Converged Ethernet)’ 기술이 이더넷 진영에서 내놓은 대안인데 전체 백엔드 인프라를 교체해야 하기에 막대한 투자를 감당할 수 있는 일부 기업만 선제 도입하고 있다.
GPU와 GPU의 상호연결을 맡는 부분도 엔비디아 NV링크 대신 PCIe를 사용할 수 있지만, 성능 부족 때문에 고성능 GPU 클러스터에선 한계를 드러낸다. 사실상 대체재가 없는 상황. UA링크는 산업 전반에서 AI 가속의 확장을 개방적으로 수행할 수 있는 표준을 수립하는 목표를 갖고 있으며, 장기적으로 NV링크란 독점 기술의 해체를 바라보고 있다.
구글, 마이크로소프트, AWS 등 클라우드 인프라 제공업체는 엔비디아 GPU 클러스터를 대규모로 구축하는 한편, 엔비디아 의존에서 탈피하려 자체 칩과 더불어 독자 네트워킹 기술 확보에 투자해왔다.
현재 UA링크는 컨소시엄에 다른 기업의 가입을 독려하고 있다. 현 컨소시엄 참여사는 UA링크 1.0 사양을 일반 공개 시점인 내년 1분기보다 한발 앞서서 올해 중 전달받게 된다.
UA링크가 NV링크를 대체하기까지 시간은 많이 필요할 것으로 보인다. 델테크놀로지스가 UA링크 컨소시엄에 참여하지 않고 있고, 스위치와 서버, 스마트NIC 제조업체의 UA링크 투자가 얼마나 빠른 속도로 이뤄질 지 불확실하다.
성능적으로 NV링크의 우위가 독보적이다. 현재의 4세대 NV링크는 GPU 상호연결에서 900Gbps 속도를 제공한다. 젠슨 황 엔비디아 회장은 “UA링크 1.0이 나올 시점이면 NV링크는 6이나 7세대에 이를 것”이라고 자신감을 표시했다.
글. 바이라인네트워크
<김우용 기자>yong2@byline.network