래블업, GTC 2026서 소버린 AI 학습 인프라 운영 경험 공개
AI 인프라 전문 기업 래블업주식회사(대표 신정규, 이하 래블업)는 오는 16일부터 19일까지 미국 새너제이에서 열리는 ‘엔비디아 GTC 2026’에서 B200 GPU 504대 규모의 소버린 AI 학습 인프라 운영 경험을 공개한다고 13일 밝혔다.
래블업은 18일(현지시간) GTC 2026 시어터세션에서 73일간의 클러스터 운영에서 쌓은 내결함성 스케줄링 전략과 장애 복구 기법을 발표하며, 전시장에서 Backend.AI 컨티넘의 장애 자동 복구 체험과 DGX 스파크 기반 Backend.AI:GO 시연도 함께 진행한다.
신정규 대표는 세션 ‘Building Sovereign AI: Scaling 100B+ Model Training on NVIDIA Blackwell Infrastructure’에서 B200 60노드 이상(GPU 504대) 클러스터로 1000억 파라미터급 모델을 처음부터 학습시킨 과정을 발표한다. 이 프로젝트는 정부 주관 ‘독자 AI 파운데이션 모델 개발’ 과제의 일환으로, 래블업은 업스테이지 컨소시엄의 인프라 파트너로서 업스테이지의 솔라 오픈 100B 학습을 뒷받침했다.
래블업은 GPU 오류, NCCL(GPU 간 집합 통신 라이브러리) 타임아웃 등 대규모 분산 학습에서 반복적으로 발생하는 장애를 자동 감지하고 복구하는 내결함성 스케줄링 구조를 구축했다. 기존 대비 평균 장애 복구 시간을 47% 줄였고, 프로세스 재시작까지 3초 이내로 단축했다. NFS 드라이버 설정 오류 하나가 성능을 10분의 1로 떨어뜨린 사례를 추적·해결한 과정도 공유한다. 이 밖에 MXFP8(8비트 부동소수점) 정밀도에서의 학습 안정성 확보, RoCE 및 인피니밴드 환경에서의 NCCL 튜닝 등 블랙웰 세대에 맞춘 최적화 기법도 다룬다.
GTC2026 관람객을 위해 기술 시연도 준비했다. 래블업 부스 방문 관람객은 Backend.AI 컨티넘의 모델 라우트 기능을 직접 체험할 수 있다. 관람객이 네트워크 케이블을 뽑아 장애 상황을 만들면, 추론 요청이 다른 경로로 자동 전환되는 과정을 실시간으로 확인할 수 있다. 클라우드 접속이 끊겨도 로컬 자원으로 즉시 전환해 API 호출을 유지하는 컨티넘의 내결함성을 관람객이 손으로 직접 확인하는 방식이다.
엔비디아 DGX 스파크에서 구동되는 Backend.AI:GO도 함께 선보인다. Backend.AI:GO는 개인 노트북이나 데스크톱뿐 아니라 DGX 스파크처럼 128GB 통합 메모리를 갖춘 AI 전용 장비에서도 동작하며, 장비의 성능을 온전히 끌어내 사용자에게 로컬 AI 환경을 제공한다.
래블업 신정규 대표는 “504대의 B200을 73일간 운영하면서 대규모 분산 학습이 실전에서 어떻게 무너지고, 어떻게 다시 세우는지를 체계화할 수 있었다”며 “이번 GTC에서는 그 경험을 그대로 공유하고, 이를 바탕으로 국가와 산업이 독자적으로 AI를 운용할 수 있는 소버린 AI 인프라 구축의 비전을 제시하겠다”고 밝혔다.
글. 바이라인네트워크
<김우용 기자>yong2@byline.network


