배스트 데이터, SK텔레콤 블랙웰 기반 GPUaaS 플랫폼 구축
AI 운영 시스템 기업 배스트데이터는 SK텔레콤과 파트너십을 체결하고, 엔비디아 블랙웰 GPU 기반 AI 플랫폼을 구축한다고 18일 밝혔다.
‘해인(Haein) 클러스터’로 명명된 이 AI 인프라는 GPUaaS를 위해 설계되었으며, 과학기술정보통신부의 ‘AI 컴퓨팅 자원 활용 기반 강화 (GPU 임차 지원) 사업’에 선정돼 국가 AI 파운데이션 모델 개발에 적극 활용될 예정이다.
SK텔레콤은 자사의 선진 네트워크 및 데이터 센터 인프라와 VAST AI OS를 소버린 AI 클라우드의 핵심 구성 요소로 결합함으로써, AI 인프라 전 구간을 가상화해 유연성과 보안성을 갖춘 차세대 GPUaaS 환경을 제공하고 있다.
기존의 베어메탈 기반 AI 인프라는 새로운 워크로드를 프로비저닝하기 위해 며칠 또는 몇 주가 소요돼 개발자 및 기업들에게 큰 병목 현상으로 작용해왔다. SK텔레콤은 이러한 지연을 해소하기 위해 배스트 데이터에 통합된 가상화 AI 인프라 스택인 ‘페타서스AI 클라우드’를 구축했다. 이를 통해 거의 베어메탈에 가까운 성능을 유지하면서도 단 10분 만에 GPU 환경을 가동할 수 있게 됐다.
페타서스 AI 클라우드는 배스트의 분리형 공유(DASE) 아키텍처와 슈퍼마이크로의 엔비디아 HGX 서버 아키텍처를 결합해, 대규모 AI 학습 및 추론을 지원하는 고성능, 보안, 멀티 테넌트 환경을 구현한다.
SK텔레콤의 페타서스 AI 클라우드에 네이티브 통합으로 제공된 VAST AI OS는 모든 AI 서비스를 주권 영토 내에서 완벽하게 운영할 수 있도록 지원한다. 10분 이내에 GPU 환경을 프로비저닝하며, 베어메탈과 동일한 성능을 제공한다. 데이터 프라이버시 및 성능 보장을 통해 워크로드를 완벽하게 격리한다. AI 개발 및 배포의 전체 라이프사이클을 단순화한다. 클라이언트 측 게이트웨이나 특정 공급업체의 독점적인 불필요한 기능 없이도 네이티브 멀티 프로토콜 접근이 가능하다.
최소한의 오버헤드 만으로 캐리어-그레이드(통신 서비스 수준의) 복원력을 제공하고, 지속적으로 증가하는 공공 및 민간 부문의 AI 혁신 수요를 충족하도록 설계됐다. 각 테넌트의 특정 요구사항에 맞춰 GPU, 스토리지 리소스 및 네트워크 패브릭을 자동으로 프로비저닝하고 격리한다.
수닐 차반 배스트 데이터 아시아태평양 담당 부사장은 “초기 논의 단계부터 SK텔레콤이 엔터프라이즈급의 가동 시간 및 국가 규모의 추론, 학습 속도와 복잡성에 부합하는 최첨단 인프라를 필요로 한다는 점이 명확했다”며 “배스트는 데이터 이동, 프로비저닝, 보안과 관련된 기존의 병목 현상을 제거함으로써, SK텔레콤이 대한민국을 위한 빠르고 유연한 소버린 AI 인프라를 대규모로 구축할 수 있도록 지원하고 있다”고 강조했다.
SK텔레콤 AI DC 랩을 총괄하는 이동기 부사장은 “배스트 데이터의 통합 아키텍처는 우리가 기존의 베어메탈 환경에서 완전히 가상화된, 실제 운영 가능한 AI 클라우드로 전환하는 데 결정적인 역할을 했다”며 “VAST AI OS는 차세대 소버린 AI 워크로드를 지원하는 데 필요한 성능, 단순성, 유연성을 제공하며, 빠르고 안전하게 규모를 확장할 수 있다는 확신을 줬다”고 밝혔다.
이 부사장은 “SK텔레콤은 배스트와의 협력을 통해 공공사업·연구과제·기업용 AI 도입 등 다양한 분야의 까다로운 요구사항을 충족하는 GPUaaS 플랫폼을 제공하고 있다”고 덧붙였다.
글. 바이라인네트워크
<김우용 기자>yong2@byline.network