KAYTUS 클라우드 인프라

KAYTUS, 유럽서 4개월만에 수냉 AI 데이터센터 구축

케이투스(KAYTUS)는 통합 턴키 서비스를 통해 대규모 수냉식 AI 데이터센터 구축 속도를 크게 단축하고 있다고 8일 밝혔다.

KAYTUS는 설계부터 설치, 시운전, 성능 최적화, 가동까지 전 과정을 하나로 묶은 원스톱 엔드투엔드 서비스를 제공하며, 복잡한 AI 인프라 구축 과정에서 발생할 수 있는 리스크와 운영 부담을 효과적으로 줄이고 있다.

KAYTUS는 최근 유럽에서 100캐비닛 규모의 고밀도 수냉식 AI 데이터센터를 약 4개월 만에 구축했다. 이는 기존 데이터센터 구축 방식과 비교해 최대 80% 빠른 수준이다.

구축 과정에서 정밀한 성능 테스트와 튜닝을 진행해 시스템 전반의 성능을 약 20% 향상시켰으며, 현장 환경에 맞춘 최적화를 통해 안정적이고 효율적인 서비스 운영을 구현했다. 이번 프로젝트는 고밀도 수냉식 AI 인프라를 단기간에 구축할 수 있는 실증 사례로, 국내에서도 AI 데이터센터 구축 수요가 급증하고 있는 가운데, 이번 유럽 프로젝트 성과는 한국 시장에서도 의미가 크다. 특히 제한된 부지와 전력 인프라 환경에서 고밀도 AI 컴퓨팅 자원을 효율적으로 구축해야 하는 국내 기업들에게 실질적인 솔루션을 제시한다.

해당 사례의 고객사는 전자상거래, 핀테크, 디지털 미디어 분야를 대상으로 컴퓨팅·스토리지·네트워크 서비스를 제공하는 유럽의 인프라 유니콘 기업이다. AI 워크로드가 빠르게 증가하는 상황에서 제한된 시간과 자원, 높은 기술적 복잡성 속에서도 신속한 AI 클러스터 구축이 요구되는 과제를 안고 있었다.

차세대 AI 데이터센터의 고전력 밀도를 안정적으로 지원하기 위해 고객사는 수냉 방식을 핵심 냉각 솔루션으로 선택했다. 그러나 수냉 인프라는 2차 루프의 열교환 효율, 냉각수 품질 관리, 누수 감지 및 실시간 모니터링 등 여러 요소가 정밀하게 맞물려야 하는 고난도 구조다. 특히 데이터센터 전반에 걸쳐 설치되는 배관 네트워크는 설계와 시공 난도가 높아, 구축 과정에서 리스크를 크게 키우는 요인으로 작용했다.

AI 컴퓨팅 자원 임대 수요가 급격히 증가하면서 고객사는 매우 제한적인 시간 내 데이터센터 구축을 요구했다. 일정 지연은 곧 계약 이슈와 매출 손실로 이어질 수 있는 상황이었다. 통상 10~12개월이 소요되는 수냉 AI 데이터센터 구축 방식을 대체할, 보다 빠르고 효율적인 구축 전략이 절실했다.

하드웨어 설치 이후에도 초기 기대 수준의 연산 성능을 즉시 확보하기는 쉽지 않았다. 드라이버, 펌웨어, 소프트웨어 버전 간 복잡한 의존성으로 인해 성능 저하가 발생했고, 메모리 할당 구조, I/O 경로, 네트워크 스택 등 시스템 전반에서 병목 현상이 나타났다. 인프라 투자 효과를 극대화하기 위해서는 단순 구축을 넘어, 전문적인 성능 분석과 튜닝 역량이 핵심 과제로 떠올랐다.

KAYTUS는 모듈형 딜리버리와 전문 서비스를 결합한 통합 턴키 서비스를 통해, 수냉 인프라 구축에서 흔히 발생하는 복잡성, 촉박한 일정, 성능 저하 문제를 동시에 해결한다. 설계 단계부터 구축, 검증, 가동까지 전 과정을 하나로 통합해 관리하며, 현장 환경에 최적화된 맞춤형 설계와 운영 서비스를 통해 안정성과 효율을 함께 확보한다.

KAYTUS는 캐비닛 단위로 완전히 사전 제작된 수냉 시스템을 공장에서 통합·검증하는 모듈형 딜리버리 방식을 도입했다. 수냉 서버를 비롯해 퀵 디스커넥트(QD) 커넥터, 분배·회수 매니폴드, CDU 등 핵심 구성 요소를 공장 단계에서 하나의 시스템으로 통합해, 이른바 ‘캐비닛 단위 시스템’ 아키텍처를 구현했다.

각 캐비닛은 출하 전 표준화·자동화된 사전 검증 절차를 거친다. 공장 내에서 압력 테스트와 냉각수 컨디셔닝, 냉각수 및 전원 인가 상태에서의 번인 테스트를 완료하며, 지능형 배수 및 건조 공정과 질소 충전 보호까지 적용해 운송과 설치 과정에서의 안정성을 확보했다. 이러한 사전 검증을 통해 캐비닛별 품질 편차를 최소화하고, 일관된 딜리버리 품질을 유지할 수 있도록 했다.

이 방식으로 현장에서는 복잡한 2차 루프 수냉 배관을 별도로 시공할 필요가 없으며, 표준화된 인터페이스를 통해 데이터홀의 주 냉각 루프에 연결한 뒤 최소한의 시운전만으로 즉시 가동이 가능하다. 그 결과 현장 설치 시간은 기존 수일 단위에서 수시간 수준으로 대폭 단축됐고, 서버룸 인프라 구축과 AI 클러스터 배포를 분리함으로써 현장 복잡성과 구축 리스크 역시 크게 낮아졌다. KAYTUS는 이러한 접근 방식을 통해 100캐비닛 규모의 고밀도 수냉 AI 데이터센터를 약 4개월 만에 성공적으로 구축했으며, 고속 구축과 안정적인 품질을 동시에 확보하는 새로운 AI 데이터센터 구축 모델을 제시했다.

복잡한 현장 설치 환경에 대응하기 위해 KAYTUS 전문 서비스 팀은 구축 전 과정에서 다양한 맞춤형 설계와 시공 방식을 적용했다. 현장 여건을 정밀하게 분석한 뒤 이를 설계와 배포 단계에 반영함으로써, 데이터센터 전반에서 최적의 열 성능과 구조적 안정성을 동시에 확보했다.

우선 열기류 혼합으로 인한 냉각 효율 저하를 방지하기 위해 현장 실측과 3차원 모델링을 기반으로 랙 열(row) 단위의 고기밀 핫·콜드 아일 컨테인먼트 시스템을 설계했다. 이를 통해 공기 흐름을 정밀하게 제어하고, 고밀도 환경에서도 안정적인 냉각 효율을 유지할 수 있도록 했다. 또한 캐비닛 통합 이후 발생할 수 있는 바닥 단차로 인한 하중 불균형과 캐비닛 이동 문제를 최소화하기 위해, 높이 조절이 가능한 조인트 브래킷과 보강형 레벨링 풋(leveling feet)을 자체 설계·적용했다.

이를 통해 제한적인 현장 조건에서도 캐비닛 어레이 전반에 걸쳐 정확한 수평을 유지하고, 장기 운영을 고려한 구조적 안정성을 확보했다. 액체냉각 파이프라인은 시스템 안정성을 좌우하는 핵심 요소인 만큼, KAYTUS는 고도로 통제된 정밀 시공 방식을 적용했다. 이중 바닥 하부와 상부 케이블 트레이에 밀집된 배관을 안정적으로 지지하기 위해 다단계 파이프 보강 구조와 진동 감쇠 설계를 도입했으며, 이를 통해 장기간 운영 환경에서도 배관 고정 상태를 안정적으로 유지하도록 했다. 그 결과 지속적인 진동으로 인한 인터페이스 이완 가능성을 사전에 차단했다.

KAYTUS는 시스템 설치부터 애플리케이션 검증, 성능 최적화에 이르기까지 전 과정을 아우르는 전문 서비스를 제공해, 설계 단계에서 목표로 한 시스템 성능이 실제 운영 환경에서도 구현될 수 있도록 지원한다. 특히 클러스터 가동 이전 단계에서 이른바 ‘라스트 마일’ 작업까지 완결함으로써, 안정적인 서비스 오픈을 가능하게 했다.

설치 과정에서는 기존의 중앙집중식 노드 단위 배포 방식 대신, KAYTUS의 PODsys 병렬 배포 기술을 적용해 여러 캐비닛에 걸쳐 동시에 시스템을 설치했다. 이를 통해 모든 캐비닛에서 운영체제 커널, 드라이버, DOCA 버전의 완전한 일관성을 확보했다. 그 결과 20개 캐비닛, 360개 노드에 대한 배포를 단 40분 만에 완료했으며, 이는 기존 방식 대비 7.8배 이상의 효율 향상을 기록한 수치다.

테스트 및 튜닝 단계에서는 파일럿 검증과 대규모 검증을 병행하는 전략을 적용했다. 먼저 두 개 캐비닛을 대상으로 한 개념 검증(POC)을 계획보다 앞서 완료했으며, 이 과정에서 하드웨어 적합성, 시스템 및 소프트웨어 호환성, 성능 달성 여부, 신뢰성까지 종합적으로 검증했다. 이후 해당 결과를 바탕으로 노드, 캐비닛, 다중 캐비닛 단위에서 네트워크 및 성능 스트레스 테스트를 확대 수행했다. 이러한 접근 방식은 POC 통과율을 기존 대비 300% 이상 끌어올리는 동시에, 전체 구축 일정 역시 크게 앞당겼다.

정밀한 테스트 결과를 기반으로 KAYTUS는 접근 경로 최적화, 메모리 할당 구조 개선, I/O 경로 가속, 네트워크 프로토콜 스택 최적화 등 핵심 영역 전반에 걸쳐 시스템 수준의 성능 튜닝을 수행했다. 그 결과 베어메탈 기준 테스트와 비교해 부동소수점 연산 성능(GEMM), 병렬 처리 및 통신 효율(NCCL), 학습 성능 및 효율(LLaMA) 등 대표적인 벤치마크에서 전체 성능이 약 20% 향상됐다. 이는 KAYTUS가 대규모 수냉식 AI 데이터센터에서도 예측 가능하고 일관된 고성능을 구현할 수 있는 역량을 갖추고 있음을 보여준다.

이와 같은 혁신적인 통합 턴키 서비스 모델을 통해 KAYTUS는 100캐비닛 규모의 고밀도 수냉 AI 클러스터를 단 4개월 만에 구축·배포·검증·최적화까지 완료하며, 기존 대비 80% 이상의 효율 향상을 달성했다. 아울러 전문적인 성능 테스트와 튜닝 서비스를 통해 애플리케이션 성능을 약 20% 끌어올리며, 고객이 직면한 긴급한 사업 전개 과제를 안정적으로 해결했다.

손영락 KAYTUS 코리아 부사장 겸 AI 최고전략책임자는 “이번 유럽 프로젝트를 통해 검증된 통합 턴키 서비스 모델을 국내에도 적용할 계획”이라며 “한국의 높은 전력비용과 여름철 고온 환경을 고려할 때, KAYTUS의 고효율 액체냉각 솔루션은 특히 유효하다”고 설명했다.

그는 “기존 공랭식 대비 냉각 효율을 대폭 개선하여 전력 사용량을 최대 30% 절감할 수 있어, TCO 최적화 측면에서 국내 기업들에게 경쟁력 있는 대안을 제공할 것”이라고 덧붙였다.

글. 바이라인네트워크
<김우용 기자>yong2@byline.network

일간 바이라인 구독하기

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다


The reCAPTCHA verification period has expired. Please reload the page.