케이투스, AI 데이터센터 운영 플랫폼 ‘KSManage’ 업그레이드
케이투스(KAYTUS)는 AI 데이터센터 운영·관리 플랫폼 KSManage를 업그레이드했다고 20일 발표했다.
새로운 KSManage는 부품·서버·캐비닛·클러스터·AI 작업에 이르는 4단계 통합 가시성을 제공해 복잡해지는 AI 데이터센터 환경에서 높은 가용성과 안정적인 운영을 보장한다.
KSManage는 장애 원인을 보다 정밀하게 식별하고, 사고 대응 속도를 높이며, 사전 예방형 운영을 가능하게 한다. 케이투스는 KSManage를 통해 고객이 데이터센터의 가용성을 극대화하고, 운영 효율을 개선하며, 차세대 컴퓨팅을 뒷받침하는 핵심 AI 데이터센터의 안정성을 확보할 수 있도록 지원한다. 이를 통해 복잡한 장애 분석, 증가하는 부품 고장률, 복잡한 애플리케이션 의존성, 그리고 지연되는 운영·유지보수(O&M) 대응 문제를 효과적으로 해결한다.
국내에서도 AI 모델 학습과 추론 수요가 급증하면서 고밀도 GPU 서버와 대규모 AI 클러스터를 운영하는 데이터센터가 빠르게 늘어나고 있다. 높은 전력 비용, 한정된 부지, 24시간 무중단 운영 요구가 결합된 한국 환경에서는 장애를 조기에 탐지하고 자원을 정밀하게 관리할 수 있는 운영 가시성이 핵심 경쟁력이 되고 있으며, KSManage는 이러한 국내 AI 데이터센터 운영 환경에 최적화된 통합 가시성 플랫폼으로 한국 고객의 안정적인 AI 인프라 운영을 지원한다.
대규모 언어 모델(LLM)의 빠른 발전으로 AI 데이터센터 구축이 가속화되면서, CPU·GPU·DPU가 혼합된 아키텍처와 지역 간 협업 환경이 빠르게 확산되고 있다. 이러한 변화는 운영 및 유지보수(O&M)의 복잡도를 크게 높이고 있으며, 단 한 번의 장애만으로도 100만 달러 이상의 손실이 발생할 수 있어 운영 안정성이 핵심 과제로 대두되고 있다. 국내에서도 AI 모델 학습과 추론 수요 급증으로 고밀도 GPU 서버와 대규모 AI 클러스터 운영이 확산되고 있으며, 높은 전력 비용과 24시간 무중단 운영 요구가 결합된 환경에서 정밀한 운영 가시성이 경쟁력 확보의 핵심 요소가 되고 있다.
컴퓨팅·네트워크·스토리지·전력이 긴밀하게 연결된 환경에서 기존의 분산형 모니터링 방식은 전체 시스템을 통합적으로 파악하기 어려워, 장애 원인 분석과 복구를 지연시킨다.
고전력·고밀도 운영 환경에서 GPU와 스토리지의 고장 위험이 빠르게 증가하고 있지만, 실시간 상태 추적과 추세 분석이 부족해 사전 경고와 예방 조치가 어렵다.
GPU 메모리 누수, 인피니밴드 패킷 손실과 같은 하드웨어 문제를 개별 AI 학습·추론 작업과 직접 연결하지 못하면, 실제 비즈니스 영향과 연산 손실을 정확히 파악하기 어렵다.
수작업 위주의 운영과 전문 인력 부족이 맞물리면서 MTTR이 증가하고 대응 속도가 저하되며, 오류 발생 가능성도 함께 높아지고 있다.
업그레이드된 KSManage는 이러한 네 가지 핵심 과제를 해결하기 위해 부품–서버 및 캐비닛–클러스터–AI 작업으로 이어지는 4단계 통합 가시성 체계를 구축했다. 이를 통해 AI 데이터센터 전체를 하나의 연관된 시스템으로 인식하고, 장애를 사전에 감지하고 자동으로 대응할 수 있는 기반을 제공한다.
먼저 KSManage는 실시간 3D 시각화 기반 풀스택 연관 가시성을 제공한다. GPU·CPU 사용률, 전력 소비, 네트워크 대역폭, 스토리지 상태 등 핵심 운영 지표를 실시간으로 수집해 이벤트 로그와 함께 통합 분석하며, 자동 토폴로지 탐색 기능을 통해 노드 간 워크로드 흐름을 시각적으로 추적한다. 이를 통해 운영자는 장비 단위가 아닌 전체 시스템 관점에서 문제를 인식할 수 있으며, 장애 원인을 보다 빠르고 정확하게 파악해 문제 해결 효율을 최대 90%까지 향상시킬 수 있다.
예측 기반 하드웨어 상태 관리 기능을 통해 GPU와 스토리지 등 핵심 부품의 성능 추이를 분석하고, 이상 징후를 조기에 포착해 최대 7일 전에 고장 위험을 예측한다. 이를 통해 계획되지 않은 다운타임을 줄이고, 부품 교체와 유지보수를 보다 효율적으로 수행할 수 있다.
KSManage는 인프라 장애와 AI 워크로드를 연결하는 종단 간 연관 가시성을 제공한다. 대역폭, 지연 시간, 패킷 손실과 같은 지표를 개별 AI 학습·추론 작업과 직접 매핑해 분석함으로써, 인프라 또는 네트워크 문제가 실제 비즈니스 워크로드에 미치는 영향을 즉시 파악할 수 있다. 또한 20%의 대역폭여유를 확보하고 내부 지연을 밀리초 수준, 패킷 손실률을 0.01% 이하로 유지해 광섬유 장애와 같은 문제를 특정 LLM 트레이닝 워크로드에 정밀하게 매핑할 수 있도록 한다. 이를 통해 학습 중단, 재시작, 롤백으로 인한 불필요한 연산 자원 낭비를 최소화한다.
KSManage는 지능형 자동화 O&M 프레임워크를 통해 장애 감지, 원인 분석, 대응 및 복구 전 과정을 자동화한다. 지식 그래프와 시계열 이상 탐지 기술을 결합해 자동 백업 성공률 99.8%를 달성하고, 5분 이내에 최대 90%의 장애 원인을 자동으로 식별하며, 운영·유지관리(O&M) 효율을 최대 4배까지 향상시킨다. 또한 스토리지 용량 리스크를 최대 3일 전에 예측하고 자동 격리·복구 체계를 통해 총소유비용(TCO)을 최대 40%까지 절감함으로써, 평균 복구 시간(MTTR)을 크게 줄이고 데이터센터의 전반적인 가용성과 운영 효율을 향상시킨다.
케이투스는 KSManage를 포함한 AI 데이터센터 운영 솔루션을 한국 시장에 본격적으로 확대하고, 국내 클라우드 사업자 및 AI 인프라 운영 기업과의 기술 협력과 파트너십을 강화할 계획이다. 이를 통해 한국 AI 데이터센터의 안정성과 운영 효율성 향상을 적극 지원한다.
글. 바이라인네트워크
<김우용 기자>yong2@byline.network
[무료 웨비나] IdentityTV 2026: 아이덴티티 보안의 미래를 지금 확인하세요.
일시 : 2026년 7월 9일 (목) 14:00 ~ 15:40



