쿠버네티스, 생성형 AI 워크로드의 OS로 자리잡았다
클라우드네이티브컴퓨팅재단(CNCF)의 연례 클라우드 네이티브 설문조사 결과가 올해에도 발표됐다. CNCF는 올해 보고서에서 쿠버네티스가 AI 워크로드의 운영체제(OS)로서 지배적 지위를 차지했다고 강조했다.
CNCF는 최근 ‘2025 연례 클라우드 네이티브 설문조사: 미래 AI의 인프라’ 보고서를 발표했다. 조사에 참여한 조직의 98%는 클라우드 네이티브 기술을 도입했다고 답했다. 클라우드 네이티브 기술이 현대 애플리케이션 배포의 표준으로 확고히 자리잡았음을 보여준다.
보고서에 따르면, 컨테이너 사용자의 82%가 프로덕션 환경에서 쿠버네티스를 실행하고 있으며, 생성형 AI 모델을 호스팅하는 조직의 66%가 추론 워크로드의 일부나 전부를 관리하는 데 쿠버네티스를 사용하는 것으로 나타났다.
프로덕션 환경에서 쿠버네티스를 사용한다는 답변은 2023년 66%에서 대폭 증가했다. 조직의 59%는 개발과 대포의 대부분 혹은 거의 전부가 클라우드 네이티브 방식으로 이뤄진다고 답변했다.
다만, 쿠버네티스 신규 도입 속도는 둔화되는 양상이다. 조직의 10%가 클라우드 네이티브를 전혀 사용하지 않거나 초기 단계에 있다고 답했다.
AI에 쿠버네티스를 도입해야 하는 이유
쿠버네티스는 다양한 AI 워크로드를 배포하고 운영하는 인프라 환경에서 오케스트레이션 계층의 OS로 자리잡았다. 보고서는 쿠버네티스가 사실상 AI 플랫폼으로 자리 잡으면서 조직의 머신러닝 운영 접근 방식이 근본적으로 바뀌었다고 강조했다.
기존의 머신러닝 인프라는 데이터 과학 팀과 프로덕션 엔지니어링 팀 사이에 사일로를 만드는 전문화된 단일 플랫폼에 의존하는 경우가 많았다. 쿠버네티스는 기존 애플리케이션 워크로드와 컴퓨팅 집약적인 AI 작업을 모두 처리하는 통합 오케스트레이션 계층을 제공해 장벽을 허물었다.
쿠버네티스의 큐브플로우(Kubeflow) 같은 프로젝트는 엔드투엔드 머신러닝 워크플로우를 제공하고, 케이서브(KServe)는 대규모 모델 서빙을 처리한다. 쿠버네티스는 GPU 스케줄링 기능, 노드 선호도 규칙, 정교한 리소스 할당량 관리 기능 등을 도입해 여러 팀과 워크로드에 걸쳐 고가의 하드웨어 자원을 효율적으로 공유할 수 있게 했다.

보고서는 여전히 생성형 AI를 채택하는 조직에서 신중한 입장이라고 분석했다.
생성형 AI 워크로드에 쿠버네티스를 도입했다는 비율 66%의 구성을 보면, 완전히 도입했다는 비율은 23%고, 부분적으로 도입했다는 비율은 43%다. 조직이 신중하고 인프라 우선적인 접근 방식을 취하고 있다는 걸 보여준다.
추론 워크로드에 쿠버네티스를 완전히 도입한 23%는 진정한 ML옵스 성숙도를 달성한 조직이다. 이러한 팀은 모델 배포를 위한 깃옵스 워크플로우를 구현하고, 프로메테우스 및 그라파나를 통해 모델 성능 지표에 대한 강력한 모니터링 시스템을 구축했으며, AI 워크로드를 기존 CI/CD 파이프라인에 통합하고 있다.
부분 도입 그룹인 43%는 일반적으로 특정 사용 사례, 주로 배치 추론 작업 또는 개발 및 스테이징 환경에 쿠버네티스를 도입하고 프로덕션 환경에서는 기존 시스템을 유지하고 있다.
모델보다 인프라 운영 성숙도로 접근해야
AI 워크로드에 쿠버네티스 도입을 계획 중이라고 답한 18%는 독점 ML 플랫폼에 대한 기존 투자, 운영 복잡성에 대한 우려 또는 팀 재교육의 필요성과 같은 장애물을 우려한다.
보고서는 AI 워크로드를 쿠버네티스로 이전하는 것은 단순히 컨테이너화하는 것이 아니라, 컨테이너 레지스트리 또는 객체 스토리지를 통해 대규모 모델 아티팩트를 관리하는 것과 같은 고유한 요구 사항을 해결해야 한다고 설명했다. 모델이 GPU 친화적인 노드에 배포되도록 보장하고, 학습 파이프라인과 저지연 서비스에 대해 서로 다른 아키텍처 패턴을 설계하며, 머신러닝 모델에 특화된 카나리 배포 및 롤백 전략을 구현해야 한다고 조언했다.
조사 응답자의 44%는 쿠버네티스에서 AI/ML 워크로드를 실행하지 않는다고 답했다. 아직 AI를 현업 시스템에 배포하는 게 초기 단계에 있다는 걸 의미한다.
보고서는 많은 조직이 AI 모델 소비자로 존재한다는 결과를 보여준다. 추론에 생성형 AI를 사용하지 않는다는 답변이 34%였으며, 엔드포인트 API를 통해 매니지드 생성형 AI 서비스를 사용한다는 답변이 37%였다. AI 워크로드를 AWS, 애저, 구글클라우드 등에 직접 호스팅하고 있다는 답변은 25%, 온프레미스 환경에 호스팅한다는 답변은 25%였다.

설문 조사 대상 조직의 52%는 AI 모델을 구축하거나 학습시키지 않으며, 구축하는 조직조차 처음부터 구축하는 것이 아니라 자체 데이터를 기반으로 미세 조정하는 경우가 많다. 추론 워크로드가 서로 다른 확장성과 비용 최적화 전략을 요구하기 때문에 인프라 요구 사항에 영향을 미치기 때문으로 분석된다.
그러나 사전 학습된 모델을 사용하는 조직은 또다른 고유한 인프라 문제에 직면한다. 주요 초점은 모델 양자화, ONNX 런타임 최적화, 배치 전략과 같은 기술을 통한 추론 최적화로 옮겨간다. 학습에 몇 시간 또는 며칠의 GPU가 필요하지만, 추론은 지속적으로 실행되므로 비용 관리가 중요하다. 보고서는 정교한 자동 확장 정책을 구현해 요구 수준 낮은 워크로드에 CPU 기반 추론을 사용하고 지연 시간에 민감한 애플리케이션에 GPU 리소스를 예약할 수 있다고 조언했다.
매니지드형 API를 사용하는 37%는 인프라 제어보다 시장 출시 속도를 우선시하는 조직이다. 보고서는 쿠버네티스 기반 오케스트레이션 계층을 통해 여러 공급자에 걸쳐 재시도 로직과 폴백 전략을 구현하고, 공통 응답을 캐싱해 API 비용을 절감할 수 있다고 조언한다. 또한, 공급자별 API를 통합 인터페이스 뒤에 추상화하고, 다양한 서비스의 사용량과 비용을 모니터링할 수 있다고 덧붙였다.
온프레미스 호스팅 모델(25%)은 일반적으로 요청량이 월 100만건 이상의 추론을 초과하거나, 데이터 개인정보 보호 규정으로 인해 클라우드 API 사용이 금지되거나, 지연 시간 요구 사항으로 인해 로컬 배포가 필요한 경우에 타당하다. 보고서에서 온디바이스 AI(엣지) 배포가 13%를 차지해 새로운 AI 배포 옵션이 부상하는 것으로 나타났다. 이 경우 쿠버네티스 기반의 오케스트레이션 계층이 더 중요해진다.
AI로 성과 내기 위한 선결 과제
AI 인프라를 준비했더라도 매일 모델을 배포하는 조직은 7%에 불과했다. 47%가 가끔씩 도입한다고 답했다. 보고서는 AI 혁명의 체계적인 접근 방식으로 강력한 CI/CD, 모니터링 및 거버넌스 인프라를 필요로 하는 프로덕션 수준의 배포를 들었다.
기존 코드는 단위 테스트와 통합 테스트를 통해 신뢰성을 확보한다. 반면, AI 모델은 학습 과정에서 제외한 데이터로 성능을 테스트하는 등의 다양한 복잡한 테스트를 통해 통계적으로 검증해야 한다. 이런 검증 과정은 배포 속도를 늦추지만, 프로덕션 환경에서의 안정성을 위해 필수적이다.

매일 AI를 배포하는 7%는 새로운 데이터를 지속적으로 통합하는 자동화된 재학습 파이프라인을 구현했다. 모델을 정적 결과물이 아닌 지속적인 업데이트가 필요한 살아있는 시스템으로 취급한다. 나머지 93%의 조직은 이러한 수준에 훨씬 못 미친다.
쿠버네티스에서 AI/ML 워크로드를 실행하는 기업에서 다양한 실제 사용 사례가 나타나고 있다. 그리고 성공적으로 AI를 활용하는 조직일수록 모델뿐 아니라 인프라 측면에서 높은 성숙도를 보인다는 게 보고서의 분석이다. 보고서는 AI의 미래를 위해 인프라 우선 접근 방식이 필요하다고 강조한다. 캐싱 전략 구현, 리소스 할당량 사용, 소비량 모니터링, AI 워크로드를 가능하게 하는 오픈소스 프로젝트에 기여 등을 조언했다.
올해 보고서에서 나타난 클라우드 네이티브의 변화
보고서는 클라우드 네이티브 운영 성숙도의 핵심지표로 깃옵스를 들었다. 클라우드 네이티브 혁신 기업의 58%가 깃옵스 원칙을 광범위하게 사용하는 반면, 도입 기업은 23%에 불과하다는 걸 근거로 들었다. 내부 개발자 포털이 CNCF 프로젝트 중 개발 속도 면에서 5위를 차지하고 있다고도 강조했다.
올해 보고서에서 클라우드 네이티브 기술 중 활발히 연구되는 분야에서 오픈텔레메트리가 2위를 차지해 옵저버빌리티가 클라우드 네이티브 운영의 전략적 핵심으로 자리잡고 있는 것으로 조사됐다. 응답자의 20%는 현재 옵저버빌리티 스택의 일부로 프로파일링을 사용하고 있다고 답했다.
또한 클라우드 네이티브 도입의 주요 과제가 기술적 문제에서 조직적 문제로 전환된 것으로 나타났다. 더 많은 팀이 클라우드 네이티브 도구를 표준으로 사용하면서 쿠버네티스 도입의 가장 큰 장애물이 내부 소통, 팀 역학, 리더십의 합의 등으로 바뀌었다. 과거 가장 많이 언급됐던 도구의 복잡성, 보안 교육 부족 등은 후순위로 밀렸다. 응답자의 47%는 개발팀의 문화적 변화를 가장 큰 과제로 꼽았다.
리눅스 재단 연구소의 수석 부사장인 힐러리 카터는 “쿠버네티스가 AI를 포함한 최신 프로덕션급 시스템을 대규모로 배포하는 데 가장 효과적이고 안정적인 플랫폼임이 입증됐다”며 “올해 데이터는 클라우드 네이티브 진화의 다음 단계가 기술 자체만큼이나 사람과 플랫폼에 달려 있음을 보여주며, 이 두 가지 모두에 투자하는 조직은 분명한 경쟁 우위를 확보할 것”이라고 밝혔다.
글. 바이라인네트워크
<김우용 기자>yong2@byline.network



