임석현 메타넷엑스 차장(출처=바이라인네트워크)

데이터독으로 쿠버네티스와 AI 운영하기

AI 모델 추론이나 데이터 파이프라인 등 AI 마이크로 서비스들이 쿠버네티스 상에서 동작하는 구조가 일반화되면서, 많은 운영자가 복잡한 운영 환경에 직면하고 있다.

임석현 메타넷엑스 차장은 지난 24일 <바이라인네트워크>에서 개최한 ‘AI 시대를 준비하는 쿠버네티스’ 웨비나에서 풀스택 옵저버빌리티 플랫폼인 데이터독(Datadog)을 활용해 쿠버네티스부터 GPU, AI 기반 분석까지 단계별로 AI 인프라를 관리하고 장애에 대응하는 방안을 제시했다.

임 차장은 “쿠버네티스 환경은 서비스가 확장될수록 리소스가 빠르게 늘어나고, 전체 상태를 한눈에 볼 수 있는 가시성이 중요하다”며 “실제 운영 환경에서 단순히 리소스 규모만 확인하는 것만으로는 문제를 찾기 어려운 경우도 많다”고 설명했다.

그는 “AI 워크로드 운영 시, 파드가 수십에서 수백 개까지 동시에 동작하는 쿠버네티스 환경에서는 장애 발생 시 문제의 시작점을 빠르게 파악하는 것이 중요하다”며 “운영자들은 파드 재시작 원인을 찾기 어렵거나, 문제가 특정 서비스와 어떻게 관련되었는지 파악하기 어려운 고민을 공통적으로 겪는다”고 밝혔다.

데이터독은 대시보드에서 클러스터 수, 노드 수, 파드 수 등 주요 리소스 상태를 한눈에 확인할 수 있으며, 워크로드의 CPU나 메모리 ‘리퀘스트/리밋’ 값과 실제 사용량을 비교해 과도하게 리소스를 할당한 워크로드를 식별, 사용 효율을 확인할 수 있게 한다. 팬딩 상태의 파드, 컨테이너 재시작, 리플리카 부족 등 자주 발생하는 운영 이슈를 패턴 형태로 빠르게 파악하고, 문제가 발생한 리소스를 구체적으로 분석할 수 있다.

그는 “컨테이너가 정상적으로 실행되지 못하고 재시작을 반복하는 크래시 루프백 오프 상태는 흔하게 나타난다”며 “데이터독의 트러블 슈터 기능을 사용하면 파드 상태, 컨테이너 상태 정보를 기반으로 문제를 빠르게 확인하고, 로그 익스플로러를 통해 설정 파일을 찾지 못해 컨테이너가 실패한 상황 등의 근본 원인을 분석할 수 있다”고 말했다.

그는 “파드 상세 화면에서 야물(YAML) 설정 정보까지 함께 제공해 설정 오류를 빠르게 검토할 수 있다”고 덧붙였다.

AI 워크로드 환경에서 쿠버네티스 상태는 정상으로 보여도 GPU에서 병목이 발생하는 경우가 많다. GPU는 AI 인프라에서 가장 비싼 리소스이므로 최대한 활용도를 높이는 게 비용효율성을 높이는 방법이다.

데이터독에서 쿠버네티스 상의 GPU 인프라 현황을 확인하는 모습(출처=데이터독)

데이터독은 GPU 리소스 활용도를 높이기 위한 기능을 제공한다.

‘GPU 모니터링 서머리’ 화면에서 전체 GPU 규모, 활성화된 GPU, 효율적으로 사용되는 GPU 비율을 단계적으로 파악할 수 있으며, ‘얼로케이션 앤 프로비저닝’ 화면을 통해 GPU 리소스 활용도를 파악하고 인프라 확장이 필요한 시점을 판단할 수 있다. ‘워크로드 옵티마이제이션 오퍼티니티’ 화면을 통해 GPU를 할당받았으나 SM 액티비티나 코어 유틸라이제이션 지표가 최적 상태가 아닌 워크로드를 자동으로 탐지해 리소스 낭비를 줄이고 비용 최적화에 도움을 준다.

‘GPU 플랫 화면’에서는 SM 액티비티(GPU 연산 부하), GPU 메모리 사용량, 전력, 온도 지표 등 다양한 성능 지표와 함께 Xid 에러나 ECC 에러 같은 하드웨어 레벨 문제도 확인할 수 있다. 운영자는 GPU를 사용하는 프로세스 단위까지 추적할 수 있으며, 지표 모니터링 화면에서 파드를 클릭하면 쿠버네티스 익스플로러로 바로 연결되어 APM 데이터까지 연계 분석할 수 있다.

실제 운영 환경에 쿠버네티스, GPU, 애플리케이션 로그 등 다양한 텔레메트릭 데이터를 운영자가 직접 분석해야 하는 복잡성이 존재한다. 데이터독은 Bits AI SRE를 통해 이러한 분석 과정을 자동화한다.

Bits AI SRE는 경고(Alert)를 트리거로 AI 스스로 문제 분석을 시작하며, 단순히 하나의 지표가 아닌 GPU 매트릭, 쿠버네티스 매트릭, 애플리케이션 로그 등 다양한 데이터를 종합적으로 분석해 근본 원인 분석(RCA)을 도출한다. 가령 GPU 사용률 100% 상승 문제 발생 시 AI는 ‘특정 서비스의 엔드 포인트 요청이 원인이었으며, 배포나 설정 변경 가능성은 원인이 아님’ 식으로 판단하고, 근거도 정리한다.

그는 “Bits AI SRE는 최종 RCA뿐만 아니라, 그 결론에 도달하기까지의 분석 단계와 가설 검증 과정을 함께 보여줘 운영자가 분석의 근거까지 검증할 수 있도록 돕는다”며 “운영자는 AI에게 ‘에러 발생 APM 서비스 이름과 엔드 포인트 정보를 알려줘’ 같이 직접 질문해 필요한 정보를 바로 확인할 수 있으며, 분석 시 사용한 매트릭 정보들을 AI에게 요청하여 데이터의 연관성을 확인하는 것도 가능하다”고 설명했다.

그는 “데이터독과 같은 풀 스펙 옵저버빌리티 플랫폼을 활용하면 쿠버네티스, GPU, 애플리케이션 로그 등 다양한 데이터를 통합적으로 분석할 수 있다”며 “Bits AI SRE 기능을 통해 AI 기반 인사이트까지 활용해 복잡한 AI 워크로드 환경에서도 빠르고 정확하게 문제 원인을 분석하고 대응할 수 있다”고 강조했다.

글. 바이라인네트워크
<김우용 기자>yong2@byline.network

일간 바이라인 구독하기

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다


The reCAPTCHA verification period has expired. Please reload the page.