(출처=데이터독)

데이터독, GPU 모니터링 공개…AI 운영 비용 관리 겨냥

데이터독은 23일 GPU 모니터링 기능을 정식 출시했다고 발표했다. GPU 모니터링은 기업의 인공지능(AI) 인프라 운영 과정에서 발생하는 비용과 성능 문제를 관리하기 위한 기능이다. 회사 측은 이를 통해 워크로드 병목과 리소스 비효율을 파악할 수 있다고 전했다.

얀빙 리 데이터독의 제품책임자(CPO)는 “GPU 인스턴스가 전체 컴퓨팅 비용의 약 14%를 차지한다”며, “사업 부문별 비용 배분이나 워크로드 맥락 파악이 쉽지 않다”고 설명했다.

데이터독은 기존 GPU 관리 도구가 장비 상태 중심의 기본 지표에 머무르는 경우가 많아, 부서 간 리소스 불균형이나 유휴 장비 식별이 어렵다고 지적했다. 이로 인해 과도한 자원 할당과 비용 증가로 이어질 수 있다고 회사는 주장했다.

데이터독 GPU 모니터링은 AI 스택 전반의 데이터를 단일 화면에서 보여주는 기능을 제공한다. 데이터독은 “새 기능이 텔레메트리 데이터와 워크로드를 연결해 문제 분석을 단순화한다”고 설명했다. 플랫폼 엔지니어와 머신러닝 팀이 동일한 화면에서 원인을 확인할 수 있다는 입장이다.

회사는 해당 기능을 통해 ▲GPU 구매 및 활용 계획 수립 ▲워크로드 지연 원인 분석 ▲장애 사전 대응 ▲리소스 재할당 등을 지원한다고 밝혔다.

데이터독은 GPU 모니터링과 자사 LLM 옵저버빌리티 기능을 결합할 경우, 모델 성능과 인프라 지표를 함께 확인할 수 있다고 설명했다.

글. 바이라인네트워크
<김원민 기자>wmkim627@byline.network

일간 바이라인 구독하기

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다


The reCAPTCHA verification period has expired. Please reload the page.