엔비디아, 피지컬 AI용 월드 모델 ‘코스모스 3’ 출시

엔비디아가 대만 타이베이에서 열린 ‘엔비디아 GTC 타이베이’에서 ‘코스모스 3(Cosmos 3)’를 출시했다고 1일 밝혔다. 코스모스 3는 텍스트와 이미지, 비디오, 음성, 액션 데이터를 함께 이해하고 생성할 수 있는 멀티모달 모델이다.

이번 모델은 비전 추론과 월드 생성, 액션 예측 기능을 하나의 시스템으로 통합했다는 특징이 있다. 엔비디아에 따르면 코스모스 3는 추론용 트랜스포머와 생성용 트랜스포머를 결합한 구조를 적용했다. 이를 통해 비디오나 행동 경로를 생성하기 전에 객체 간 상호작용과 움직임, 시공간 관계를 분석할 수 있도록 설계됐다.

회사는 이를 통해 로봇과 자율주행차가 제한된 학습 데이터와 시뮬레이션 환경에서도 실제 환경에 보다 쉽게 적용될 수 있도록 지원한다고 설명했다. 또 수십억 개 규모의 텍스트·이미지·비디오·음성·액션 데이터를 기반으로 학습됐으며, 개발에 필요한 데이터 확보와 학습 비용 부담을 낮출 수 있다고 덧붙였다.

코스모스 3는 활용 목적에 따라 ‘슈퍼, 나노, 엣지’ 등 세 가지 제품군으로 제공된다. 코스모스 3 슈퍼는 로봇과 자율주행차 모델의 학습·고도화에 초점을 맞췄다. 코스모스 3 나노는 짧은 지연시간이 필요한 환경에서 비디오와 액션 추론을 수행하도록 설계됐다. 코스모스 3 엣지는 기기 내 실시간 추론을 지원하는 모델로 출시를 앞두고 있다.

엔비디아는 코스모스 플랫폼도 함께 운영하고 있다. 이 플랫폼은 로봇과 자율주행차, 비전 AI 개발에 필요한 데이터셋과 모델, 개발 도구를 제공한다. 현재 삼성전자와 LG전자, 두산로보틱스, 스킬드 AI 등이 로보틱스 분야에서 활용하고 있다. 자율주행차 업체 리오토도 플랫폼을 사용하고 있다.

젠슨 황 엔비디아 최고경영자(CEO)는 “멀티모달 추론과 비전·월드 모델 기술 발전으로 피지컬 AI 확산이 가속화될 것”이라며 “코스모스 3가 로봇과 자율주행차, 비전 AI 개발에 활용될 수 있을 것”이라고 말했다.글. 바이라인네트워크
<김원민 기자>wmkim627@byline.network

일간 바이라인 구독하기

답글 남기기 응답 취소