(출처=알리바바)

알리바바, 큐원 기반 로봇 파운데이션 모델군 공개

알리바바 그룹이 큐원(Qwen) 모델 기반의 첫 로보틱스 파운데이션 모델 스위트인 ‘큐원 로봇 스위트(Qwen-Robot Suite)’를 17일 공개했다.

큐원 로봇 스위트는 3 가지 핵심 모델로 구성된다. 범용 비전-언어-액션(VLA) 모델인 Qwen-RobotManip, 확장 가능한 비전-언어 내비게이션(VLN) 모델인 Qwen-RobotNav, 구현형 지능을 위한 비디오 월드 모델인 Qwen-RobotWorld 등이다.

큐원 로봇 스위트는 이동성과 조작, 물리 세계의 동작 원리등 물리적 상호작용의 다양한 측면을 포괄적으로 다루도록 설계됐다. 이를 통해 실제 로봇이 다양한 환경에 자연스럽게 적응하고, 낯선 환경에서도 새로운 작업을 처리하며, 처음 접하는 물체와도 자연스럽게 상호작용하면서 물리 법칙을 따르고 자연어 지시를 정확히 수행할 수 있다.

큐원 로봇 스위트는 큐원의 고도화된 멀티모달 역량인 언어 이해, 시각적 인식, 공간 추론을 물리적 세계로 확장한다. 세 모델은 RoboChallenge 등 수십개 로봇 평가 벤치마크에서 업계 최고 수준의 성능을 입증했다. 큐원 로봇 스위트는 현재 로보틱스 분야의 일부 알리바바 클라우드 기업 고객을 대상으로 실제 환경 파일럿 테스트를 진행 중이다.

Qwen3.5-4B VL 모델을 기반으로 구축된 VLA 모델 Qwen-RobotManip은 로보틱스 리포지토리, 인간 조작 영상, 합성 인간-로봇 데이터셋 등 전적으로 오픈소스 데이터로 구성된 3만 8000시간 이상의 데이터를 학습에 활용했다. 대규모 실제 로봇 기반 구현형 AI 평가인 RoboChallenge에서 1위를 기록했으며, AgileX ALOHA, Franka, UR, ARX 등 주요 로봇 하드웨어 플랫폼에서 검증을 완료했다.

Qwen-RobotManip은 분포 외(out-of-distribution) 일반화 능력이 특히 뛰어나다. 새로운 환경에서의 모바일 조작을 평가하는 EBench에서 1위를 달성했으며, 장면 변화 평가인 RoboTwin-Clean2Rand Hard에서 69.4%, 처음 접하는 지시 수행 평가인 RoboTwin-IF에서 72.0%를 기록했다. 서로 다른 로봇 플랫폼 간 전이 성능(cross-embodiment transfer) 부문에서 기존 최고 수준(SOTA) 대비 3배 향상된 성능을 달성해, 재학습을 최소화하면서 다양한 로봇 하드웨어에 모델을 배포할 수 있게 됐다.

Qwen3-VL을 기반으로 개발된 Qwen-RobotNav는 궤적 계획 및 비전-언어 추론에 걸쳐 1560만 건의 정제된 샘플로 학습됐다. 이 VLN 모델은 에이전틱 내비게이션 시스템을 위한 확장 가능한 내비게이션 엔진이자 통합 인터페이스로 기능한다. 계획 모듈이 업무별 재학습 없이 추론 시점에 내비게이션 작업 모드와 컨텍스트 전략을 동적으로 선택할 수 있도록 설계돼, 구현형 질문 응답(EQA)과 같은 장기 과제를 처리하는 에이전틱 시스템의 핵심 구성 요소로 활용될 수 있다. EQA는 로봇이 ‘제 출입증을 어디에 두었나요?’ 처럼 물리 공간에 관한 질문에 답하는 AI 태스크다. Qwen-RobotNav는 에이전틱 시스템에 통합될 경우 내비게이션 단계를 크게 줄이면서도 주요 벤치마크에서 최고 수준의 EQA 성능을 달성한다. 또한 이전에 접하지 않은 다양한 실제 환경에서도 강력한 일반화 능력을 발휘한다.

Qwen-RobotWorld는 현재 관측값을 기반으로 물리 법칙에 부합하는 미래 시각 변화를 예측하는 비디오 월드 모델이다. 실시간 시각 장면과 자연어 지시를 입력받아 물리 세계의 이후 변화를 정확하게 예측한다. 20개 이상의 로봇 형태와 500개의 동작 범주에 걸쳐 2억 프레임 이상을 포함하는 860만 건의 비디오-텍스트 쌍으로 학습됐으며, 로봇을 위한 합성 비디오 학습 데이터를 생성하고 실행 전 미래 궤적을 시뮬레이션할 수 있다. 이 기능은 로봇 조작, 구현형 계획 수립, 복잡한 실내 내비게이션 분야에 폭넓게 적용될 수 있다. 구현형 월드 모델 평가인 EWMBench와 로봇 학습 데이터 생성 평가인 DreamGen Bench에서 모두 1위를 달성했다.

큐원 로봇 스위트는 범용 AI 모델을 물리 공간의 실용적인 에이전트로 전환하는 가능성을 열어준다. 범용 큐원 모델은 로보틱스 모델과 직접 연계돼 일반 지능과 물리적 행동 사이의 간극을 메우는 특화 도구로 활용될 수 있다. 예를 들어, ‘커피 매장에 초록색 우산이 놓여 있는지 확인해 줘’ 같은 개방형 요청을 처리하는 에이전틱 워크플로에서, 범용 큐원 모델이 상위 전략 기획자 역할을 맡고 Qwen-RobotNav가 실시간 실행 도구로 기능할 경우 해당 시스템은 실제 물리 공간을 자율적으로 탐색해 근거 기반 답변을 반환할 수 있다.

알리바바는 향후 큐원 로봇 스위트를 물리적 에이전트 생태계 전반에 통합해, 복잡하고 변화하는 실제 환경에서 고도의 자율 인식·공간 의사결정·장기 실행 능력을 갖춘 에이전트 구현을 목표로 한다고 밝혔다.

글. 바이라인네트워크
<김우용 기자>yong2@byline.network

일간 바이라인 구독하기

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다


The reCAPTCHA verification period has expired. Please reload the page.