이미지만 보고 현실 3D 세계 ‘상상’해 추론하는 ‘마인드저니’

2D 이미지로 3차원 공간(3D)을 ‘상상’해 탐색할 수 있도록 지원하는 새로운 AI 에이전트 프레임워크 ‘마인드저니’가 공개됐다. 기존 시각언어모델(VLM)이 공간을 전체적으로 이해하지 못하는 한계를 극복할 수 있다고 연구진은 강조했다.

마이크로소프트는 20일 AI가 “오른쪽 소파에 앉아 의자를 마주 보면, 주방은 오른쪽에 있을까? 왼쪽에 있을까?”와 같은 공간 추론 질문에 답하기 전에, 시뮬레이션 된 3D 세계를 탐색할 수 있도록 돕는 프레임워크로 ‘마인드저니’를 제안했다.

기존 VLM은 2차원 공간(2D)과 같은 정적인 이미지에서 객체를 식별하는 데는 뛰어나다. 하지만 2D 이미지 외에 3D 환경에서 위치나 움직임에 관련된 공간적 질문에는 한계가 있었다. 앞서 말한 이미지만 보고 주방의 위치를 알아내려면, 공간 내에서 소파의 위치와 움직임을 해석하는 작업이 필요하다.

사람의 경우, 머릿속에서 공간을 인식하고 이동하는 상상을 통해 사물의 위치를 파악할 수 있다. 연구팀은 이와 같은 방식을 AI에 적용해, 공간과 관련된 질문에 답하기 전에 가상 공간을 탐험함으로써 문제를 해결했다고 설명했다.

설명에 따르면 공간 탐색을 위해 마인드저니는 월드 모델을 사용한다. 월드 모델은 AI가 현실 세계의 작동 원리인 물리적 법칙, 공간, 시간 등을 이해하고 내부적으로 시뮬레이션하도록 훈련된 파운데이션 모델이다. 주요한 특징으로는 이미지를 보고 물체를 인식할 뿐 아니라, 움직임이나 중력 같은 물리적 법칙을 이해한다. 예를 들어, “공을 차면 어떻게 움직일지”에 대해 인과 관계에 기반한 예측 및 추론을 할 수 있다.

연구팀은 월드 모델을 단일 이동 시점에서 촬영된 방대한 비디오 모음을 기반으로 훈련시켰다. 비디오 생성 시스템인 월드 모델은 마치 3D 촬영 감독처럼 앞으로 나아가거나 좌우로 회전하는 동작을 통해, 새로운 장면이 다양한 관점에서 어떻게 보일지 예측하는 법을 학습했다.

추론 시점에서 월드 모델은 현재 위치에서 가능한 움직임을 기반으로 사실적인 이미지를 생성할 수 있다. 장면에 대한 여러 가지 가능한 시점을 생성하면, VLM은 필터 역할을 한다. 구성된 시점 중에 사용자의 질문에 잘 맞는 답을 위해 가장 가능성이 높은 시점을 선택하는 역할이다.

구성된 시점은 반복되는 과정 속에서 유지되거나 확장된다. 적합하지 않은 시점은 삭제된다. 가장 유망한 시점에만 집중해, 수천개의 가능한 동작 시퀀스를 생성하거나 평가할 필요가 없다.

마인드저니가 공간 추론 문제에서 적합한 시점을 선택하는 과정 (자료=마이크로소프트)

이를 위해 마인드저니는 ‘공간 빔 탐색(Spatial Beam Search)’이라는 알고리즘을 사용한다. 공간 빔 탐색은 시뮬레이션된 공간을 효과적이고 효율적으로 탐색하기 위해, 가장 유망한 경로의 우선순위를 정하는 알고리즘이다. AI가 수많은 가능성 중에서 가장 유망한 뷰를 선택해, 눈에 보이는 것 너머에 무엇이 있을지 추론하도록 돕는다.

시뮬레이션과 평가, 통합을 반복하면서 마인드저니는 추가 학습 없이 단일 2D 이미지 이상의 공간 관계를 추론할 수 있다. 마인드저니는 공간 추론 벤치마크인 SAT 테스트에서 VLM 정확도를 기준 성능 대비 평균 8% 이상 높인 결과를 받았다. 또, 고급 VLM에 프레임워크를 적용 시에 성능이 더 높게 나타났다. 연구팀은 월드 모델이 원시 이미지로부터 학습하는 공간 패턴과 VLM의 기능을 결합해, AI에게 더 완벽한 공간 기능을 제공하기 때문이라고 설명했다.

이 같은 결과는 사전 훈련된 VLM과 훈련 가능한 월드 모델이 둘 중 하나를 재훈련하지 않아도 3D 환경에서 함께 작동할 수 있음을 보여준다. 실제 환경에서 해석하고 행동할 수 있는 범용 에이전트라는 의미다. 물리적 세계와 결합해 행동하는 에이전트는 자율 로봇, 스마트 홈, 시각장애인을 위한 접근성 도구 등 다양한 분야에 적용할 수 있다.

마인드저니는 로봇이 다음 동작을 결정하기 전에 여러 관점을 내부에서 잠재적으로 테스트할 수 있기 때문에, 마모, 에너지 사용량, 충돌 위험 등을 줄일 수 있다.

업계 관계자는 “VLM이 이미지만 보고 공간에 대해서 추론하는 건 상당히 어려운 일”이라며 “영상을 생성하는 월드 모델과 학습된 데이터를 바탕으로 VLM이 실제 공간을 인식한다는 건 피지컬 AI로도 연결될 수 있는 중요한 기술”이라고 평가했다.

연구팀은 “앞으로 새로운 관점을 예측할 뿐만 아니라 시간 경과에 따른 장면 변화까지 예측하는 월드 모델을 사용하도록 프레임워크를 확장할 계획”이라며 “마인드저니가 이러한 예측을 해석하고 이를 활용해 다음 단계를 계획하는 VLM과 함께 작동할 것으로 예상한다”고 밝혔다.

이어 “이러한 향상을 통해 에이전트는 공간 관계와 물리적 역학을 더욱 정확하게 해석해, 변화하는 환경에서 효과적으로 작동할 수 있다”고 강조했다.

글. 바이라인네트워크
<최가람 기자> ggchoi@byline.network

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다


The reCAPTCHA verification period has expired. Please reload the page.