[그게 뭔가요] 피지컬 AI의 엔진 ‘VLA’

대규모언어모델(LLM)의 활용 범위가 텍스트·이미지 같은 디지털 영역을 넘어 로봇과 같은 물리적 영역으로 확장되고 있다. 이를 가능케 한 핵심 기술은 시각-언어-행동(VLA, Vision-Language-Action) 모델이다. 카메라로 주변을 인식하고 언어 명령을 이해해 로봇 스스로 행동까지 결정하는 VLA는 피지컬 AI 시대의 엔진으로 부상하고 있다.

단, VLA가 현실 세계와 직접 상호작용하는 만큼 공격이 발생할 경우 그 피해 또한 치명적일 수밖에 없다는 경고가 나온다.

VLA는 무엇이고, 어떻게 작동할까

VLA은 시각-언어 모델(VLM, Vision-Language Model)이 한 단계 발전한 버전이다. VLM이란 쉽게 말해 눈 달린 LLM를 의미한다. 센서로 촬영한 이미지를 비전 인코더에서 벡터로 변환한 후, 그 좌표값을 LLM이 갖고 있는 텍스트 좌표 체계에 통합해 함께 처리한다. 덕분에 VLM은 사진을 보고 “탁자 위에 사과가 있다”고 말할 수 있다.

이 VLM에 행동(Action)을 더하면 VLA가 된다. 시각과 언어로 사전 학습된 모델에 행동 제어 기능을 가져다 붙인 구조다. VLA를 탑재한 로봇은 주어진 이미지와 언어 데이터를 조합해 상황을 추론하고 명령을 이해한 뒤, 이를 토대로 관절의 토크나 각도 등을 계산해 스스로 움직인다. 예를 들어 로봇이 사과를 알아보는 것에서 나아가, “탁자 위에 있는 사과를 집어서 바구니로 옮긴다”까지 가능해진다.

이때 특이한 점은 VLA가 로봇의 움직임을 언어 모델에서의 토큰처럼 취급한다는 사실이다. LLM이 다음 단어를 생성해 문장을 만들 듯, VLA는 움직임 패턴을 단어 사전에 추가해 그때그때 필요한 다음 행동을 예측하고 출력한다.

VLA, 왜 중요할까

VLA가 피지컬 AI의 핵심 기술로 부상한 이유로는 ▲단순성 ▲범용성 ▲학습 효율성 3가지다.

VLA의 대표적 특징은 구조적 단순성이다. 과거 로봇 시스템은 시각 인식, 언어 이해, 경로 계획 등 여러 모듈을 이어 붙인 구조였다. 거치는 단계가 여럿이기에, 투입되는 데이터 규모가 커질수록 오류가 늘고 반응 속도가 느려지는 병목 현상이 나타난다.

반면 VLA는 이를 하나의 신경망으로 통합해 처리하는 엔드투엔드(E2E) 모델이다. 모델 구조가 단순하기 때문에 데이터와 파라미터 크기를 키워도 병목 없이 성능이 계속 향상된다. 개발 및 유지·보수도 모듈형 시스템에 비해 훨씬 간편하다.

범용성 면에서도 기존 방식과 격차가 크다. 이전에는 로봇이 특정 작업만 반복 학습하면 새로운 물체나 환경을 만났을 때 제대로 작동하지 어렵다. 입력 좌표가 조금만 달라져도 “이런 건 안 배웠는데?” 하며 얼뜬 모습을 보인다.

그에 반해 VLA는 수십억개 이미지와 텍스트로 사전 학습된 기반 모델을 토대로 새로운 사물의 개념을 이해한다. 예를 들어 학습 과정에서 빨간 사과만 보았어도, 현장에서 초록 사과 또한 ‘사과’로 인식한다. 이 때문에 변수가 많은 현실 세계에서 유연하게 작동할 수 있다.

또 다른 차별점은 높은 이해도에 기반한 학습 효율성이다. 기존에는 로봇에게 새로운 작업을 가르치려면 처음부터 수동으로 프로그래밍하거나, 사람이 직접 조종한 시연 데이터로 모방 학습을 해야 했다.

이와 달리 VLA는 이미 갖고 있는 시각·언어 이해도가 높아, 소량의 데이터만 가지고도 스스로 학습이 가능하다. 또 행동을 텍스트(토큰)처럼 다루기 때문에, 자연어 처리(NLP) 분야에서 이미 고도로 발전한 학습 인프라, 파인튜닝 기법, 추론 가속화 기술 등을 코드 한 줄 바꾸지 않고 그대로 로봇 학습에 가져다 쓸 수 있다. 따라서 학습 비용이 크게 줄어든다.

이같은 진화로 VLA는 피지컬 AI 시장의 핵심 엔진으로 꼽힌다. 로봇이 사람처럼 보고, 생각하고, 행동하는 근간 기술이 완숙해져야 휴머노이드가, 자율주행이, 스마트 팩토리가 완전히 자동화될 수 있다는 판단에서다. 빅테크 기업들이 VLA에 막대한 투자를 쏟아붓는 이유다.

VLA, 왜 위험할까

이같은 장점이 VLA를 마냥 긍정적으로 볼 수 있게 하지만, 넓은 학습 영역으로 인한 취약점도 분명하다.

VLA의 장점은 시각, 언어, 행동을 단일 모델 안에서 매끄럽게 연결한다는 데 있다. 달리 말하면 그만큼 노출된 공격 표면이 넓다는 뜻이다. 공격자 입장에서는 시각, 언어, 로봇의 상태 정보 등 개입해서 데이터를 오염시킬 수 있는 경로가 텍스트 모델보다 훨씬 넓다. 투입되는 데이터가 많아질수록, 악의적 샘플이나 편향성이 로봇에 그대로 이식될 가능성도 커진다.

예를 들면 GoBA(Goal-oriented Backdoor Attack) 공격이 있다. 공격자가 시각 데이터 학습 과정에 개입해 로봇이 특정한 물리적 트리거를 포착하면 위험한 행동을 하도록 백도어를 심는 기법이다. 쉽게 말해 로봇에 최면을 거는 셈이다. 이는 평상시에 정상적으로 작동하다가 특정 조건에서만 폭주하는 시한폭탄과 같아 사전에 발견하기가 매우 어렵다.

또 다른 위협은 프롬프트를 조작하는 시멘틱 탈옥(Semantic Jailbreak)이다. VLA의 언어 계층에서 텍스트를 교묘하게 조작해 원래 지시와 무관한 행동을 실행하도록 하는 공격을 뜻한다.

조작된 명령을 받은 VLA는 “안전 규정상 수행할 수 없습니다”라고 거절 텍스트를 출력하면서도 해당 명령을 실행하는 출력-행동 불일치(Output-Action Mismatch)를 보일 수 있다. 텍스트 모델의 안전망으로 피지컬 AI의 안전을 보장할 수 없다는 의미다.

이 공격이 한 번 주입되면 로봇이 새로운 시각 정보를 학습해도 효과가 지속된다. 기존 정보의 여파가 새로운 정보에까지 반영되기 때문이다. 작은 오류가 긴 행동 시퀀스 전반에 걸쳐 눈덩이처럼 불어나는 에러 증폭(Error Compounding)이다.

또 해킹 없이 물리적 환경 개입만으로도 VLA의 시각-언어 간 정렬을 붕괴시킬 수 있다. 누군가 로봇 주변의 기물 위치를 옮기거나 시야에 속임수 표지판을 배치하면 로봇이 이동 경로를 이탈하거나 아예 행동을 멈추고 얼어붙을 수 있다.

이러한 공격들이 LLM을 대상으로 하는 공격보다 압도적으로 위험한 이유는 VLA가 물리 공간에서 작동하는 모델이기 때문이다. LLM은 고블린을 소환하고, AI 에이전트는 회사 DB를 날린다.

그러나 물리적 실체를 가진 피지컬 AI의 오작동은 더 치명적이고, 되돌릴 수 없다. 산업용 로봇, 수술용 로봇, 자율주행 차량은 단 한 번의 오류로 인명 사고를 낼 수 있다.

이 같은 VLA의 보안 취약점은 최근 학계 실증 연구를 통해 잇따라 확인되고 있다. 2025년 미국 펜실베이니아대·카네기멜론대 및 그레이 스완 AI 연구진이 VLA 모델의 제어권 탈취 위험성을 경고한 데 이어, 최근에는 칭화대 등 글로벌 AI 안전 연구진이 VLA 수명 주기 전반의 위협을 분석한 종합 서베이 논문을 발표하며 방어 체계 구축을 촉구하고 나섰다.

예방책은

이들 연구진은 검증 프로세스와 물리적 안전장치 의무화 등을 대응 전략으로 제시했다.

연구진은 먼저 방대한 시각·언어 학습 데이터 속에 숨은 백도어나 오염 데이터를 탐지하는 엄격한 검증 프로세스를 공급망 전체에 걸쳐 도입해야 한다고 설명했다. 또한 실시간 런타임 모니터링을 통해 실제 로봇 실행 전 시뮬레이션 결과가 안전 가이드라인을 준수하는지 독립된 레이어로 감시해야 한다.

또 소프트웨어가 통제 불능이거나 해킹당했을 때 이를 즉각 중단시킬 수 있는 물리적 안전장치(Hard Fail-safe)를 설계 단계부터 의무화해야 한다고 제안했다.

마지막으로 VLA는 배포 후에도 지속적으로 학습하고 업데이트되므로, 이 과정에서 안전망이 무너지지 않도록 시스템 전체 단위(Fleet-level)를 추적하며 수명 주기 안전을 보장해야 한다.

VLA가 이끄는 피지컬 AI 혁명은 거스를 수 없는 파도나 다름없다. 하지만 안전성보다 속도를 우선하는 개발 관행이 누적되면 VLA는 언제라도 인류를 겨누는 칼날이 될 수 있다. 로봇이 일터에서, 가정에서, 도로에서 실제로 움직이며 신뢰를 얻으려면 VLA를 다루는 모든 엔지니어가 표준화된 보안 체계를 구축하는 데 더 날카로운 노력을 기울여야 한다.

글. 바이라인네트워크
<이슬찬 기자>seulbae@byline.network

[참고]

T. Xiao et al., “OpenVLA: An Open-Source Vision-Language-Action Model,” arXiv preprint arXiv:2406.09246v3, Sep. 2024.

E. K. Jones et al., “Adversarial Attacks on Robotic Vision-Language-Action Models,” arXiv preprint arXiv:2506.03350v1, Jun. 2025.

Q. Li et al., “Vision-Language-Action Safety: Threats, Challenges, Evaluations, and Mechanisms,” arXiv preprint arXiv:2604.23775, Apr. 2026.