알리바바, 디지털 휴먼 영상 생성 오픈소스 모델 공개

알리바바는 디지털 휴먼 영상 제작을 위한 최신 오픈소스 모델 ‘Wan2.2-S2V(Speech-to-Video)’를 공개했다고 27일 밝혔다.

회사에 따르면 Wan2.2-S2V 모델은 인물 사진을 영화 수준의 아바타로 구현해, 실제처럼 대화하고 노래하며 연기할 수 있게 한다. 이번 모델은 알리바바 ‘Wan2.2’ 영상 생성 시리즈에 포함된 모델로, 단일 이미지와 음성 파일만으로 고품질 애니메이션 영상을 구현할 수 있다.

Wan2.2-S2V는 얼굴 클로즈업부터 상반신, 전신까지 다양한 화면 구도의 캐릭터 영상을 제작할 수 있다. 프롬프트 지시에 따라 동작과 배경 요소를 자동으로 생성해, 제작자가 의도한 스토리와 디자인을 정밀하게 구현한다.

알리바바는 이번 모델이 첨단 음성 기반 애니메이션 기술로 자연스러운 대화부터 음악 공연까지 사실감 있는 캐릭터 연기를 구현할 수 있다고 강조했다. 이러한 특징으로 한 장면에서도 여러 캐릭터를 매끄럽게 처리한다. 또, 음성 녹음을 사실적인 애니메이션 동작으로 변환할 수 있으며, 만화풍과 동물, 스타일화된 캐릭터 등 다양한 아바타 제작을 지원한다.

회사는 전문 제작자의 다양한 요구를 반영해 480P와 720P 해상도를 지원한다고 설명했다. 이를 통해 전문적·창의적 기준을 충족하는 고품질 영상을 구현할 수 있다. 소셜미디어 콘텐츠부터 프레젠테이션까지 폭넓게 활용할 수 있다고 덧붙였다.

Wan2.2-S2V는 텍스트 기반 전체 동작과 음성 기반 세부 움직임을 결합했다. 회사는 이 방식으로 기존의 토킹 헤드 애니메이션을 넘어서며, 이를 통해 복잡한 상황에서도 자연스럽고 풍부한 캐릭터 동작을 구현할 수 있다고 강조했다.

이 모델의 또 다른 핵심 혁신은 혁신적인 프레임 처리 기술이다. 회사에 따르면 이 기술은 임의의 길이를 가진 이전 프레임들을 하나의 압축된 잠재 표현으로 압축함으로써 연산 부담을 크게 줄인다. 이러한 접근 방식을 통해 안정적인 긴 영상 생성이 가능해졌다는 설명이다. 이로써 장편 애니메이션 콘텐츠 제작에서의 핵심적인 과제를 해결했다고 강조했다.

알리바바 연구팀은 영화·방송 제작 환경에 맞춘 대규모 음성·영상 데이터셋을 구축하고, 다중 해상도 학습 기법을 적용했다. 회사 측은 “해당 기법 적용으로 모델의 성능을 한층 강화하고, 세로형 숏폼 콘텐츠부터 전통적인 가로 영화·TV 영상까지 다양한 형식을 유연하게 지원한다”고 설명했다.

Wan2.2-S2V 모델은 허깅페이스, 깃허브, 알리바바 클라우드 오픈소스 커뮤니티 ‘모델스코프(ModelScope)’에서 다운로드할 수 있다. 알리바바는 올해 2월 ‘Wan2.1’ 모델과 7월 ‘Wan2.2’ 모델을 공개한 바 있다.

알리바바 관계자는 “현재까지 ‘Wan’ 시리즈는 허깅페이스와 모델스코프에서 690만회 이상 다운로드됐다”고 밝혔다.

글. 바이라인네트워크
<최가람 기자> ggchoi@byline.network