일레븐랩스, 원본 분위기 살리는 음성 AI ‘더빙 v2’ 출시

오디오 인공지능(AI) 전문 기업 일레븐랩스는 영상 및 오디오 콘텐츠의 번역과 더빙을 한층 자연스럽게 구현하는 신규 AI 더빙 모델 ‘더빙 v2(Dubbing v2)’를 출시한다고 16일 밝혔다.

‘더빙 v2’는 기존 AI 더빙의 감정과 전달력 손실 문제를 크게 개선했다. 그동안 AI 더빙은 텍스트 스크립트에 의존해 단조롭고 끊기는 오디오를 생성하는 한계를 가졌다.

더빙 v2는 원본 음성에 담긴 감정, 톤, 억양, 말의 간격, 전달 방식 등 화자의 실제 ‘퍼포먼스’를 직접 분석하고 이를 다국어 음성에 그대로 반영하여 단순 번역을 넘어 더 자연스럽고 몰입감 있는 다국어 더빙 경험을 제공한다.

우리나라는 드라마, 영화, K-팝, 웹툰 및 웹소설 기반 IP, 게임, 애니메이션, 크리에이터 영상 등 강력한 콘텐츠 자산을 보유했다. 글로벌로 진출하려면 번역, 대본 작성, 성우 녹음, 오디오 편집, 타이밍 조정 등 막대한 제작 공정과 비용을 투입해야 했다. 더빙 v2는 한국어 원본 콘텐츠의 화자나 캐릭터가 가진 감정 표현과 목소리의 개성을 최대한 살리면서, 영어를 비롯한 90개 이상의 언어로 효율적인 확장을 지원해 국내 우수 IP의 글로벌 영토 확장을 도울 것으로 기대된다.

원본 음성의 고유한 감정, 톤, 억양 등의 뉘앙스와 말의 간격을 반영해 다국어 음성을 생성함으로써, 화자의 의도와 콘텐츠의 온도를 다른 언어권 시청자에게 원본 그대로 자연스럽게 전달한다. 단어 직역 방식에서 벗어나, 목표 언어의 문맥에서 가장 자연스럽게 들리는 표현으로 번역과 조정을 수행해시청자의 몰입감을 극대화한다. 번역 후 생성된 음성은 원본 음성의 시작과 종료 타이밍에 맞춰 자연스럽게 정렬된다. 영상 자체를 조작하거나 립싱크를 강제 생성하지 않고, 발화 타이밍을 매끄럽게 맞춰 영상 시청의 어색함을 줄여준다. 자동 보이스 클로닝(Voice Cloning)을 통해 원본 화자의 음색, 피치, 톤을 자동으로 반영하고, 별도의 수동 클로닝 과정 없이 화자 고유의 개성을 살린 다국어 더빙 생성을 가능하게 한다.

일레븐랩스의 음성 AI 기술은 국내 지상파 방송사의 실제 다큐멘터리 제작에 적용되는 등 이미 한국 시장에서 자연스러움과 완성도를 입증 받고 있다. SBS는 자체 개발한 인식형 AI 모델을 방송 제작 현장에 적용했으며, 생성형 AI 도입에서 콘텐츠의 신뢰성과 방송사로서의 책임을 우선 기준으로 적용하는 방침을 두고 있다. SBS는 지난해 다큐멘터리 ‘괴물의 시간’ 제작 과정에 일레븐랩스의 오디오 AI 기술을 도입해 실존 인물의 목소리를 재생성했다. 이를 통해 실제 방송 제작 환경에서 해당 기술이 완성도 높게 적용 가능한 수준임을 확인했다.

홍상원 일레븐랩스 한국 총괄은 “번역된 음성이 마치 원본 화자가 실제로 그 언어를 구사한 것처럼 느끼게 만드는 것은 그동안 AI 더빙 분야의 가장 큰 난제 중 하나였다”며 “더빙 v2는 정교한 감정 재현력과 뛰어난 싱크를 바탕으로, 국내 크리에이터와 마케터, 콘텐츠 기업들이 언어의 장벽을 넘어 전 세계 사람들과 더 깊고 자연스럽게 소통하는 강력한 교두보가 될 것”이라고 강조했다.

더빙 v2는 일레븐랩스 UI(플랫폼)를 통해 크리에이터, 마케팅 팀, 미디어 기업, 엔터프라이즈 기업 등 누구나 효율적으로 고품질 다국어 더빙을 제작할 수 있도록 지원한다. 러 대규모 콘텐츠 제작 워크플로우 또는 기존 시스템과의 연동을 검토하는 기업 및 엔터프라이즈 고객을 위한 API 제공도 순차적으로 확대될 예정이다.

글. 바이라인네트워크
<김우용 기자>yong2@byline.network