유튜브에서 남의 목소리로 라이브 방송을 할 수 있다?

AI가 사람의 목소리를 만들어내는 기술은 이제 별로 놀랍지 않다. 유튜브만 봐도 AI가 만들어낸 목소리를 쉽게 만날 수 있다.  AI가 합성한 목소리를 기반으로 100만 구독자를 만들어낸 유튜버도 있다.

지금까지 AI가 텍스트를 읽거나, 사람의 목소리를 변조할 때 어느 정도의 물리적 시간이 필요했다. 이 때문에 실시간 라이브에는 대부분 실제 사람의 목소리가 사용됐다. 요즘 인기가 많은 버튜버(버추얼 유튜버)의 목소리는 실제 사람의 음성이다.

하지만 앞으로는 외모와 함께 목소리까지 가상인 버튜버가 많아질 것으로 보인다. 목소리를 변조하는 기술이 발전해 거의 실시간으로 AI가 음성을 합성해 내기 때문이다.

최근 음성합성 전문기업 수퍼톤은 ‘시프트’라는 실시간 음성 변환 서비스를 공개했다. 이용자가 원하는 캐릭터를 선택한 후 말을 하면 거의 그 캐릭터가 말하는 것처럼 변환된다. 아직 오픈베타 서비스여서 선택할 수 있는 캐릭터가 많지는 않지만, 향후 캐릭터가 늘어나면 원하는 다양한 목소리 중 자신의 개성을 표현할 수 있는 목소리를 선택할 수 있을 것으로 보인다.

수퍼톤 이교구 대표는 “유튜브 등 크리에이터 중에는 유명세를 타고 싶어하지 않는 분들도 상당히 많다”며 “지금까지 유사한 서비스는 단순한 필터 기능 정도여서 금방 지루해졌는데 (시프티는) 사실적인 목소리로 표현할 수 있다”고 설명했다.

본인을 완전히 감추기 위한 목적뿐만 아니라 자신의 목소리를 조금 더 매력적으로 포장하는 용도로도 사용될 수 있다. 시프트는 목소리를 조절할 수 있는 다양한 파라미터를 제공하기 때문에 조절이 가능하다. 예를 들어 목소리 톤이 너무 높거나 비음이 심한 크리에이터라면 이와 같은 도구를 이용해 자신이 원하는 목소리에 약간의 변조를 할 수 있다. 일종의 목소리 메이크업이다.

다양한 목소리를 활용하고 싶어하는 크리에이터도 있다. 원래와 다른 컨셉의 캐릭터로 방송하고 싶은 크리에이터도 많다.  시프트 개발을 총괄하고 있는 김희영 개발실장은 “한 명이 낼 수 있는 캐릭터의 다양성에 한계가 있는데 이런 시프트 같은 서비스가 있다면 본인의 세계관을 굉장히 여러 개 표현할 수 있을 것 같다는 기대도 있었다”고 말했다. 

시프트의 또 하나의 장점은 GPU와 같은 값비싼 장비 없이 AI 음성합성을 실시간으로 한다는 점이다. 허훈 CTO는 “GPU 없이 CPU로 가능하다고 하면 기적이라는 이야기를 하기도 한다”고 말했다.

하지만 이와 같은 음성합성 기술은 사회적 문제를 야기하기도 한다. 최근 AI로 음성을 만들어서 보이스피싱에 이용한다는 사건들이 잇달아 등장하고 있다. 가족의 목소리로 긴급한 척 전화를 하면 누구라도 속을 수 있다. 

영화 <터미에이터>의 한 장면. 터미네이터를 피해 몸을 숨긴 주인공 사라 코너는엄마 목소리로 위장한 터미네이터와 통화를 하면서 자신의 위치를 알린다.

이런 우려에 대해 이교구 대표는 “오디오 워터마킹 등 기술을 이용해서 문제를 해결하려 한다”면서 “음성을 이용하면 누가 이용했는지 확인이 가능하도록 할 것”이라고 설명했다. 김희영 실장은 “자신만의 목소리를 추가하는 요구가 있는데 (범죄에 활용될) 위험성이 있어서 이런 기능을 당장 대중적으로 공개할 계획은 없다”면서 “일단은 개성이 강한 목소리를 캐릭터로 만들고 있다”고 덧붙였다.

글. 바이라인네트워크
<심재석 기자>shimsky@byline.network

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다