네오사피엔스, 생성AI 출현에 쾌재를 부른 이유

“생성 AI에서는 어떤 컨텍스트(맥락)를 잘 넣어주면 그에 맞는 음성은 물론 영상도 잘 만들어낼 수 있습니다”

김태수 네오사피엔스 대표는 <바이라인 네트워크>가 16일 주최한 ‘챗GPT와 생성AI가 만드는 미래’ 컨퍼런스에서 생성AI 이후 달라진 음성 합성에 대해 이같이 설명했다.

네오사피엔스는 인공지능 가상 연기자 서비스 ‘타입캐스트(TypeCast)’를 운영하는 회사다. 가입자 수 130만명, 가상 연기자 캐릭터 350여종을 가진 타입캐스트는 최근 유튜브 채널에서 한달 째 GPT를 연동해 실시간으로 반응하는 아바타 ‘카멜라’를 라이브로 선보이면서 화제를 모았다. 이날 김대표는 “고객과의 커뮤니케이션을 하거나 현재 사람이 뒤에 있는 가상 버추얼 인플루언서도 자동으로 할 수 있는 미래를 생각해볼 수 있을 것”이라고 말했다.

김 대표는 “생성AI는 다음 글자를 잘 예측하는 모델”이라고 설명했다. 검색이 기존 데이터에서 결과물을 뽑아낸다면, 챗GPT와 같은 생성AI는 초거대 언어모델 기반으로 임의의 단어 다음에 올 단어를 확률 분포로 추론하는 함수 모델로 기존 AI 모델 대비 성능을 극적으로 끌어올려 주목받고 있다.

김 대표는 “음성 생성도 비슷한 논리도 볼 수 있다”며 “전통적인 음성 합성기가 단어를 잘게 쪼개서 그 다음에 해당하는 음성을 잘 검색해서 붙이는 알고리즘이었다면, 3~4년 전부터 딥러닝을 사용하면서 자연스러워졌다”고 짚었다. 이어서 “그러고 나서도 (맥락을 파악하지 못해) 어색한 거 아닌가 많이 얘기를 했고, 이게 특정 상황에서 위로하는 말을 던져야 할 때 그 느낌을 살릴 수 있게 (맥락을 위한) 어떤 프롬프트를 줄 수 있게 되면서 굉장히 자연스럽게 만들어낼 수 있게 됐다”고 최근 현황을 전했다.

행사 현장에서 네오사피엔스 타입캐스트로 “이렇게 가혹하게 말할 필요는 없잖아”라는 대사를 음성 시연했다. 프롬프트로 ‘슬픈 목소리로 울먹인다’를 넣자, 실제 듣기에도 슬픈 목소리로 대사를 읊었다. ‘불쾌한듯 짜증을 낸다’를 지시하자 짜증이 섞인 목소리가 곧바로 합성됐다.

김 대표는 “GPT가 텍스트를 잘 만들어냈다라고 하면 음성도 못 만들어낼 것이냐. 당연히 만들어 낼 수 있다”며 “실사에 가까운 아바타 캐릭터가 나오는 그런 합성 기술도 쭉 나오고, 텍스트로 제스처 같은 것들도 굉장히 자연스럽게 생성해낼 수 있다”고 예상했다.

한편, 네오사피엔스가 이날 선보인 카밀라는 GPT를 연동해 실시간으로 반응하는 캐릭터를 선보인 PoC(Proof of Concept, 개념실증)으로 시청자가 음악을 틀어달라 요청하면 음악을 틀어주고, 대답해달라고 하면 대답해주는 실시간 반응 캐릭터다.

글. 바이라인네트워크
<성아인 기자> aing8@byline.network