YouTube video

 

다들 왔어? 간만에 출석 좀 불러보자. 이종철 (네) 배유미 (네) 홍하나(인공지능 목소리로 ‘네’)

 뭐지, 왜 이상한 목소리가 들리지? 다시 한번, 홍하나?

 (학생 사이에서: ..네, 여기 나와 있습니다 -> 인공지능 성우 목소리로)

뭐야, 너 홍하나 아니잖아. 근데 이 묘하게 홍하나 같은 목소리는 뭐지? 아니 뭐 휴대폰 대출을 다 해, 학원 오기 싫으면 그냥 등록하지 마, 

근데 신기하긴 하다. 이거 목소리는 어떻게 만든거야?

(학생들: 인공지능이요)

헐, 인공지능. 와 21세기네. 그러고보니까 그 생각난다. 트럼프 목소리 합성. 기억 나는 사람? 한 삼년 전인가, 트럼프랑 김정은이랑 목소리를 똑같이 만들어서 뉴스에 나오고 그랬는데. 

어? 그러고 보니까, 이 회사가 그 회사네. 최근에 그 뭐냐, KT가 이 회사 기술 베꼈다고, 뉴스다온데, 맞지? 아 무슨 얘기가 꼬꼬무야. 근데 그 이야기 못 들어봤어? 그럼 잠깐만 얘기할까?


얘기가 그럼 KT가 내놓은 서비스부터 시작해야해. AI 보이스 스튜디오라고, 인공지능으로 목소리를 합성해서 제공하는 거거든. 그러니까 이용자는 인공지능 목소리 중에서 선택해서 자기 콘텐츠 만드는데 이용할 수 있게 했거든.

그런데 이게 네오사피엔스라는 스타트업에서 만든 ‘타입캐스트’라는 서비스랑 사이트 디자인이나 기능이 똑같다고 문제가 된거지. 이 네오사피엔스가 그 트럼프랑 김정은 목소리 만들어낸 그 회사거든. 이 분야에서는 오래했고, 성과도 내던 곳이야.

그러니까 KT가 “국내 최초” 막 이런 타이틀을 달고 거의 유사해 보이는 서비스를 출시하니까, 네오사피엔스에서 화가 나 안나? 나겠지?

KT는 뭐. 기술 자체는 다른 스타트업인 ‘휴멜로’의 감정 더빙 기술을 넣어서 다른 건데 사이트는 비슷해보이는 건 인정한다고, 고치겠다고 말하고 넘어간 거지.

생각해보면, KT가 어떻게 보면 좀 무리수다 싶게 까지 이 기술을 새 서비스로 보도자료까지 내가면서 소개한데는 이유가 있을 거야. 이 기술이 중요하고, 또 경쟁력이 될 거라는 얘기이기도 하거든.

생각보다 인공지능으로 만들어낸 목소리는 쓸데가 많아. 지금도 보면 유명한 게임사 같은데서는 버츄얼 휴먼 같은 거 만들잖아. 사람 같아 보이는 외모에 사람 같지 않은 어색한 목소리를 쓰면 이상하겠지? 

그리고, 메타버스 메타버스 하는데, 그 안에서 아바타들에 입힐 목소리도 다 누가 만들겠어. 당연히 인공지능 목소리를 쓰게 되겠지. 사람처럼 감정이 들어가고, 어색하지 않게 말하게 목소리를 만들어내는게 기술 회사들한테는 엄청 중요한 일인거야.

그러면, 인공지능은 사람의 목소리를 어떻게 배울까? 처음부터 인공지능이 사람처럼 말하지는 않았겠지? 원래는 글자를 기계가 읽어주는 텍스트 투 스피치라고, TTS라는 서비스를 썼어. 그 있잖아 뭔가 시리처럼 딱 기계가 말하듯이 문장을 읽어주는 거야. 지금의 인공지능 성우의 원조라고 볼 수 있어. 얼마나 또박또박 틀리지 않고 글자를 읽어주느냐가 그때는 제일 중요한 일이었거든.

인공지능한테 자연스러움까지는 기대하지 않던 시대가 지난거야, 지금은. 세상이 달라졌어. 메타버스가 앞으로 새로운 인터넷 시장이 될 거래. 좀 전에도 말했지만, 메타버스에는 나랑 똑같은 캐릭터가 들어가서 움직일 텐데, 그 캐릭터가 채팅 창에서 나랑 똑같은 목소리로 내 감정을 그대로 말해주면 좋지 않겠어? 채팅이 훨씬 실감나고 말이야.

사람들이 기계가 읽는 건 역시 어색해, 이상해서 듣기 싫어, 그런 말을 했는데, 지금의 인공지능 목소리 개발 회사들은 이 어색함과 싸워서 성과를 내고 있는 걸로 보여. 소리만 정확하게 내는게 아니라 그 말하는 맥락이 상황에 맞는지, 감정은 어떻게 담아야 자연스러운지 같은게 반영이 되고 있으니까 말이야. 


그러면 인공지능은 뭘 교재로 사람의 목소리를 배우게 될까? 인터넷에 떠도는 수많은 음성이나 영상 파일이 인공지능의 학습지가 되는 거지. 트럼프의 수많은 연설 동영상이 인공지능으로 만든 트럼프 목소리의 학습지가 되는 거야. 

점점 이 기술이 고도화되다보니깐 말이야, 유명인처럼 음성 파일이 많지 않아도 인공지능이 목소리를 합성해내는 속도와 기술 능력이 더 빨라지고 좋아지고 있는 상황인 거지. 인공지능이 니들보다 훨씬 더 열심히 공부하고 있다고 지금.

음, 이러다가 인강 찍는다고 어색하게 말하는 나보다 어느 순간에는 인공지능이 훨씬 더 자연스럽게 말하는 그런 날이 오겠다. 자 이제 진도나가자.(아 싫어요)

영상제작_ 바이라인네트워크 <임현묵 PD> hyunm8912@byline.network
대본_ 바이라인네트워크 <남혜현 기자> smilla@byline.network