이금희를 대체하는 음성 AI, 이건 현실이다

나는 TV프로그램 인간극장을 좋아했다. 아나운서 이금희 씨의 내레이션은 인간극장이라는 프로그램을 더욱 편안하고 극적으로 만드는 효과가 있었다.

그런데 최근 유튜브를 보다 보면 이금희 씨처럼 프로페셔널하게 내레이션을 하는 콘텐츠를 종종 만날 수 있다. 신기한 건 방송국이 운영하는 채널이 아니라 개인 채널이라는 점이다. 일반인이 어떻게 이처럼 전문 아나운서와 같은 목소리와 톤, 발성을 가지고 있는지 대단하다고 생각했다.

놀라운 것은 이런 목소리의 주인공이 AI라는 점이다. 일반적으로 AI의 목소리는 감정이 없고, 딱딱한 것으로 생각해 왔는데 깜짝 놀라지 않을 수 없었다. 자세히 집중해서 들어보지 않으면 AI 음성합성 결과와 실제 사람이 말하는 것을 구분할 수 없는 수준까지 이른 것이다.

유튜브에 등장하는 AI의 목소리는 대부분 ‘타입캐스트’라는 서비스를 통해 나온다. 타입캐스트는 네오사피엔스라는 스타트업이 운영하는 AI 기반 TTS(Text To Speech) 회사다. 그러나 네오사피엔스는 자신의 서비스를 TTS라고 부르지 않는다. 이 회사 김태수 대표에 따르면 타입캐스트는 ‘가상 연기자’ 서비스다. 단순히 AI가 글을 읽는 것이 아니라 사람과 거의 유사하게 감정이 담아 연기를 하는 AI라는 것이다.

지난 10일 서울 삼성동 네오사피엔스 본사에서 김태수 대표(=사진)를 만나 타입캐스트와 가상 연기자에 대해 이야기를 들어봤다.

– 최근에 저희 인터뷰 기사에 반박하는 내용을 페이스북에 올리셨더라고요. 음성합성이 지문을 담지 못한다는 이야기가 사실이 아니라고 지적 하셨는데…

페이스북에 쓴 건, ‘그냥 우리도 잘해요’라는 이야기를 하고 싶었던 거라고 이해해 주세요. 저희가 사실 작년 9월쯤에 이런 기술 처음으로 만들어서 보도자료를 배포하기도 했어요. 물론 GPT3 수준의 모델처럼 다 이해하고 하는 건 아니지만, 저희 모델이 다양한 감정을 담은 음성을 표현할 수 있거든요.

이 기술을 인터스피치라는 학회에서 발표를 했어요. 사람이 감정 지문을 텍스트로 치면 그 감정을 담아서 음성을 만들어내는 기능이 있어요. 아직 모든 목소리와 모든 캐릭터에서 다 되는 건 아니지만, 올 상반기에 모든 캐릭터와 목소리에 반영할 예정입니다. 챗GPT 같은 게 나오는 걸 보면서, 아 앞으로는 이거보다 더 높은 수준의 음성합성도 되겠다는 생각이 듭니다.

– 이런 것도 GPT 같은 언어모델로 만드나요? 음성합성에서 감정을 표현하는 원리를 설명해 주세요.

언어를 이해하는 버트(BERT)라는 모델이 있습니다. 맥락을 잘 이해하는 모델입니다. 어떤 텍스트가 들어왔을 때 버트로 이해된 맥락을 음성의 감정과 연결시켜주면 됩니다. 딥러닝은 텍스트를 어떤 벡터값으로 표현하는데, 음성의 감정도 어떤 벡터값으로 들어갑니다. 그걸 연결시켜 주면 됩니다.

예를 들어서 ‘머뭇거리면서’ 이런 지문이 있으면 음성에서 어떻게 숫자로 표현되는지 매핑을 시켜주면 되는 겁니다. 딥러닝이 잘하는 게 이런 매핑이거든요. 데이터가 충분히 있으면 가능합니다.

– 지문이 있는 텍스트 데이터와 음성 데이터를 통해 학습한다는 의미로 이해됩니다. 지문이 있는 텍스트와 음성 데이터가 많이 있나요? 영화나 드라마 시나리오 정도 이외에는 없을 것도 같은데요

네, 그런 데이터는 많지가 않아요. 대부분의 경우 음성만 있거나 텍스트만 있죠. 많은 텍스트 데이터가 있고, 많은 음성 합성 데이터가 있기 때문에 그 사이를 연결시켜주는 태깅된(지문이 있는) 데이터가 어느 정도만 있어도 됩니다. 미리 학습된 양쪽 두 개를 활용을 하면 추가적으로 조금 더 학습을 시켜서 그걸 이해하게 만들 수 있습니다.

– 지문을 자동 생성하거나 할 수는 없나요?

지금은 아닌데 그런 것도 나올 것 같아요. 챗GPT가 이정도 나왔기 때문에 그렇게 발전해 갈 것 같아요.

– 지금 타입캐스트의 음성합성은 어느 정도 수준인가요?

지금은 메이저 방송에도 성우나 아나운서 없이 뉴스나 영상을 만들 수 있는 수준이에요. 확산이 많이 되고 있어요.

– 3년 전 처음 출시했을 때와 비교해 보면 사람 목소리인지 음성합성인지 구분하기 어려울 정도더라고요. 좋아진 비결이 있나요?

저희가 2019년 봄에 타입캐스트를 출시했고, 11월에 요금제를 붙였어요. 실제 서비스를 해보니 기술만 할 때는 몰랐던 부분들이 사용자들한테 많이 나와요. 처음에는 감정이 ‘기쁨’ ‘슬픔’ 이런 식으로 한 5개 있었어요. 저희는 인기가 많을 줄 알았는데 발연기라고 욕을 먹었어요.

이용자들로부터 미세한 차이에 대한 피드백이 많이 들어오고 이용자의 요구에 따르기 위해 뭘 개선해야 하는지, 알고리즘이 그런 쪽으로 발전해왔죠.

결국 시장에서 부딪히면서 기술 개발 방향을 정했고, 그 기술을 개발하려다 보니까 필요한 데이터를 모으게 됐어요. AI는 실제로 쓰이면서 계속 업데이트 되고 데이터도 모이고 이런 것들이 발전시키는 데 되게 중요한 것 같아요.

– 지금의 발전속도로 사람의 목소리와 AI의 목소리를 구분할 수 없는 시점은 언제쯤 도달하게 될까요? 일종의 튜링테스트를 통과하는 시점이라고 할까요?

어디를 보느냐에 따라 이미 그 시점에 도달해 있다고 볼 수도 있습니다. 예를 들어 대본이 있을 때 완전히 실시간으로 앞의 맥락까지 다 보면서 AI가 연기를 할 수 있으려면 시간이 좀더 필요하겠지만, 사람과 AI를 구분하기 어려운 수준은 이미 와있다고 볼 수 있어요.

예를 들어 저희 서비스로 유튜브 채널 운영하시는 분들이 많거든요. 그런 채널 놓고 AI라는 사실을 알려주면 “진짜??”라는 반응이 많아요. 자세히 들어보면 중간중간 틀리는 게 있긴 하거든요. 그런데 사람도 틀릴 때가 있죠. 사람도 된소리 발음을 해야 하는데 안 할 때가 있죠. AI도 그런 부분을 종종 틀립니다.

– 저도 유튜브 볼 때 AI인줄 몰랐다가 된소리를 안 해서 그제서야 알아챌 때가 있어요

저희 거는 된소리를 잘하는데 간혹 틀리더라고요. 1000 문장에 한 서너 개 틀리는데, 괜찮은 수준이거든요. 그런데 한두 개 틀리면 사람들이 의심해요.

– 대형 회사들이 AI를 열심히 하고 있잖아요. 음성합성 분야에서 타입캐스트 경쟁사는 네이버죠? 네이버는 초거대 언어모델도 있고 하니까, 대화를 생성하면서 거기에 목소리도 입힐 수가 있을 거거든요? 그런 면에서 보면 타입캐스트와 같은 스타트업이 이런 회사들과의 경쟁은 좀 벅차지 않을까 생각도 듭니다.

별개가 아닐까 합니다. 지금 언어모델이 대형화되면서 기반 산업처럼 되는 것 같아요. 저희도 지금 GTP 모델 API 가져다 쓰고 있거든요. 네이버도 ‘우리가 개발했으니까 우리만 쓸거야’라고 하지는 않을 거 같아요. 뤼튼이라는 서비스를 보면 네이버 하이퍼클로버를 사용하거든요. 대기업들은 기반이 되는 서비스를 만들고 저희 같은 스타트업은 그것들을 이용해 각각의 서비스를 만들면 되죠.

물론 큰 회사들이 음성합성 API를 만들겠죠. 저희도 그런 API 비즈니스가 있지만 저희의 중점은 일종의 가상의 연기자를 제공하는 회사로 갈 거에요. 예를 들어서 이용자가 대본만 쓰면 가상의 연기자가 나와서 말을 하는거죠.

저희가 GPT를 사용해서 유튜브에서 가상 DJ 채널을 운영하고 있어요. 유튜브 채널에 접속해서 말을 걸면 가상DJ가 대답해주고 신청곡도 틀어주는 형태죠.

– 그럼 네오사피엔스의 비즈니스 모델은 뭐라고 정의할 수 있을까요?

B2C로 하는 SaaS(Software as a Service)를 하고 있습니다. 월 이용료를 내면 음성 더빙이나 아나운서 영상을 만들 수 있습니다. 아직은 월간 매출이 떨어진 적이 없습니다. 가입자가 130만 명이 넘고, 매월 10%씩 성장하고 있습니다. 올해 목표가 ARR(연간 반복 수익) 100억원을 만드는 겁니다.

– 저희 기사를 음성으로 만들어서 페이스북에 올리셨잖아요?

네, 남혜현 기자가 쓴 기사를 복사해서 붙여넣고 약간 슬픈 감정으로 바꾼 다음에 다운로드했어요. 더밀크라는 언론사에서도 저희 걸로 뉴스를 만들더라고요.

– 영상 기술까지 만드시는 거에요?

네, 맞습니다.

– 영상 데이터와 음성 데이터를 같이 합쳐서 학습을 해야 되는 건가요. 소리와 입모양이 맞아야 할텐데

기본이 되는 건 유튜브 데이터 등으로 얼굴, 입모양, 음성을 매핑시키는 학습을 시키고, 유튜브는 화질이 좀 낮으니까 고화질 데이터를 별도로 수집해서 하고 있습니다. 특정인으로 만들 수도 있고, 가상의 인물을 만들 수도 있습니다. 예를 들어 내 사진 몇 장 넣으면 멋있는 양복 입은 것 같은 모습에 좋은 목소리 입혀서 나갈 수 있습니다.

– 주로 어떤 분들이 어떤 용도로 사용하나요?

저희 것만 써서 채널을 제일 성공시킨 분은 뚝딱이형이라는 유튜버인 거 같아요. 작년에 한국인이 많이 본 쇼츠 1위 하신 분이거든요. 드라마 소개하는 유튜버도 저희 거 사용하시는 분들이 많고…

한 유튜버 분은 본인이 녹음하시다가 힘들어서 저희에게 커스텀 요청이 왔어요. 자기 목소리로 음성 만들어달라고… 최근에는 대본만 쓰고 직원들 시켜서 음성합성으로 녹음한대요. 이런 경우는 저희가 조금 더 비용을 청구합니다. 그런 데도 매우 만족해 하십니다. 구독자가 한 50만 정도 되는데 구독자들이 AI임을 잘 인지하지 못한다고 해요. 랩을 타입캐스트로 만들어 음반으로 발매하는 분도 있어요.

– 기업 쪽에서 사용할 수도 있겠네요?

KT에서는 광고 내레이션으로 저희 서비스를 이용합니다. 저희 계정을 200개인가 쓰는 회사도 있어요.

– KT 같은 회사는 성우를 고용할 여력이 충분한데 왜 굳이 AI를 쓸까요? 조금이라도 어색하면 안 좋을텐데…

성우를 쓰는 건 비용 말고도 꽤 많은 노력이 필요해요. 예를 들어 성우 분들하고 스케줄 조정도 해야 하고, 녹음하러 오셨을 때 응대도 해야하죠. 사람을 매니지먼트 하는 노력이 드는 거죠. AI는 로그인만 하면 아무 때나 직접 만들 수 있거든요. 같은 비용이 들더라도 AI가 더 편한 거죠. 예능 프로그램 PD 님 중에서도 저희 거 자주 이용하는 분이 있어요.

또 외국인 성우는 더 구하기 힘든데, 저희는 100개 정도의 외국인 캐릭터가 있으니까 그걸 이용하면 편하죠. 저희가 외국인 캐릭터 만들 때 ‘한국에서는 많이 안 쓰겠지’ 생각했는데 생각보다 되게 많이 쓰시더라고요.

– 설명을 듣다보니 어도비 같은 툴 같은 느낌으로 접근하시는 것 같네요

네, 그렇죠. 그런데 어도비는 편집하는 거는 발전돼 있지만 연기자는 빌려줄 수 없거든요? 어떻게 보면 셔터스톡 같은 이미지 스톡 서비스나 BGM 빌려주는 서비스와 성격이 비슷할 수 있다고 생각하거든요.

김태수 네오사피엔스 대표

– 최근에 미국 성우협회인가 그런 곳에서 AI 학습에 우리 목소리 공급하지 않겠다, 이런 발표를 했더라고요. 성우 입장에서는 AI학습에 목소리를 공급했더니, 본인들 일자리가 없어지는 결과가 나오는 거잖아요?

미국은 워낙 다양한 사회니까 조금 더 지켜봐야 할 거 같아요. 저는 결국 이런 게 냅스터가 처음 등장했을 때와 비교할 수 있을 거 같아요. 처음에는 온라인에서 음악 유통하는 걸 음악산업에서 다 반대했거든요. 그러다가 라이선스 분배율이나 이런 게 정해지면서 모두 이 시장에 들어온 거죠.

저희는 그런 에코시스템을 만들었어요. 목소리를 사용한 성우에게 분배해주는 시스템도 되어있어요. 저희 쪽에 참여하신 유명 성우 분도 있어요. 그 분들에게 이익이 돌아갈 수 있는 시스템을 운영하고 있습니다.

– 배한성 성우 같은 분들의 목소리도 AI로 나올 수 있겠네요?

그 분이 저희와 계약을 하면 그렇겠죠. 오프라인에서 직접 활동하시는 게 좋다고 생각하시면 안 하시겠지만… 원로 성우 분들 중에도 저희와 계약하신 분들이 계세요. 더이상 직접 활동을 안 하지만 이렇게라도 본인의 목소리가 활용되는 게 좋다고 생각하는 분도 계세요.

– 저희도 성우 분을 인터뷰 한 적이 있어요. 그때 그 분이 “AI는 나를 이길 수 없어” 라는 발언을 한 게 인상적이었는데요

당연히 그럴 거고요. 저는 이걸 폰트에 비유합니다. 30~40년 전으로 돌아가면 프레젠테이션할 때 다 손으로 썼어요. 글씨 잘 쓰는 사람이 이걸 했죠. 지금은 손으로 쓰는 프레젠테이션은 없지만 사람 손으로 하는 작업은 여전히 가치가 있어요. 포스터 등을 만들 때 캘리그라피 같은 거 많이 이용하죠. 폰트가 편하지만 폰트로는 못 살리는 느낌이 분명히 있습니다. 그거와 비슷해질 거라고 생각합니다.

– 그래도 전체적인 성우 수요는 줄어들겠죠?

양극화가 좀 되지 않을까요. 탑 클래스 성우 분들의 수요는 줄지 않겠지만 지금 크몽 같은 곳에서 프리랜서 하시는 분들의 수요에는 직접적인 영향이 있을 수 있고요. 오히려 새로운 수요가 많습니다. 기존에는 내레이션을 붙이거나 더빙을 붙이거나 하지 않았던 콘텐츠에서 저희 거를 굉장히 많이 씁니다. 유튜브만 봐도 그냥 자막만 넣던 콘텐츠들이 2~3년 전에는 되게 많았는데 이제는 목소리를 넣죠.

좀더 지켜봐야 하겠지만 사람의 연기는 여전히 가치가 있습니다.

– 타입캐스트를 ‘가상 연기자’ 서비스라고 정의하시는데, 어떤 맥락으로 이해하면 좋을까요?

서비스를 하고 보니까 유저들이 저희를 단순히 TTS(Text To Speech)로 사용하지 않는다는 걸 알게 됐어요. 유저들은 녹음하고 녹화하는 일을 저희 서비스로 해요. 기존에는 직접 녹음이나 녹화를 하거나 프리랜서 성우나 아나운서를 고용했었는데, 저희 서비스를 이용하면 훨씬 빠르고 편하게 할 수 있죠. 그런 점에서 클라우드 기반으로 연기자를 빌려주는 서비스입니다.

연기자를 빌려서 뭘 하냐면 대부분 창작활동을 하십니다. 유튜브 영상을 만들고 교육 자료를 만들고 광고도 만들고 하죠. 이런 콘텐츠를 만드는 한 영역을 저희가 선점을 하고 있구나, 깨닫고 있습니다.

– 앞으로 더 만들거나 추가하고 싶은 서비스가 있나요?

요즘 10대들에게 유명한 밈(meme) 중 하나가 ‘크쿠루삥뽕’이런 게 있거든요. 그게 타입캐스트 ‘찬구’라는 캐릭터에서 생긴 거예요. 이렇게 가상 연기자 서비스를 하다보니 밈도 생기고 다양하게 활용될 수 있다는 걸 알아가고 있어요. 이런 걸 이용해서 방송에도 출연시키고 할 수 있지 않을까 생각하고 있어요.

또 생성AI가 핫하니까 스크립트 써주는 걸 우리가 도와줄까? 그럼 영상제작 시간이 줄어들텐데, 이런 생각도 하죠. 또 백그라운드 영상을 더 잘 만들 수 있게 돕는 기능도 좀 들어갈 수 있고요.

저희 캐릭터나 IP를 API 형태로 제공하기도 합니다. 방송국에서 댓글 읽어주는 서비스를 저희 걸로 하기도 하고, 오디오북을 만드는데 저희 API를 공급하기도 할 수도 있습니다. 확장성이 충분한 거 같아요.