[인터뷰] “사람처럼 읽는 음성합성, 이제 어렵지 않아요”
요즘 유튜브에는 성우 목소리로 소식을 전하는 채널이 많다. 성우 목소리로 시사 소식을 전하기도 하고, 드라마나 영화 줄거리를 이야기하는 채널도 있다. 이런 채널을 보다 보면 ‘성우를 어떻게 섭외했을까’ 하는 의문이 들기도 한다. 방송국이나 기업이 운영하는 채널이 아니라 그냥 개인 채널이 대부분이기 때문이다. 성우를 섭외하려면 비용이 만만치 않을 텐데 말이다.
사실 이런 채널의 목소리는 실제 성우가 아니라 인공지능(AI)으로 합성된 음성이다. 그래서 자세히 듣다 보면 가끔 어색한 말투가 나오기도 한다. 하지만 무심코 들을 때는 진짜 성우처럼 느껴진다. AI 덕분에 음성합성 기술이 많이 발전한 결과다.
음성합성은 사람이 말하는 것처럼 음성을 만들어내는 기술이다. 문자를 컴퓨터가 음성으로 읽어주는 기술인 ‘TTS(Text To Speech)’가 대표적인 음성합성 기술의 응용이다. 과거에는 한글자씩 또박또박 읽었기 때문에 음성합성된 목소리는 많이 티가 났다. 하지만 이제는 음성의 속도나 높낮이, 연음 등 상황에 맞게 음성이 합성되기 때문에 들을 때 훨씬 자연스러워졌다.
하지만 아직 완벽한 상태는 아니다. 가끔씩 부자연스럽게 느껴질 때가 있다. 이 때문에 TTS의 용도가 아직은 제한적이다. 예를 들어 오디오북은 여전히 성우의 목소리를 직접 녹음하는 경우가 많다. TTS로 읽으면 어딘가 불편하게 느껴지기 때문이다. 이로 인해 오디오북 제작에 많은 비용과 시간이 들어간다. 만약 TTS가 완벽해진다면 모든 책을 손쉽게 오디오북으로 만들 수 있을 것이다. 언제쯤이면 TTS가 완전히 사람처럼 자연스럽게 텍스트를 읽을 수 있을까?
이번주 인천 송도컨벤시아에서는 23회 인터스피치(INTERSPEECH) 행사가 열렸다. 인터스피치는 AI 음성 처리 분야 세계 최대 규모 학술대회다. 전세계 음성 처리 관련 연구자들이 모여 자신의 연구 성과를 소개하고 최신 기술을 공유한다.
국내에서 열리는 올해 행사에는 국내 기업의 연구성과도 다수 공유됐다. 카카오, 네이버, 엔씨소프트, 엘지전자 등은 논문을 발표하기도 했다.
이중 카카오엔터프라이즈의 임단 연구원은 구두(Oral) 발표 기회를 얻기도 했다. 구두 발표는 단순히 논문을 공개하는 것을 넘어 청중 앞에서 발표하는 것을 말한다. 그 해 제출된 논문 중 주목할 필요가 있는 성과를 담은 논문의 저자가 연단에 선정된다.
9월 19일 송도 인터스피치 현장을 찾아 카카오엔터프라이즈 임단 연구원와 이야기를 나눠봤다. 사실 음성합성에 대해 전문가가 아닌 기자가 논문을 읽고 이해하는 건 어렵다. 임 연구원으로부터 이번 연구의 특징과 성과가 무엇인지에 직접 들어보자. (이 인터뷰는 IT전문 미디어 테크M의 김가은 기자와 공동으로 진행했다.)
우선 본인 소개부터 부탁드립니다
저는 카카오 엔터프라이즈의 AI 음성팀에서 음성 합성 엔진 연구 개발을 맡고 있는 임단입니다. 음성합성은 크게 두 부분으로 나뉘는데, 저는 핵심적인 부분이라고 할 수 있는 어쿠스틱 피처(acoustic feature)생성 모델을 맡고 있습니다.
어쿠스틱 피처가 뭔가요?
텍스트로부터 음향 특징 벡터를 생성하는 모델을 말합니다. 텍스트로부터 음성을 바로 합성하는 건 좀 어려운 작업이라서 단계를 나눠서 합성을 하는 경우가 많아요. 텍스트로부터 음성을 바로 합성하기 전에 음성 특징 팩터라는 간략화된 버전의 음성 특징을 추정하는 모델입니다.
AI 연구에 관심을 가지게 된 어떤 특별한 계기가 있나요?
원래 학교 다닐 때 수학도 좀 계속 공부하고 싶고, 컴퓨터도 계속 공부하고 싶고, 마지막으로 직업을 가지게 된다면 현실적인 문제를 풀고 싶었는데, 이 세 가지를 같이 해볼 수 있는 분야인 것 같아서 AI를 선택했습니다. 지금은 만족하면서 일하고 있어요.
이번 연구는 종단간(End-to-End) TTS에 대한 것으로 알고 있는데, 그게 무엇인지 간략하게 설명 좀 해주세요.
텍스트에서 스피치를 합성하는 게 TTS의 목적인데, 한 번에 합성하는 모델을 만드는 게 어렵기 때문에 두 단계로 나눠서 모델을 만들거든요. 그에 반해 엔드투엔드(E2E) TTS는 한 번에 모델을 만든다는 개념이에요.
이전에는 어려웠던 개념인데, 지금은 기술이 많이 발전했기 때문에 새로운 알고리즘을 적용해서 쉽게 E2E TTS로 만들어 봤어요. E2E TTS로 만들면 기존 방법론에 비해서 학습과 관리가 쉬어지는 장점을 가지게 됩니다.
기존 방법론은 말씀드렸듯이 두 단계로 나눠서 모델이 학습돼야 되기 때문에 모델이 두 개가 필요해요. 모델이 각각 따로 독립적으로 존재하거든요. 그래서 막상 이제 학습할 때 생각보다 잘 안 될 수가 있어요.
그래서 추가적인 학습이 발생할 수 있고, 그로 인해서 모델 학습이 되게 복잡해지거나 어려워질 수 있는데 E2E TTS는 애초에 하나의 모델로 합성이 이루어지니까 학습 모델 관리나 학습 측면에서 좀 쉬워졌다고 할 수 있어요.
모델 하나로 학습하는 걸 E2E TTS라고 하는군요.
네, 이번 작업에서는 그렇게 정의를 했고, 지금 합성 분야에서는 그런 식으로 많이 쓰이고 있어요.
실제 사람의 발화와 구별하기 어려운 수준의 고품질 음성을 합성할 수 있다고 했는데, 예를 들면 어느 수준인가요?
기존에는 일반인이 세심하게 고민하면 구별이 가능했다면, 지금은 전문가가 세심하게 고민해야 구별 가능할 정도라고 말할 수 있을 것 같아요.
유튜브를 보다 보면 TTS로 음성을 자동 생성해서 만드는 영상들 많잖아요. 그런 영상을 보다보면 자연스럽게 듣다가도 순간순간 걸리는 게 있거든요. 그런 걸리는 것들이 생기는 이유는 뭐예요?
아마 학습할 때 사용된 데이터의 특성이 실제 합성을 사용할 때 사용하는 환경과 다르기 때문에 좀 어색하게 느껴질 수 있을 것 같아요. 학습된 데이터를 따라서 합성이 되는 거지, 학습된 데이터와 다른 환경에서는 잘 작동하지 않을 수도 있거든요. 그런 것들을 잘 해결되는 게 합성의 목적이긴 합니다.
논문을 보면 패스트스피치2(FastSpeech2)와 하이파이-갠(HiFi-GAN)을 함께 트레이닝한다는 내용인데, 그게 어떤 건가요?
합성이 두 단계로 나눠진다고 말씀드렸는데, 패스트스피치2가 앞부분을 맡고 있고요, 그러니까 텍스트로부터 음성 특징 벡터를 생성하는 앞부분에 사용되는 모델이고, 하이파이-갠은 두 번째 단계, 그러니까 음성 특징 벡터로부터 합성음성을 만들어내는 역할을 담당하는 모델이에요. 그리고 이 각각의 두 모델이 각각의 분야에서 제일 유명한 모델 중에 하나로 알려져 있어요.
이번 연구는 패스트스피치2와 하이파이-갠이 따로 사용되는 게 아니라 하나로 합쳐져서 하나의 모델로서 작동하는 게 특징입니다.
이번 연구는 기존에 좀 불편했던 문제를 이번에 제한된 모델로 쉽게 쉽게 접근할 수 있게 했다, 쉽게 합성 모델을 만들어보고 사용해 볼 수 있다라는 데 의의가 있을 것 같습니다.
그렇게 할 수 있게 된 비결 같은 게 있나요?
기존 방법론과 E2E라는 방법론의 차이 때문에 그렇게 되는 것 같아요. 기존 방법론은 아무래도 독립된 모델이 두 개가 있고, 이 독립된 모델 두 개를 하나의 합성에 쓰려다 보니까 좀 문제가 있었는데 E2E TTS는 학습도 쉽고 성능도 떨어지지 않기 때문에…
E2E TTS라는 거 자체가 이번 연구의 특별한 점인가요?
E2E TTS 자체가 특별한 건 아니고, 이렇게 쉽게 E2E TTS를 만들어볼 수 있다는 게 연구의 특징입니다. 기존 뉴럴 TTS 방식이 음성 합성을 위해 2개의 모델(acoustic feature generator, neural vocoder)을 따로 학습해야 했다면 E2E-TTS 기법을 활용해 두 모델을 한번에 학습할 수 있게 되어 학습 과정을 단축하게 된 것입니다. 제가 이번에 제안한 E2E TTS는 기존 방법보다 상대적으로 훨씬 간단하고, 그래서 좀 쉽게 이해할 수 있고 쉽게 학습할 수 있어요.
지금 오늘 발표하신 연구 성과가 ‘카카오 i 커넥트 센터’, ‘헤이카카오’ 같은 데 이미 적용이 돼 있는 상황인가요?
현재 모델이 정확하게 적용된 건 아니고요, 지금도 방법론이나 알고리즘이 계속 개선되고 있는 상황입니다. 연구에 사용된 방법론의 일부분이 헤이카카오나 이런 데에 적용되고 있다고 생각 할 수 있을 것 같아요.
일부분이라고 말하는 이유는 컴포넌트나 알고리즘이 똑같지 않다는 뜻입니다. 하지만 큰 틀에서 하나의 TTS 모델로 쉽게 학습하고 성능을 계속 유지하거나 개선해 나가는 관점에서 보면 방법론은 적용된다고 할 수 있을 것 같습니다.
오는 10월에 카카오엔터프라이즈에 서비스형 AI가 오픈된다고 들었어요. 이 서비스형 AI에 E2E TTS 기법이 적용이 되면 달라지는 게 있을까요?
아무래도 연구 개발은 제한된 시간과 리소스 안에서 최대한 성과를 내야 합니다. 그러기 위해서는 모델 모델 관리가 쉬워지고, 모델 개발과 연구 개발 사이클이 빨라져야 되는데 그런 부분을 개선하는 데 있어서 도움이 될 거라고 생각합니다.
TTS 기술이 오래된 거고, 제가 느끼기에는 사람하고 별로 구별되지 않는 수준까지 품질이 올라온 것 같거든요. 학계에서도 그렇게 보시는지 궁금하고요. 그러면 그게 이제 어느 순간 더 이상 개발을 할 의미가 없어질 정도로 품질이 올라갈 수 있잖아요. 그런 수준은 어느 시점쯤에 가능할까요?
일반인 관점에서는 사실 앞으로도 크게 달라질 거 없다고 생각할 것 같아요. 하지만 연구자 입장에서는 많이 다르다고 생각해요. 기존 방법론과 지금의 품질 수준은 아직 갈 길이 멀다고 생각합니다.
물론 충분한 양의 데이터와 시간만 주어진다면 일반인뿐만 아니라 전문가도 구별하기 어려울 정도의 좋은 합성을 만들 수 있지만, 문제는 다양한 응용 분야를 생각해야 될 것 같아요.
예를 들어서 데이터가 많지 않다거나 아니면 데이터가 합성용으로 쓰기에 적절하지 않은 경우도 있어요. 음성 데이터를 합성용으로 쓰려면 깨끗한 환경에서 녹음해야 되는데 실생활이나 인터넷에서 쉽게 구할 수 있는 목소리로 합성을 할 필요도 있고, 또는 목소리가 매우 다양하기 때문에 그게 특이한 목소리를 가진 사람에 대해서는 합성이 잘 안 될 수 있거든요. 그런 관점에서는 해볼 만한 응용 분야는 많고 갈 길이 멀다고 연구자 입장에서는 생각하고 있어요.
연구자 사이에서 진짜 해결하기 어려운 음성합성의 난제가 있나요?
이게 비유를 하자면, 결국 사람이 제일 잘하는 것 같아요. 사람은 비교적 적은 데이터만 입력으로 받아도 그거 가지고 이제 다양한 것들을 할 수 있거든요. 저희들 용어로는 트레이닝 데이터가 적어도 일반화가 잘 된다고 합니다.
사람만큼 일반화를 잘하는 합성 모델을 만드는 것은 굉장히 해결하기 어려운 문제일 것 같아요.
사람이 합성을 하는 건 어떤 건가요? 성대모사 이런 걸 말하는 건가요?
네, 성대모사뿐만 아니라 사람은 꼭 음성을 듣지 않아도, 다른 도메인의 정보를 가지고도 다양한 아웃풋을 낼 수 있어요.
결국은 최소한의 데이터로, 최고 품질의 합성을 하는 게 목표인 거네요?
그렇긴 한데 품질이라는 게 정해진 목표치가 있는 것은 아니고 학습할 때 보지 못했던 데이터, 학습하지 못했던 데이터의 패턴에 대해서도 합성이 가능한 걸 말합니다.
우리 인터넷에서 한때 유행했던 게 트럼프가 한국말로 말하고 이런 거 있었잖아요. 그런 것도 가능한 원리는 뭐예요. 언어가 전혀 다르니까 전혀 접해보지 않은 데이터일 거 아니에요?
음성도 학문적으로 따지면 영어든 한국어든 최소한의 발화 단위가 있죠. 영어의 최소한의 발화 단위와 한국어의 발화 단위가 다른 부분도 있지만 겹치는 부분이 많기 때문에 가능합니다.
그런데 한국어에 없는 발음이 영어에는 많잖아요. f나 th 발음 같은 거. 이런 거도 합성 가능한가요?
학습 데이터에 없는 거를 잘 해야 되는 문제인데, 예를 들어 전이 학습이라고 해서 제가 트럼프처럼 발언한 건 없지만 대신 오바마처럼 발언한 게 있다면 그런 거에서 어떤 특징을 가져와서 트럼프처럼 말하게 할 수 있어요. 그런 공통된 분모를 잘 찾아내는 게 중요해요.
오바마를 공부하고 한국 사람을 공부해서 트럼프를 만들 수 있는 거죠. 오바마의 영어와 나의 음색, 한국어와 트럼프의 음색 이런 것들이 조합되는 겁니다.
연구하시면서 응용 분야도 생각하면서 하나요?
다양한 논문을 읽으니까 응용에 대해 상상을 해보긴 하고, 그런 상상을 하는 걸 즐기는 편이긴 한데요, 가장 핵심적인 게 잘 되면 응용은 나중 문제 나지 않나 생각합니다.
앞으로 좀 더 발전시키고 싶으신 부분이나 연구 계획이 있나요?
이번에 제안한 방법이 엄청 어려운 문제를 풀었다기보다는 기존의 방법론을 좀 더 쉽게 한 겁니다. 기존에 하던 일을, 하던 작업을 더 쉽게 하고자 하는 데 의의가 있었거든요.
연구 사이클을 빠르게 돌릴 수 있다는 거는 앞으로는 제한된 인력과 시간에서 더 다양한 실험을 다양한 기술들을 적용해 볼 수 있다는 뜻이기도 하죠. 이번에 제안한 방법론을 바탕으로 앞으로 기술들을 팔로우업 해야 될 것 같습니다.
글. 바이라인네트워크
<심재석 기자>shimsky@byline.network