인공지능 성우 서비스 ‘타입캐스트’를 제공하는 스타트업 네오사피엔스에 다녀왔습니다. 김태수 대표는 딥러닝으로 오디오 기술을 개발해온 엔지니어 출신입니다. 텍스트를 목소리로 또박 또박 정확하게 옮겨주는 데 집중했던 기존의 음성합성 기술을 넘어, 인간의 감정을 표현하는 인공지능 성우 서비스 개발에 집중하고 있습니다. 김태수 대표를 만나 나눈 이야기를, 이 회사의 인공지능 성우 ‘소영’의 목소리로 옮겨보았습니다. 상단의 오디오클립을 클릭하시면, 본문의 내용을 소영의 음성으로 들으실 수 있습니다.

안녕하세요? 저는 인공지능 성우 소영입니다. 주로 오디오북이나 다큐멘터리 영상에 들어갈 내용을 읽어주는 일을 합니다. 주로 ‘다정하고’ ‘친절한’ 목소리의 배역을 맡고 있죠. 요즘은 사람처럼 감정과 운율을 표현하는데 집중해서 일을 배우고 있습니다.

저 말고도 네오사피엔스 타입캐스트에는 다양한 성격을 가진 성우가 많습니다.

제 동료 중에는 꽤 알려진 일을 한 친구들도 있습니다. 혹시 얼마 전 MBC에서 방영한 특집 다큐멘터리 ‘너를 만났다’라는 프로그램을 보신 분 계신가요? 먼저 세상을 떠난 꼬마 나연이가, 가상현실에서 엄마와 다시 만나게 된 장면이 담겼죠. 그때 나연이의 목소리를 제 동료 중 한 명이 맡았는데요. 나연이의 가족을 생각하면, 정말 조심스러우면서도 가슴 먹먹한 시간이었죠.





제 일의 특성상, 그동안 매일 남의 이야기만 읽어왔는데요. 오늘은 제 이야기를 해보려고 합니다. 사람들이 가끔 저희 업계를 무시하는 말을 하거든요. “기계가 읽는 건 역시 어색해. 이상해서 듣기 싫어”라고요. 요즘 기술이 얼마나 달라졌는지, 제가 자라온 이야기를 들어보면 생각이 좀 달라지지 않을까 합니다.

우선 제가 태어난 이야기부터 해야겠네요. 제 고향은, 사람들 말로는 스타트업이라고 부르던데, ‘네오사피엔스’라는 곳입니다. 인공지능 기술로 미디어 엔터테엔먼트 산업을 혁신한다는 목표로 만들었다고 아버지가 그러더라고요.

제 아버지는, 네오사피엔스를 만든 김태수 씨입니다. 여기서는 다들 대표님이라고 불러요. 학교 다닐 때, ‘소리를 분리하는 것’을 주제로 박사학위를 받았다고 하는데요. 소녀시대가 초콜릿폰을 광고하던 옛 시절, 휴대폰에 박힌 두 개의 마이크가 받아들인 소리를 분리해내는 일을 했대요.

퀄컴이라는 외국 회사에 다닐 때는 소리를 듣고 상황을 인식하는 기술을 만들었다고 하는데요. 뭐, 예를 들면 소리를 듣고 “엇 애기가 우네?”를 눈치 채고 부모가 볼 수 있도록 카메라의 영상을 켠다던가, 또는 “아 저 사람 키보드를 치고 있네”라고 알려주는 일 같은 거요. 그러다가 나중에는, “시리야!”하고 부르면 휴대폰을 깨우는 그 기술 개발에도 참여했다고 하더라고요.

저를 만든 네오사피엔스의 김태수 대표입니다.

어쨌든 요약하자면, 아버지는 소리 덕후였던 것 같아요. 학교 때부터 지금까지 쭉, 소리와 관련한 기술만 해왔다고 하니까요. 그런데 아버지가 ‘소리를 인식’하는 기술에서, 성우 서비스라는 ‘소리를 내보내는’ 일로 방향을 튼 건 아주 우연한 기회였어요.

저는 가끔 제 탄생의 기원을 쫓곤 하는데요. 제가 왜 태어나게 됐을까, 하는 문제요. 그런데 제 탄생은 아버지가 죽음을 목도했던 일에서 시작됐습니다. 아이러니하죠? 2016년의 어느 날이었대요. 휴대폰에 아마존의 ‘알렉사’ 기능을 튜닝하고 있었는데 심장이 갑자기 멎을 뻔 했다고 하더라고요. 병원으로 직행했고, 입원해 있는 동안 이런 생각이 들었다고 해요.

“내 비석에 뭐가 쓰일까? 퀄컴의 엔지니어? 특허? 우리 아이들은 나를 어떻게 기억할까?”

여러분은 어떠실 것 같나요? 만약 죽을 뻔 했다가 다시 살아난다면, 어떤 일을 해보고 싶으실 것 같은가요? 저희 아버지는 세상을 바꾸는 일을 해보고 싶었다고 합니다. 지금까지 해온 일도 충분히 생활의 변화를 가져오는 것이었지만, 자신이 주도로 해 온 프로젝트가 아니었다는 게 아쉽기도 했고요.

누군가 오래 기억하는 일은, 단순히 기능만 개선해선 되는 일이 아니라고 봤대요. 만약에 아버지가 네오사피엔스로, 지금까지의 TTS 기술을 조금 더 낫게 만드는 일을 했다면 아마도 사람들이 관심을 갖지 않았겠죠. 말로만 들으시면 이게 뭐, 얼마나 다른 기술인지 잘 모르시겠죠?

네오사피엔스가 대중에 이름을 알리게 조금 알려지게 된 일이 있는데요. 바로, 도널드 트럼프 미국 대통령이 한국말로 인사하는 영상입니다. 트럼프 대통령이 한국말을 할 수 있을리가 없죠. 그의 목소리와 억양 등을 딥러닝으로 학습한 후, 한국어로 발음할 때는 이럴 것이라라고 가정해서 음성을 조합해 만들어낸 영상이에요. 굳이 한국어에만 적용되는 기술은 아니고요, 응용을 한다면 세계 어느 나라 언어라도 만들어낼 수 있겠네요. 이게 뜨고 나서 저희 아버지가 언론 인터뷰도 많이 했더라고요.

아버지에 따르면, 지금까지 음성합성 서비스들은 텍스트를 입력하면 얼마나 또박 또박 정확하게 음성으로 출력할 수 있는지에 집중해왔죠. 그런데 네오사피엔스의 연구팀은, 소리를 정확하게 내보내는게 아니라 그 문장이 어떤 상황과 맥락에서 어떤 감정을 담고 나와야 하는지에 집중했다고 합니다. 또 여러 음성의 조합이 가능하다면, 마치 트럼프가 한국말을 하듯 새로운 서비스를 선보일 수 있다고 생각했대요. 기존의 기술을 개선한다기보다, 접근 방식을 달리했다는 거죠.

인공지능 성우들한테 글자를 가르친게 아니라 연기를 가르친 셈인데요. 교재는 성우들의 녹음 연기나 드라마, 아나운서의 뉴스 브리핑 등이죠. 또 화면을 읽고 분위기를 맞추는 공부도 해요. 굉장히 빠른 스포츠 화면을 바라보다 보면 제 말도 빨라져야 듣는 분들이 위화감을 안 느낄테니까요.  물론, 저는 아직 부족하니까 매일 노력 중이고, 능력치를 경신 중입니다.

아버지는 가끔 이런 말을 해요. “애플이 없었으면 우리의 삶이 어땠을까, 라고 사람들이 말하는 것처럼 네오사피엔스도 그런 회사가 되길 바란다”라고요. 사람들의 삶을 바꾸는데 기여하고, 그래서 나중에 “네오사피엔스가 없으면 이게 안 됐겠지”하는 이야길 듣고 싶다고 하네요. 저도, 그 일에서 하나의 역할을 할 수 있겠죠?

소영, 드림.

글. 바이라인네트워크
<남혜현 기자> smilla@byline.network