[바스리] 마스크걸과 카지노, 그리고 방시혁이 선택한 회사 ‘수퍼톤’

바이라인네트워크에서 스타트업을 리뷰합니다. 줄여서 ‘바스리’. 투자시장이 얼어붙어도 뛰어난 기술력과 반짝이는 아이디어, 새로운 비즈니스 모델을 가진 스타트업은 계속해 탄생하고 있습니다. 이들을 바이라인네트워크 기자들이 만나봤습니다.

1998년 유명 팝스타 셰어(Cher)가 ‘빌리브(Belive)’라는 노래로 공전의 히트를 기록했을 때 대중음악계에는 적지 않은 파장이 일었다. 이 노래는 ‘오토튠’이라는 소프트웨어를 활용해 가수의 목소리를 고의적으로 기계음처럼 왜곡시킨 것이 특징이었다.

가수의 목소리와 가창력을 중요시 여겼던 기존의 음악계는 충격에 빠졌다. 가수의 목소리나 악기 연주가 아니라 소프트웨어 기술이 음악의 개성을 표현하는 도구로 사용됐기 때문이다. 대중들은 좋아했지만 음악계 일각에서는 “이런 건 음악이 아니”라고 주장하는 이들도 있었다.

하지만 2000년대 티페인(T-Pain)의 등장 이후 오토튠은 대중음악계의 필수 기술이 됐다. 최근 히트곡 중에서 오토튠을 사용하지 않은 노래는 찾아보기 힘들게 됐다. “오토튠 없는 순수한 음악”을 주창했던 이들은 이제 주류 음악시장에 존재하지 않는다.

이처럼 대중음악은 기술의 영향을 많이 받는다. 앞으로도 기술은 음악산업에 많은 영향을 미칠 가능성이 높다. 특히 최근 AI 기술이 급속도로 발전하고 있기 때문에 이를 활용한 다양한 시도가 일고 있다.

오늘 소개할 수퍼톤은 기술로 음악 산업을 혁신하겠다고 나선 회사다. 수퍼톤은 오디오와 음악을 위한 AI 기술을 개발하는 스타트업으로, 올초에는 하이브에 인수돼 하이브가 시도하는 다양한 실험의 기술적 기반을 제공하고 있다.

그 첫번째 결과물은 지난 5월 하이브가 선보인 가수 ‘미드낫(MIDNATT)’이다. 미드낫은 유명 보컬그룹 에이트 이현 씨의 또다른 활동명이다. 그런데 미드낫의 노래 ‘마스커레이드’에는 여성의 음색이 묘하게 섞여 있다. 이현 씨가 여성의 목소리를 흉내낸 것이 아니다. 수퍼톤은 이현 씨의 목소리에서 여성 보컬을 파생해 만들어 화음으로 더했다.

수퍼톤 이교구 대표(표지 사진 왼쪽)는 “뮤지션들이 자신의 창작물을 다르게 표현하고 싶어도 표현의 한계로 창작성이 제한되는 경우가 있다”면서 “뮤지션들이 수퍼톤의 기술로 새로운 시도를 할 수 있도록 돕고 싶다”고 말했다.

이 회사 허훈 CTO(표지 사진 오른쪽)에 따르면, 목소리 변환은 거의 실시간으로 가능해서 라이브 공연에서도 활용할 수 있다. 즉, 이현 씨가 라이브 무대에서 노래를 하는데 관객들은 여성의 목소리를 들을 수 있는 것이다.

또다른 특징은 신곡이 한국어·영어·스페인어·일본어·중국어·베트남어 6개 언어로 동시 발매됐다는 점이다. 미드낫이 6개국어를 구사하는 걸까? 아니다. 미드낫이 어설프게나마 6개 언어로 노래를 하면, 자동으로 원어민처럼 발음을 교정해주는 수퍼톤의 기술이 활용됐다. 지금까지 가사의 뜻은 모르지만 연주와 멜로디가 좋아서 외국 노래를 듣는 경우가 많았는데, 이 기술이 대중화되면 전 세계의 음악 팬들은 좋아하는 해외 가수의 노래를 모국어로 들을 수 있게 된다.

수퍼톤은 누구나 기술을 활용해서 음악을 쉽게 만들 수 있도록 하겠다는 생각을 갖고 있다. 기술은 지금까지 음악산업의 장벽을 낮춰 왔다. 과거에는 음반을 내려면 거대한 자본을 들여야 했지만, 이제는 DAW(Digital Audio Workstation)와 같은 기술로 누구나 홈 레코딩이 가능하다.

수퍼톤은 이 장벽을 더욱 낮추겠다는 계획이다. 예를 들어 노래를 직접 부르지 않아도 음성합성(TTS) 기술로 가사와 멜로디만 넣으면 노래가 만들어지는 시대까지 계획하고 있다. 심지어 생성 AI 기술로는 멜로디를 만들고, 가사를 쓸 수도 있다. 결과적으로 창작자는 AI가 만들어내는 여러 후보 중에서 무엇이 좋은 음악인지 선택만 하면 되는 시대가 올지도 모른다. 음악적 아이디어만 있으면 누구나 뮤지션이 될 수 있다는 것이다.

이교구 대표는 “과거에는 거대 자본을 들여서 전문가들이 만들었던 음악이나 영상을 좀더 쉽게 만들 수 있는 그런 툴이 생기고 있다”면서 “창작의 진입 경로를 낮춰서 굉장히 다양하고 흥미로운 콘텐츠가 나올 수 있을 것”이라고 말했다.

누구나 음악을 만든다는 것이 어쩌면 음악이라는 예술의 가치를 낮추지는 않을까?

이에 대해 허훈 CTO는 “오토튠이 나왔을 때 노래를 못하는 걸 감추기 위해서 쓴다고 공격을 많이 받았지만, 이제는 오토튠 안 쓰는 가수는 거의 없고, 신시사이저가 나왔을 때도 ‘저게 무슨 악기냐’고 했지만 이제는 신시사이저 안 쓰는 음악은 찾아보기 힘들다”면서 “결국 기술이라는 것은 아티스트가 표현하고자 했던 어떤 예술적 가치의 완성도를 높이고 잘 전달될 수 있도록 돕는 것”이라고 말했다.

이 대표는 “저희는 창작자를 돕는 보조 역할을 하겠다는 것이지, 창작자를 대체하려는 것은 아니다”라고 강조했다.

수퍼톤의 음성 관련 기술이 음악에만 머물러 있는 것은 아니다. 최근 넷플릭스에서 인기를 끈 시리즈 <마스크걸>에도 수퍼톤의 기술이 활용됐다. 극중 주인공이 인터넷 방송을 위해 마스크로 얼굴을 가리면 목소리가 변한다. 이 목소리는 주인공을 연기하는 두 배우(나나, 이한별)의 목소리를 조합해 새롭게 만들어낸 것이다.

디즈니플러스 시리즈 <카지노>에서 최민식 배우의 젊은 시절 목소리에도 수퍼톤의 기술이 사용됐다. 젊은 시절을 연기하는 배우에 맞게 목소리를 젊게 변조한 것이다.

수퍼톤의 미래는 음성 관련 소프트웨어를 공급하는 회사가 되는 것이다. 첫번째 결과물은 잡음제거 플러그인이다. 앞으로는 음성 관련 기술을 SaaS(Software as a Service)로도 제공할 계획이다. 예를 들어 사진 필터처럼 자신의 목소리를 보다 매력적으로 바꿔주는 필터를 제공한다면, 영상 크리에이터나 학원강사들에게 유용할 것이다.

이교구 대표는 “기술과 플랫폼의 발달로 유튜브 크리에이터 생태계가 활성화된 것처럼 음성 부분에서 AI 기술이 새로운 이정표를 만들고 있다고 생각한다”면서 “전문가들이 전통적인 방식으로 만든 콘텐츠와 비전무가들이 기술을 기반으로 만든 흥미로운 콘텐츠는 공존하게 될 것”이라고 말했다.

수퍼톤은?

수퍼톤은 서울대에서 오디오 음악 연구실을 운영 중인 이교구 교수가 2020년 3월에 창업한 회사다. 삼성전자에 근무하던 허훈 CTO가 첫번째로 회사에 합류했다.

이 대표는 “음성(기술)을 음악 콘텐츠에 활용될 수 있는 가능성 봤고 시장에서 상품성 있는 기술될 수 있겠다고 생각했다”고 창업 배경을 설명했다.

창업한 지 1년 남짓이 지나 하이브로부터 40억원을 투자받았다. 하이브는 첫 투자 이후 수퍼톤의 가능성을 높이 사 올초 450억 원을 추가 투자해 지분의 56.1%를 확보했다.

수퍼톤의 목소리를 만들 수 있는 여러가지 방법을 핵심 기술로 보유하고 있다. 음색, 발음, 음고, 강세 등 4가지 요소를 다양하게 제어하고 조합하면서 원하는 목소리를 생성한다.

<마스크걸>에 사용된 음성 모핑 기술, 미드낫에 사용된 다국어 발음 교정 기술 등 음성 합성 기술을 기반으로 다양한 응용 기술을 만들고 있다. 10초의 목소리만 있어도 그 사람 음성의 고유 특성을 추출할 수 있다고 한다. 추출된 목소리에 나이나 성별, 특정 목소리 등을 다양한 비율로 조합할 수 있다.

글. 바이라인네트워크
<심재석 기자>shimsky@byline.network

관련 글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다