기사 | 인터뷰

[바스리] 소리에 미친 사람들이 모두 모였다, 여기는 어디?

By남혜현 2021년 8월 5일 07:502023년 9월 15일 07:10

바이라인네트워크에서 스타트업 리뷰를 연재합니다. 코너명은 ‘바스리’, <바이라인 스타트업 리뷰>의 줄임말입니다. 스타트업 관계자분들과 독자님들의 많은 관심 부탁드립니다.

가우디오랩 사무실에 들어서자 경쾌한 음악이 흘러나왔다. 늘 음악을 틀어놓느냐고 하자, 그렇다는 답이 돌아왔다. 주로 어떤 음악을 듣느냐고 물으니 “먼저 앨범을 선택한 사람이 임자”라고 했다. 그리고는 최근에는 재즈 음악을 주로 듣는다고도 덧붙였다. 작곡가이자 보컬리스트인 직원이 최근 앨범을 취입했다. 구성원 스물아홉명 중 음향공학 박사가 일곱, 석사가 다섯이다. 오디오 전문가가 이정도로 모인 집단은 적어도 국내에는 없다. “소리에 미친 오디오 전문가들”이 한군데 모여 있는 스타트업, 가우디오랩이다.

가우디오랩을 만나봐야겠단 생각을 한 것은 소프트뱅크벤처스가 마련한 투자 포트폴리오 소개 자리에서 이 회사의 기술 시연을 본 후다. 아이돌 그룹의 멤버들이 담소를 나누는 영상이었는데, 가우디오랩의 기술을 적용한 영상과 그렇지 않은 것의 소리 차이가 컸다. 기술이 적용된 화면에서는 각 멤버가 위치한 자리에 따라 소리가 가깝게도, 또는 멀게도 느껴졌다. 현장감이 훨씬 살아난 것이다. 가상환경(VR) 헤드폰을 꼈을 때는 물론이고 스마트폰 화면을 이어폰을 끼고 봤을 때 역시 소리가 생생하다는 느낌을 줬다.

가우디오랩을 공동창업한 이태규 최고기술책임자(CTO)를 최근 서울 강남 테헤란로에 위치한 이 회사 회의실에서 만났다. 이태규 CTO가 학생이고 오현오 대표가 UHD TV 방송 표준을 위한 오디오 의장이던 시절, 두 사람은 함께 개발해낸 기술이 VR 시장에서도 가능성이 있을 거라고 보고 의기투합해 가우디오랩을 창업했다. 페이스북이 오큘러스를 인수한 이듬해인 2015년이었다.

[무료 웨비나] 아이덴티티 보안 없는 보안 전략은 더 이상 안전할 수 없습니다

◎ 일시 : 2025년 7월 15일 (화) 14:00 ~ 15:30
◎ 장소 : https://bylineplus.com/archives/webinar/53537

자세히 보기

VR 시장은 사람들의 관심에도 불구하고 예상만큼 크게 떠오르진 않았다. 지금의 ‘메타버스’ 훈풍이 불기 전까진 말이다. 그사이 가우디오랩은 음향 서비스들이 필요로 하는 여러 기술들(음량 정규화나, 영상에서 사람의 목소리만 깨끗하게 재생해내는 기술 등)을 만들어내며 생존했다. 그리고, 절치부심해 연구해온 ‘스페이셜 오디오’를 세상에 빵, 하고 내놨다. 그게 무엇인지 궁금하다면, 다음 인터뷰를 읽어달라.

이태규 가우디오랩 최고기술책임자(CTO).

저같은 막귀는, 소리라고 하면 ‘돌비’부터 생각이 난다. 가우디오랩은 돌비와는 어떤 차이가 있나?

주력하는 것이 조금 다르다. 돌비는 영화산업에서 진도를 많이 나갔던 회사이다 보니, 촬영 현장에서 따온 소리를 스튜디오에 있는 음원과 잘 조합하는 작업들을 한다. 우리는 그보다는 조금더 라이브 스트리밍 쪽에 더 집중을 하고 있다. 예를 들면, 네이버 나우처럼 실시간 방송을 할 때 ‘이머시브 오디오(Immersive Audio, 가상환경에 있는 듯한 소리)’를 어떻게 제공할 것인가에 초점을 둔다. 또 하나 차이가 있다면, 가우디오랩은 ‘AI(인공지능)’ 기술에 굉장히 주력하고 있다.

영상을 보는 환경이 모바일로 많이 바뀐 것이 영향을 줬을 것 같다. 가우디오랩은 어떻게 창업하게 됐나?

창업이전에 엠펙(MPEG)이라는 오디오 표준을 만드는 단체에서 활동했다. ‘엠펙에이치(MPEG-H)’라는, 지금 국내 UHD 방송의 표준으로 최종 채택된 오디오 압축방식이 있는데 거기에 저희가 제안한 헤드폰 재생 기술이 채택됐다. 그때의 기술 미션은 스피커가 스물두대가 배치되어 있는 공간에서 듣는 소리와 헤드폰을 쓰고 듣는 것이 동일한 느낌을 주도록 하는 것이었다. 그 기술은 결국 가상현실(VR) 환경에서도 핵심이더라. 이걸 단순히 표준에서만 끝내지 말자고 오현오 대표와 함께 창업을 하게 됐다. 당시에는 페이스북이 ‘오큘러스’라는 VR 회사를 2조5000억원에 인수하던 타이밍이라, 우리 기술이 분명히 널리 쓰일 것 같았다. 산업화 영역을 고민하면서 기술이 적용되는 부분을 확장하기 위해서 창업하게 됐다.

처음부터 ‘메타버스’라는 개념을 생각한건가?

당시에는 메타버스라는 개념은 없었다. VR에 쓰는 기술이었다.

가상공간에서 소리를 재생하는 것이 앞으로 많이 늘어날 것이라고 예상을 한 것인데, 한동안 해마다 VR이 대세라고 했지만 정작 시장이 많이 커지지는 않았다

맞다. 회사도 굉장히 어려웠던 순간들이 있었다. 2017년에 VR이 굉장히 핫해졌다가 관심이 떨어지기 시작을 했는데, 그래서 먹고 살기 위해서 바로 수익을 낼 수 있는 제품들도 만들었다. 미디어 간 볼륨 불균형 문제를 해결하는 ‘라우드니스 정규화’ 기술, 음악 스트리밍 서비스에 들어가는 EQ(이퀄라이저, 음색을 보정하는 기술), 음질강화 같은 기술들을 만들어서 매출을 발생시키기 시작했다.

약간, 소리계의 SI(System Integrator, 시스템 통합)같은 생각이 든다(웃음)

(웃음) 맞다. 오디오 업계가 워낙 인재가 부족하다. 예를 들어 삼성이나 카카오 같은 큰 기업들도 오디오 전문 인력이 잘 없다. 그러다보니 저희가 간지러운 부분들을 많이 도와드리는 형태로 일을 하고 있다. 그렇지만 우리 비즈니스 모델은 모두 기술 라이선싱이다.

오디오 인력이 시장에 적어서 대기업도 뽑기 힘든데, 가우디오랩은 어떻게 인재를 확보했나

아무래도 대기업의 오디오팀이 하는 업무는 그 회사의 메인이 되기 어렵다. 예를 들어 LG전자의 TV 부서에서 오디오 파트는 힘을 가지기 어렵다. 오디오를 전문으로 하는 사람이 가우디오랩에 합류했을 때는, 대기업보다 훨씬 더 액티브하게 오디오에 집중해서 일을 할 수 있다보니 그런 부분을 매력으로 느끼는 것 같다.

국내에는 오디오 솔루션을 전문으로 하는 회사가 많이 없나?

그렇다. 많이 없다.

이유가 무엇인가

오디오 제품을 만들기 위해서는 오디오 디지털 신호 처리를 전공한 사람들이 필요하다. 그런데 지금 보면, 각 대학에 오디오 전공이 드물뿐더러 관련 교수들도 정년이 되어 연구실 문을 닫는다. 그런데 최근에 더 어렵게 된 것 중 하나는, 오디오 관련 연구를 하던 연구실들이 거의 AI 쪽으로 넘어가고 있기도 하다. 음성인식이나 합성에 집중을 하다보니 더 인력을 구하기 어려운 상황으로 가고 있다.

오디오가 중요해지는 것은 너무나 당연한 일이다. 자동차도 인포테인먼트를 강화하게 되면 오디오에 힘을 써야 하는데 왜 전반적으로 투자가 일어나지 않나?

연구도 트렌드가 있다. 연구실 입장에서는 프로젝트를 잘 딸 수 있어야 되고 논문을 썼을 때 채택이 잘 돼야한다. 우리가 하는 일은 트렌디함과는 조금 거리가 있어서 그런 것 같다.

다른나라의 경우는 어떤가?

글로벌하게 인재난이 있다. 기업들에서는 투자를 많이 하고 있지만, AI 기반으로 많이 넘어가고 있다.

소리라는 큰 영역에서 AI 기반으로 많이 쏠리게 되면, 오디오 음향 연구를 하는 쪽은 상대적으로 경쟁력이 생기는 부분도 있겠다. 국내 협업하는 곳이 있나?

그렇다. 국내 음원 스트리밍 사이트 다수와 LG전자 등에서 가우디오랩의 기술을 쓰고 있다.

왜 그 회사들이 가우디오랩의 기술을 채택했다고 보나

일단, 저희가 가진 기술력이 뛰어나서라고 생각한다(웃음). 같이 일을 할 때 그분들이 어려워하는 부분을 저희가 컨설팅처럼 도와드리는 부분이 매력적으로 작용하는 것 같다. 그래서 어떤 간지러운 부분 때문에 가우디오랩을 만나게 되고, 이후에 프로젝트가 커지는 경우가 많다. 예를 들어, 네이버에서는 공연장의 음향을 그대로 체험할 수 있도록 현장감을 살리고 싶다는 요구로 저희를 만났는데, 이후로는 음질이나 EQ의 개선 같은 것도 필요하다는 식으로 프로젝트가 늘어난다.

https://youtu.be/_Sp2S7I7OMw

(위 영상 참고) 살짝 체험을 해봤는데, 신기했다. 진짜로 기술이 적용되니 현장감이 산다. 이 원리를 뭐라고 봐야 하나?

기본적으로는 (소리가) 전달되는 경로를 측정을 한다. 예를 들어 ‘무향실’이라고 해서, 전체 흡음제를 발라놓은 공간이 있다. 그 무향실에서 소리가 어떻게 반사되어 돌아오는지를 본다. 그 소리는 방향에 따라 귀로 바로 들어오기도 하고, 몸에 맞아서 반사되기도 하고, 귀의 외이에 맞아서 시간차가 발생하기도 한다. 사람은 그 소리의 굴절에 따라 방향성이나, 시간차, 거리감을 인지하는데, 그렇기 때문에 모든 방향에 대한 소리의 전달 경로를 알아보는 것이다.

아, 역시 인체는 신비하다. 필요하지 않은 곳이 하나도 없다

그렇다. 네이처에 되게 재미있는 논문이 실렸었다. 귀를 (감싸는) 몰딩을 해서 모양을 변형시키면 그 사람이 높이를 지각하고 방향을 잡기 어려워진다. 그런데 이렇게 변형된 귀를 한 달 정도 유지한 채로 생활을 하면 다시 방향과 높이를 지각한다.

놀랍다. 그런데 이런 인체의 특징을 활용하는 것은 이론적으로는 예전부터 알려져 있던 것 아닌가. 그런데 왜 기술적으로 개발은 늦어진 건가?

일단 이게 되게 오래된 기술은 맞다. 그러나 연산량을 처리할 수 있는 CPU와 디바이스가 발달하면서 가능해진 것이다.

서비스의 이름이 ‘BTRS(Being There Recreate System)’이다

VR환경이나 2D 환경 모두에서 현장에 있는 느낌(Being There)을 살려주는 거다. VR 환경에서 보면, 현장의 관객 소리, 공간에서만 느낄 수 있는 소리가 많이 난다. 그런데 이게 2D로 넘어오면, 작은 스크린으로 보기 때문에 내가 그 곳에 있다는 지각을 할 수가 없다. 그래서 VR 환경처럼 소리를 동일하게 들려주면 헤드셋을 쓰고 들을 때만큼 좋은 경험이 되지 않고, 그 현장감 있는 소리가 어색하게 느껴진다. 그래서 2D에는 2D에 적합한 이머시브 오디오를 적용하는 것이 필요하다.

2D에 맞는 이머시브 오디오란 어떤 것인가

멀티뷰 시나리오다. 아이돌 그룹을 전체로 볼 수도 있고, 멤버 중 내가 원하는 스타를 단독 샷으로 볼 수도 있게 여러 영상이 송출되고, 그 영상에 따라 소리의 방향도 달라지는 시나리오다. 예를 들어, 어느 한 멤버를 클릭하면 그 멤버가 정면에 있는 듯한 느낌을 준다. 각 멤버가 분할되어서 나온다면, 그 위치에 맞게 소리가 나고, 풀샷으로 잡힐 때는 시청자가 조금 떨어져서 이들을 관찰하는 듯한 느낌을 준다. 그 상황에서 스페이셜 오디오 기술을 적용한다.

스페이셜 오디오 기술은 무엇인가

고개를 좌우로 움직이면 스크린에 맞게 소리의 방향이 달라진다. 또, 화면이 시간에 따라 바뀌는데 그 화면에 맞게 소리(방향이나 공간감)가 자동으로 바뀌기도 한다.

이런 기술들은 바이노럴 렌더링(오디오 신호를 사람의 귀에 전달되는 신호로 모델링하는 프로세스)이라고 오래전부터 있었던 것이지만, 플랫폼에 맞게 개발하기 위해서는 굉장한 고도화가 필요하다. 만약 모든 콘서트 현장에 이런 이머시브 오디오를 적용하려 한다면 비용 문제가 상당하기 때문에 적용에 고민이 될 수밖에 없다. 새로운 장비를 들여와야 하고, 오디오 신호를 연결하고 이를 처리하는 엔진도 사야 하기 때문에 비용이 증가한다. 그게 현재 이머시브 오디오를 도입하는데 굉장히 큰 장벽이었다. 지금 가우디오랩이 추구하는 것은 기존의 워크 플로우는 그대로 둔채로 저희 기술만 접목해 쉽게 문제를 풀려는 것이다.

어떤 식으로 문제를 풀 수 있나?

고도화를 진행하고 있다. 예를 들면 콘텐츠를 만들 때 출연자들이 (옷에 부착하는 형태의) 라발리에 마이크를 착용하고 있고, 거기에서 들어오는 소리를 사운드 엔지니어가 콘솔에서 적당한 수준으로 들리도록 실시간 에디팅을 한다. 그 콘솔에 가우디오랩의 BTRS가 설치되어 있는 맥북을 연결해 출력하면 자동으로 소리(방향성 등)가 처리되는 것이다. 즉 수많은 장비가 필요했던 것을 소프트웨어가 대체하는 것이다.

아무래도 엔터테인먼트 업계에서 수요가 많을 것 같다. 지금 협업하는 곳은 어디어디 있을까?

지금은 네이버랑 긴밀하게 협업하면서 프로젝트를 고도화하는데 집중해 왔다. 3분기부터는 새로운 고객을 만나려고 노력하려 한다.

요즘은 진짜 ‘메타버스’가 가장 큰 화두더라. 회사 입장에서도 고무적인 상황이겠다. 메타버스에서 가우디오랩의 기술은 어떻게 적용될 수 있을까?

메타버스 환경은 ‘빙 히어(Being Here)’와 ‘빙 데어(Being There)’로 나뉠 수 있다. 빙 히어는 원격에서 만나는 이가 나와 같은 공간에 있다고 느끼는 경험이고, 빙 데어는 내가 (상대편이 있는) 원격의 공간에 가 있는 경험이다. 청각적으로 보면, 빙 히어를 구현하기 위해서는 상대편의 현장 소리를 어느 정도 지워줘야 한다. 만약 상대편이 지하철을 타고 있다면 지하철 소음을 제거하고, 그 사람의 목소리를 잘 위치시켜줘야 한다. 또, 빙 데어의 경우에는 상대편의 현장감을 내가 느껴야 하기 때문에 그 공간을 잘 모델링해서 현장음을 잘 제공해야 한다. 그런 기술들이 적용될 수 있을 것 같다.

마지막으로, 비전을 말해달라

결국 사용자에게 훌륭한 소리 경험을 전달하는 것이 목표다. 소리의 중요성을 모든 사람들이 점점 더 많이 알게 돼서 소리에 관심을 갖는 사람도 많아지고, 그걸 통해 행복감을 느끼는 사람을 많이 만드는 것이 가우디오랩의 목표다.

글. 바이라인네트워크
<남혜현 기자> smilla@byline.network

남혜현

스타트업을 취재합니다. 딥테크 환영합니다.

답글 남기기 응답 취소