바이라인네트워크에서 스타트업  리뷰를 연재합니다. 코너명은 ‘바스리’, <바이라인 스타트업 리뷰>의 줄임말입니다. 스타트업 관계자분들과 독자님들의 많은 관심 부탁드립니다.

재택근무가 늘어나면서, 내가 듣는 소리의 상당량이 사람이 내는 것이 아닌 게 됐다. 전자레인지가 음식을 다 데웠을 때 내는 알람, 전기포트 속에서 팔팔 끓은 물이 이제는 커피를 마실 수 있다고 수증기를 내뿜는 소리, 가끔씩 창문을 두드리는 바람 같은 것이 내게 어떤 행동을 요구하는 정보를 알려준다.

만약 이같은 일상생활의 소리를 사람이 아닌 컴퓨터가 모두 알아듣고 적절한 행동을 취하게 된다면? 예를 들어 자동차의 엔진 소리를 듣고 어떤 문제가 있는지를 예측해 정비소에 점검 일정을 잡아준다거나, 내 휘파람 소리를 알아듣고 알아서 집안의 조명을 모두 꺼주는 일을 인공지능이 할 수 있지 않을까?

다만, 아직 컴퓨터는 사람 목소리 외 다른 소리를 듣고 구분하는 능력은 부족하다. 인공지능 기술이 개발되고 있지만 시각에 비해 청각, 청각에서도 환경음에 대한 연구가 많이 이뤄지지 않은 까닭이다. 코클리어닷에아이는 이 환경음을 체계화해 ‘사운드AI’ 솔루션을 만들어내는 스타트업이다.

지난해 12월, 벤츠로 유명한 독일의 다임러그룹이 국내 엑셀러레이터 스파크랩스와 손잡고 ‘스타트업 아우토반 엑스포데이’를 열었다. 일종의 데모데이인데, 이때 이수빈 코클리어닷에이아이 최고운영책임자(COO)가 무대에 올라 벤츠와 협력 사례를 발표했다. 코클리어닷에이아이의 기술을 벤츠의 인포테인먼트 시스템인 MBUX에 적용하는 프로젝트가 어떻게 성사됐고 진행되어 왔는지에 대한 설명이었다.

그동안의 딥러닝 연구에서는 컴퓨터가 사람의 말을 얼마나 정확하게 알아듣는지, 그 의미와 맥락을 자연스럽게 받아들이는지에 집중해 왔기 때문에, ‘환경음’을 말하는 이수빈 이사의 발표가 새로웠다. 더 이야기를 듣고 싶다고 제안했고, 화상미팅을 통해 인터뷰가 성사됐다. 이수빈 COO를 비롯해 코클리어닷에이아이의 공동창업자들은 드물게도 대학에서 오디오 데이터 분석을 연구해온 이들이다. 음악도, 기술도 좋아하던 이들이 두 마리 토끼를 잡기 위해 창업한 것이 코클리어닷에이아이다.

이수빈 COO에게 목소리가 아닌 환경음 데이터를 모아 이를 구분해 내는 솔루션이 왜 필요한지, 그리고 어떤 기술적 난제가 있는지 등을 물었다. 또, 벤츠를 비롯한 기업과 협업은 어떻게 이뤄지고 있는지에 대한 답을 들었다. 이수빈 COO는 코클리어닷에이아이와 벤츠의 협업 프로젝트를 총괄한 인물이기도 하다.

코클리어닷에이아이는 어떤 회사?

음성 외의 모든 종류의 소리를 이해할 수 있는 AI 솔루션을 만드는 것을 목표로 한다.

유리창이 깨지는 소리, 비명, 화재 경보 등을 학습해 위험한 소리가 들렸을 때 보안시스템 및 청각장애인에 알리는 솔루션과 비언어적 명령(휘파람이나 박수, 노크, 손가락 스냅 등)으로 IoT 장치를 제어하는 솔루션 등을 만들었다.


 

이수빈 코클리어닷에이아이 COO

그동안 오디오를 갖고 인공지능 기술을 만드는데는 사람의 목소리를 분석했다. 그런데 음성이 아니라 사운드 AI 기술을 개발한 계기가 있나?

보통 투자 IR을 다닐 때 처음 나오는 질문이 그거다. 문제해결(problem-solving)의 첫 단계인데, AI 연구의 궁극적인 목표는 사람의 감각기관을 닮은 기술을 만드는 것이다. 시각적 정보를 다루는 컴퓨터 비전은 많은 걸 보고 이해하는 수준에 이르렀다. 사진 속에 어떤 오브젝트가 있었는지를 구분하는데, 자율주행차를 비롯해서 산업별로 그에 맞는 솔루션을 개발하고 있다.

그러나 오디오 같은 경우는 주로 사람 목소리를 알아듣고 이해하는 것 중심으로 인공지능 기술이 발전해왔다. 그 외의 다른 소리를 알아들어서 이해한다는 콘셉트로 AI 솔루션을 만드는 것이 우리가 최초다. 그동안 나온 다른 솔루션들은 대화에 참여한 인원이 몇 명까지인지 그 소리를 구분한다거나, 아기 울음소리를 알아듣는 것 정도였다. 완전히 딥러닝 베이스로 풀어낸 경우는 우리가 처음이다.

인공지능이 궁극적으로 사람처럼 청각 인지 능력을 갖춰가는데 필요한 여러 요소가 있다. 우리는 그중에서 첫 타깃을 환경으로 잡았다. 다양한 환경을 이해해 비언어적 의미를 파악한다는 걸 하나의 테마로 개발을 진행 중이다.

여기서, 이수빈 COO는 시각과 청각의 연구 환경 조건을 비교했다. 예를 들어 시각과 관련한 딥러닝 연구에서는, 사진이나 영상의 모든 요소를 구분해서 인식한다. 눈으로 보는 모든 것을 컴퓨터가 학습할 수 있게 하는 것이다. 그러나 청각의 경우는 다르다. 사람 목소리 외에, 귀로 듣는 대부분의 환경음에 대한 체계화된 데이터의 수가 적다. 따라서 연구 속도도 더딜 수밖에 없다. 사람의 목소리를 알아듣고 대화를 풀어내는 수준까지는 올라왔으나, 사람 목소리 외의 여러 소리에 대한 딥러닝 연구는 많이 진행되지 못했다는 걸 지적한 것이다.

매우 중요한 분야인데 그동안은 다른 경쟁자들이 사운드AI에 들어오지 않았을까?

사운드AI가 기술적으로 완성되기 위해서는 굉장히 많은 필요조건이 있다. 많은 소리가 존재하다보니 카테고리화하는 것이 처음이었다. 예를 들자면 ‘똑똑’이라는 소리를 노크라 알아들을 수도 있지만, 단순 마찰음으로 해석할 수도 있다. 비전(vision)과는 달리 소리 쪽에서는 각 소리를 카테고리화하는 온톨로지(개념을 컴퓨터가 이해할 수 있는 형식으로 명확하고 명시적으로 정의하고 규정하는 것)조자 되지 않았었다.

마이크로폰의 성능도 영향을 많이 미친다. 딥러닝 기술이 대두되기 전까지는 성능이 안 올라온 것도 맞다. AI스피커처럼 오디오가 메인 소스가 되는 IoT 기반 하드웨어도 별로 없었다. 스마트폰도 거의 통화에만 맞춰진 스펙이었다. 그러나 지금은 AI스피커도 생기고 CCTV에도 인터넷이 연결돼 IoT 플랫폼에 귀속이 되면서 사운드AI에 대한 관심이 높아지고 있다. 이전에는 하고 싶어도 여러 현실적인 문제로 인해서 어려웠다.

하나 더 말하자면, 비전 연구자가 100명이 이다고 하면 오디오 연구자는 1명 있다고 봐야 한다. 리서치 파워의 차이도 있다. 여러 복합적인 이유로 연구가 이뤄지지 않았으나 요즘은 인프라가 받쳐주는게 생겨서 급격도로 관심이 높아지고 있는 시장이다.

인프라도 척박하고, 많이들 시도하지 않는 분야였는데 왜 오디오에 관심을 갖고 창업을 했나?

공동창업자들이 속한 연구실이 음악 자체를 분석하는 테크놀로지를 연구하는 곳이었다. 음악과 엔지니어링을 동시에 가져가고 싶다는 생각을 항상 해왔다. 음악 콘텐츠를 엔지니어링으로 풀어볼 수 있는 샤잠 같은 솔루션에서 동기를 얻기도 했다. 두 마리 토끼를 잡아보고 싶었다.


사람의 목소리는 휴대폰도이나 AI 스피커 등으로 수집이 가능하다. 환경음은 모으는데도 쉽지 않았을 것 같고, 이를 학습해 솔루션으로 만드는 것도 어려웠을 것 같다. 어떤 부분에서 기술적으로 사운드AI를 구현하는데 고충이 있었나?

사운드는 카테고리도 많은데다가, 한 카테고리에서도 많은 양의 데이터를 모아야 하니까 이부분이 보틀넥(기술을 개발하는데 병목현상을 일으키는 구간)이 됐다. 일단은 고품질의 마이크에서 다양한 상황과 환경의 데이터를 생성하는 플랫폼을 만들어서 데이터가 부족한 문제를 탈피하려고 했다.

그대신 어느정도 초기 모델이 나오면 직접 녹음을 하거나 앱이나 웹에서 자동으로 긁어오는 등의 수단과 방법을 가리지 않았다. 양적으로 어느 정도 레벨의 수준에 올라오면 (데이터) 생성에는 가속이 붙는다. 자세히 말하긴 어렵지만, 고품질의 소량 음원을 직접 녹음하는 것으로부터 시작해 데이터를 불려나가는 것에서 독특함을 가지고 있다.

컴퓨터 비전의 경우에는 사진 안에 있는 여러 구성 요소를 카테고리로 구분해 라벨링하는게 고도화되어 있다. 시각적인 것은 라벨링을 하기 비교적 쉬울 것 같은데, 환경음은 라벨링을 어떻게 하나?

라벨링하는 것에서는 몇초부터 몇초사이 어떤 소리가 있었다라고 구분하는 것이 룰이다.

소리가 섞여 있을 때는 어떻게 하나?

섞여 있을 때는 지배적인(dominant) 소리를 먼저 구분한다. 가까이에서 나는 소리가 조금 더 큰 정보를 담고 있을 확률이 크다. ‘블라인드 소스 세퍼레이션(blind source separation, BBS)’이라고 해서 음원이나 소스를 분리하는 기술을 내부에서 개발중에 있긴 한데, 그렇게 되면 같은 시간에 존재하는 다양한 음원을 추적하는 것도 가능해진다. 이런 것도 내부 목표 중 하나로 잡혀 있다.

물론, 난이도는 있는 편이다. 이미지는 2D라 각각의 요소가 무엇인지 규정짓기는 편한 편이다. 그러나 소리를 라벨링할 때는 조금 더 시간과 노력이 많이 든다. 그런 부분 때문에 후발주자들에게 기본적으로 기술 개발 진입의 문턱이 높다고 판단한다. 리서치적으로도 오디오에 대한 지식이 많이 필요하다.

사운드AI에서 아직 풀지 못한 문제가 있다면?

방금 말한 것처럼 소리가 동시에 겹쳤을 때의 문제가 있다. 또, 지금은 저희가 대략 마흔가지 정도의 소리를 구분하는데 그걸 수백가지로 늘리는데 있어 준비되어야 할 부분이 있다. 딥러닝 모델을 효율적으로 SDK화 해야 하는 것도 과제다. 기업들로부터 SDK로 요청이 많이 들어오는데 디바이스마다 환경이 다르기 때문에 이를 솔루션화하는데 최대한 힘을 많이 쏟고 있다. 딥러닝 모델을 SDK로 만드는데 하드웨어적 제약이 아직 있으므로, 효율적으로 솔루션을 돌릴 수 있다는 것을 증명하는 것이 올해 주로 풀어야 할 문제다.

환경음을 모두 수집한다는 것에 대해 공포가 있을 수도 있다. 예컨대 요즘 같은 시국에 기침을 하는 것은 중대한 문제이고, 당연히 병원에 가야하는 일이다. 그러나 내 기침 정보를 내가 판단해서 병원에 제공하는 것과 AI가 수집해서 알려지는 것은 전혀 다른 문제다. 

맞는 얘기다. 우리 뿐만 아니라 AI 스피커 모두에게 해당이 되는 문제이기도 하다. 알렉사 가드의 예를 들자면, 사용자가 집을 떠나면 환경음 수집 기능을 켜고, 사용자가 집에 들어오면 그 기능을 끄는 걸로 시나리오를 풀려고 한다. 보통 프라이버시 침해는 사용자가 집에 있을 때 일어나므로, 사람이 집에 없을 때 위험을 감지하는 용도로 UX 시나리오를 만드는 것이다.

그래서 사람과 관련한 소리에 대해서는 조심스럽게 접근하고 있다. 그래서 비교적 이런 논란에서 자유로운 기계음 같은 것을 먼저 다루고 있기도 하다.

최근 벤츠 데모데이에서의 발표를 인상깊게 들었다. 벤츠와 협업은 어떻게 이뤄졌나?

왜 자율주행차는 보기만 하지 듣지는 못할까라는 생각으로 벤츠 해커톤에 참여했다. 그 결과물을 새롭다고 본 벤츠 본사가 ‘셀렉션 데이’ 참여를 제안해왔다. 다임러 그룹이 진행하는 엑셀러레이팅 프로그램에 참여할 스타트업을 선발하는 행사인데, 60개 업체가 왔다. 그중 오십개가 넘는 스타트업이 소재, 전장 등 자동차 맞춤 솔루션을 갖고 왔다.

반면, 우리는 없던 솔루션을 갖고 왔으니 이게 왜 필요한 것인지 왜 해야 하는 일인지부터 중점적으로 설명했다. 심사하는 사람 중에 오디오 전문가가 한 명도 없으니, 쉽고 재미있는 이용 사례에 집중해서 발표했는데 반응이 좋았다. 그래서 MBUX(Mercedes-Benz User Experience, 벤츠의 차세대 인포테인먼트 시스템)팀과 협업을 시작했다. 1월 중순 쯤에 1차 프로젝트가 끝날 예정이다.

벤츠와의 협력은 인포테인먼트와 관련된 것인가?

자동차는 (사람의 생명과 연결되어 있으므로) 검증이 오래 걸린다. 따라서 주행에 필요한 차량 내외부의 소리를 분석해 솔루션을 만드는 것보다 인포테인먼트로 먼저 서비스를 시작했다. 인포테인먼트 솔루션의 가시성을 먼저 검증하고, 더 무거운 주제로 나중에 넘어간다는 계획을 가지고 있다.

무거운 주제라면 어떤 것이 있을까?

예를 들면, 엔진같은 데서 소리적인 특성이 달라진다거나 자율주행차 부문에서도 굉장히 멀리서 들려오는 소리도(레이더나 라이더로 감별하기 어려운 정보를 포함해서) 마이크로폰의 성능만 받쳐준다면 감별할 수 있다.

앞으로의 계획은 어떻게 되나?

지속적인 매출을 만들어내는 비즈니스 모델을 만드는 것이 올해 목표다. 어떻게 보면 운이 좋은 스타트업이라고도 생각한다. 벤츠와 어떻게 이어졌냐라고들 많이 물으시는데, 테크기반 B2B 솔루션이라고 할지라도 목표나 생각을 항상 남들과 자주 이야기하고 공유하는 게 많으면 많을수록 이런 연결을 만들어내는 것 같다. 따라서 저희 기술이 유니크하지만 (생태계에서) 저희 시나리오가 (계획대로) 갈 수 있지 않을까라고 생각한다. 리서치 쪽으로는 궁극적으로 수백, 수천가지 카테고리로 넓혀가려 한다.

글. 바이라인네트워크
<남혜현 기자> smilla@byline.network


--------------------------------------------------

[바이라인플러스 1월 무료 웨비나 ]

  • 오피스365·구글 워크스페이스 보안 강화 방안 : ‘사람 중심(People-Centric) 보안’ 👉  사전등록 


이런 뉴스레터 어때요?