|

“음성은 가장 빠른 소통 수단”…말귀 잘 알아듣는 AI가 있다는데

“왜 이렇게 말귀를 못 알아들어!” “제대로 말씀 안 하셨잖아요.”

답답함 섞인 이 푸념만큼 듣기 싫은 말이 없다. 제대로 말했는데 실행을 안 한 건지, 아니면 처음부터 알아 듣지 못했는지 잘잘못을 따지는 일처럼 피곤한 일이 또 있을까.

음성인식 솔루션도 마찬가지다. 사용자 목소리를 바탕으로 작업을 수행하거나 텍스트로 변환해주는 과정에서 오류가 나면 굳이 쓸 이유가 없다. 편하려고 쓰는 솔루션이 되레 스트레스를 주면 안 될 일이다. 음성 인식을 활용한 챗봇이나 상담 시스템이 깊게 뿌리내리지 못한 것도 “제대로 알아듣지 못한다”는 편견에서 기인한다.

셀바스AI의 윤재선 음성인식 사업대표는 <바이라인네트워크>와 인터뷰에서 “가장 소통하기 간단하고 편한 인터페이스가 바로 음성”이라며 “높은 인식률이 우리 솔루션이 사랑받는 비결”이라고 말했다.

셀바스AI는 1999년 설립 이후 20년간 꾸준히 음성인식과 음성합성 기술을 개발해왔다. 회사가 최근 힘을 주는 음성인식 관련 제품은 ‘셀비 메디보이스(Selvy Medivoice)’와 ‘셀비 노트(Selvy Note)’다. 모두 높은 인식률을 구현한 AI 기술을 바탕으로 화자의 말을 정확히 텍스트로 바꿔줌으로써 업무 속도를 높이는 데 도움을 준다.

2016년부터 시장에 선보인 메디보이스는 의료 용어를 딥러닝시킨 AI 솔루션이다. 의사가 환자 상태를 분석한 결과를 말로 전하면, 바로 텍스트로 변환해 빠르게 차트에 입력한다. 본래는 의사들의 말을 텍스트로 변환해주는 다른 입력자가 필요했지만, 이를 자동화해 환자들도 더 빨리 의료 기록을 확인할 수 있다.

하지만 사람의 몸을 다루는 일에 AI를 쓰다니. 위험한 일 아닐까. 특히 의료 현장 용어는 영어와 한국어를 섞어 쓰는 탓에 잘못 인식할 가능성이 크다. 예를 들어 13(Thirteen·썰틴)과 30(Thirty·썰티) 같이 헷갈리는 발음은 한국어로 쓰는 경우도 많아 높은 인식률이 생명이다.

윤재선 대표는 “의사분들의 발음도 제각각이고 가끔 사투리가 섞일 수도 있다”면서 “10만 단어 이상의 조합을 연구해 98% 이상의 인식률을 구현했다”고 설명했다.

그러면서 “사용자가 직접 웹으로 특정단어를 입력하며 학습을 시킬 수도 있어 지속적인 인식 성능 강화도 가능하다”면서 “현장의 언어를 반영할 수 있는 게 우리의 강점”이라고 말했다.

셀바스AI는 기본적으로 일반 사용자보다는 기업대기업(B2B) 사업이 토대인 기업이다. 어떤 기업이나 기관이 채택했냐를 보면 솔루션의 우수성을 알 수 있다. 현재 신촌 세브란스병원을 비롯해 차병원, 충북대병원, 한양대병원 등 국립병원을 비롯한 상급종합병원 다수가 메디 보이스를 채택한 것도 높은 성능 덕택이다. 또 최근에는 온프레미스뿐 아니라 클라우드 모델을 통해 중소형 병원들도 메디보이스를 채택하는 추세다.

윤재선 대표는 실제 업무 현장에 필요한 음성인식 기술을 제대로 된 솔루션으로 구현하는 게 셀바스AI의 목표라고 강조했다. (사진=셀바스AI)

셀바스AI의 높은 음성인식 기술력을 활용한 솔루션은 또 있다. 명확한 상황 파악과 조서 작성이 생명인 경찰도 이들의 솔루션을 쓴다. 실시간 대화를 텍스트로 변환해주는 셀비 노트가 그것. 여성·청소년 관련 수사에 쓰이는 셀비 노트는 겁먹은 피해자의 마음을 어루만지는 데도 도움을 준다는 게 윤 대표의 말이다.

통상 범죄 피해를 당한 이들의 경우 경찰 조사 과정에서도 두려움에 떨 수밖에 없다. 이 과정에서 경찰이 모니터만 바라보며 조서를 작성하면 더 깊은 대화를 꺼내기가 어렵다. 이에 조사관과 조사 당사자가 눈을 마주보고 대화할 수 있도록 목소리를 인식해 바로 텍스트로 떨궈주는 솔루션이 셀비 노트다.

기존의 음성인식 솔루션과 다른 건 해당 도메인에 대한 학습을 거쳤다는 점이다. 형사 사건 용어나 범죄 환경을 묘사하는 단어 등을 따로 학습해 활용도를 높였다. 특히 여러 조사관이 배석하거나 복수의 조사 당사자가 있는 경우 각자의 말이 섞일 수 있다. 이에 화자 분리 성능을 높인 것도 셀비 노트의 특징이다.

윤 대표는 “법무부의 차세대 형사사법정보시스템에도 셀비 노트를 공급한다”며 “형사사법 절차의 전자화에 도움을 줄 수 있다”고 말했다.

윤 대표는 재차 음성이 가진 편의성을 강조했다. 키보드나 마우스 같은 입력기에 앞서 우리 입에서 나오는 ‘말’이 가장 빠른 소통 수단이라는 것이다. 그는 “기존 음성인식 기반 상담 시스템이나 챗봇이 성공하지 못한 것도 낮은 인식률에 따른 불편함에서 기인한다”며 “셀바스AI는 계속해서 음성인식 기술을 고도화해 더 많은 비즈니스로 연결할 계획”이라고 전했다.

윤 대표는 엔드투엔드(E2E) 모델을 고도화의 열쇠로 제시했다. 하나의 모듈로 음향 모델, 언어 모델, 발음 사전 등 음성인식 전체 과정을 처리하는 기술이다. 음성 인식과 언어 모델을 합친 기존 딥뉴럴네트워크(DNN) 방식에 비해 더 가벼운 엔진을 쓰면서도, 단일 모듈이라 학습이 편해 인식율을 높일 수 있었다는 게 윤 대표의 설명이다.

한편 셀바스 AI는 챗GPT와 연결한 솔루션으로 교육 시장까지 공략한다. 사용자가 말한 영어를 텍스트화하고, 이를 챗GPT에 입력해 받은 결과를 다시 음성으로 들려주는 솔루션이다. 여기에 자사의 외국어 발음 평가 기술을 더해 사용자 발성의 세기, 억양 등 말한 영어 발음을 체크할 수도 있다.

윤 대표는 음성인식 기술을 녹인 AI가 더 발전하려면 결국 사람들이 필요로 하는 점을 명확히 짚어내야 한다고 강조했다.

“기술도 물론 중요하지만 결국 사용자가 활용하기 편해야 합니다. 시장에서 제품이 더 널리 쓰일 수 있도록 기술과 필요성을 유기적으로 연결한 솔루션을 계속 선보이겠습니다.”

글. 바이라인네트워크
<이진호 기자>jhlee26@byline.network

관련 글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다