AI는 텍스트의 전유물?…“말 잘 듣는” 인공지능이 있다

인공지능(AI)이 뚝딱 글을 만들어 주는 세상. 입력한 텍스트를 분석해 글로 풀어주는 생성AI는 일하는 환경은 물론 삶의 방식까지 바꾸고 있다. 소리도 마찬가지다. 말이라는 건 결국 입에서 나오는 것이고 대화는 소리로 서로를 잇는 작업이다. 음성인식 기술을 바탕으로 한 다양한 AI 솔루션이 또 다른 삶의 변화를 이끈다.

현재 시장에는 다양한 음성 관련 AI 솔루션이 출시돼 있다. 음성파일을 요약본으로 만들어주거나, 고객상담 내용 정리, 사건 조서나 의료 기록 작성 등 다양한 쓰임새로 널리 활용되는 모습이다.

대표적인 게 네이버클라우드의 ‘클로바노트’다. 강연 내용 정리나 녹취록 제작에 주로 쓰이는 클로바노트는 최근 업데이트를 통해 AI 요약 기능을 개선했다.

네이버클라우드 관계자는 “기존에는 ‘어떤 주제에 대해 이야기하고 있음’처럼 상황을 요약하는 경우가 많았다면, 이번에 개선한 엔진은 어떤 대화를 나눴는지 핵심을 구체적으로 파악해준다”고 말했다.

기업의 상담 인력 부담을 줄이고, 사용자의 대기 시간을 줄여주는 데도 AI가 활용된다. 삼성SDS는 지능형 컨택센터(AICC) 솔루션을 서비스형소프트웨어(SaaS) 형태로 제공한다. 삼성SDS 관계자는 “시스템 구축에 대한 부담 없이 상담 인프라를 탄력적으로 운영할 수 있다”고 말했다.

일종의 보이스봇 방식으로, 음성인식(STT)과 음성합성(TTS) 기술을 적용했다. 상담을 원하는 사람이 전화를 걸었을 때 AI가 음성을 실시간으로 분석하고 사람과 같은 목소리로 답변해준다. AI 상담원의 성별이나 어조를 커스터마이징할 수도 있다.

또 AI 상담사만으로 답변이 어려운 질문일 때는 실제 상담사로 연결되는데, 이때도 질문 내용과 관련한 정보를 AI가 분석해 상담사의 PC에 띄워준다. 이를 통해 인간 상담사도 더욱 빠른 답변이 가능해진다. 또한 AI가 상담 요청자의 음성을 분석해 자료로 정리해줌으로써 재상담 요청이 왔을 때도 빠르게 응대할 수 있다.

(사진=삼성SDS)

위로가 필요한 이들의 목소리를 듣는데도 AI가 힘을 발휘한다. 셀바스AI는 형사 사건 피해자나 학교 폭력을 당한 청소년들을 위한 솔루션을 제공하고 있다.

셀바스AI는 최근 자사의 AI 음성인식과 기록 기술을 적용한 ‘셀비 노트(Selvy Note)’를 법무부의 차세대 형사사법정보시스템에 적용한다고 밝혔다. 셀비 노트는 셀바스AI가 자체 개발한 기술을 통해 실시간 대화를 텍스트로 변환해 주는 솔루션이다. 기업대기업(B2B) 제품인 셀비 노트는 앞서 경찰도 채택해 여성·청소년 수사에 활용하고 있다.

셀바스AI 관계자는 “특히 여성, 청소년 관련 수사의 경우 수사관과 당사자의 라포(유대감) 형성이 중요하다”면서 “내용을 단순히 받아치기보다는 서로 눈을 마주 보고 대화를 나누면서 보다 면밀한 사건 대응이 가능하도록 돕는다”고 말했다.

실시간 텍스트 변환 기능으로 조사관이 일일이 타이핑할 필요 없이 마이크만 두고 직접 대화를 나누면 이를 즉각 문서화 해준다. 조서 작성에만 집중하느라 피해자와 조사관이 유대감을 형성하지 못해 모든 이야기를 털어 놓지 못하는 사례를 줄일 수 있다.

또한 사건 용어나 법률 용어 등 사용환경에 맞는 언어를 별도로 학습시켜 인식률도 높다는 게 회사의 설명이다. 회사 관계자는 “이 밖에도 성폭력과 아동학대 피해자를 지원하는 해바라기 센터에도 적용돼 더 친밀한 상담을 돕고 있다”고 밝혔다.

정확도가 생명인 의료 분야에도 음성 관련 AI 기술이 활용된다. 병원의 의료 기록 작성법은 의사가 직접 글로 쓰거나 말로 내용을 전달하면 전사자로 불리는 속기사들이 타이핑하는 형태다. 이 경우 인력 채용을 위한 비용이 발생하거나 커뮤니케이션에 시간이 걸리는 문제가 생길 수 있다.

셀바스AI의 셀비 메디보이스(Medivoice)는 의료 용어를 딥러닝시킨 AI 솔루션이다. 의사들이 말한 내용을 바로 텍스트로 변환해 영상 판독결과를 빠르게 입력하고, 환자들은 보다 빨리 의료 기록을 확인할 수 있다. 의료 용어 특성상 영어와 한국어가 섞여 들어오더라도 98% 이상의 인식 정확도를 보인다는 게 회사의 설명이다.

이처럼 다양한 음성 관련 AI 솔루션이 출시된 가운데 이 같은 기술 발전은 ‘멀티모달’ 모델 구현을 더 가속화할 거라는 게 전문가의 시각이다.

이경일 솔트룩스 대표는 “지금까지는 텍스트와 이미지 분야에 맞춰 AI 기술이 쓰인 측면이 있었다”며 “음성 또한 AI 기술의 한 축으로 제대로 자리 잡으면 귀로 듣고, 눈으로 보고, 입으로 말하는 모든 행위를 집약한 멀티모달AI 구현에 더욱 가까워질 것”이라고 전망했다.

글. 바이라인네트워크
<이진호 기자>jhlee26@byline.network

[무료 웨비나] 디지털 전환 시대의 필수! AI기반 아이덴티티 보안의 모든 것

  •  2024년 7월 16일 (화) 14:00 ~ 15:30

관련 글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다