수화 대신 앱으로 소통하는 날 올까요?

구글이 안드로이드 기기의 접근성을 강화한다. 접근성이란, 사용자가 신체적 특성 등에 상관없이 편하게 쓸 수 있도록 제품이나 서비스를 만드는 것을 말한다. 예컨대 언어 장애가 있어도 스마트폰을 쓰는데 불편함을 느끼지 않게 만든다는 뜻이다. 세계보건기구(WHO)에 따르면, 세계청각 장애 인구는 4억6600만명에 달한다. 남한 인구의 9배나 많은 숫자다.

구글은 지난 달 ‘라이브 트랜스크라이브’라는 앱을 선보였다. 일상생활에서 대화를 자막으로 변환해 보여준다. 라이브 트랜스크라이브는 머신러닝 기반 음성 텍스트 변환 기술을 활용한 것인데, 세계인구의 80% 이상이 쓰는 70개 이상 언어를 지원한다. 한국어도 포함됐다. 일상생활에서 원활한 소통을 위한 것이라, 스마트폰에서 쓰는데 최적화했다. 안드로이드 운영체제 단계에서, ‘롤리팝’ 버전 이상의 스마트폰에서 사용할 수 있다.

14일 구글코리아는 라이브 트랜스크라이브 개발을 이끌어온 구글 AI 리서치 프로덕트 매니저인 사가 사블라와 화상 인터뷰를 진행했다. 사가 사블라는 인도 봄베이 출신으로, 머신러닝과 사용자 경험(UX), 개인 정보보호 정책 분야 연구로 조지아 공과대학에서 석사 학위를 받았다.

[무료 웨비나] 아이덴티티 보안 없는 보안 전략은 더 이상 안전할 수 없습니다

◎ 일시 : 2025년 7월 15일 (화) 14:00 ~ 15:30
◎ 장소 : https://bylineplus.com/archives/webinar/53537

라이브 트랜스크라이브는 자동음성인식(ASR)을 기반으로 한다. ASR은 컴퓨터로 언어를 감지해 청각 장애인이 읽을 수 있도록 글로 변환하는 걸 말한다. 여기까지는 구글이 유튜브의 자동 자막 생성이나 프레젠테이션, 전화 통화 등에 적용한 것과 내용이 같다. 그런데 기존의 ASR은 청각 장애인들이 일상에서 쓰기에는 부족한 감이 있다. 변환 속도도 일상생활에 활용하기에 느리고, 스마트폰에 최적화된 형태가 아니었다.

라이브 트랜스크라이브는 이런 단점을 개선했다. 원활한 대화를 위해 음성이 문자로 바뀔 때 시간차를 200밀리초(ms) 미만으로 줄였다.

인공지능을 활용해 전사 서비스를 기계가 대체한다면, 더 많은 청각 장애인들이 쉽게 소통할 수 있을 것이다. 현재 청각 장애인들은 아직까지 사람이 직접 음성을 텍스트로 변환하는 전사 서비스에 의존하고 있는데, 이는 비용도 비싸고 사적인 대화, 일대일 대화를 나눌 때는 활용하기 어렵다.

반면라이브 트랜스크라이브는는 사람이 개입하지 않기 때문에 사적인 대화를 나누는데 유용하고, 별도의 비용도 들지 않는다.

사가 사블라 구글 매니저는 “기계학습을 통해 청각이 없는 분들이 갖고 있는 소통의 갭을 어떻게 보상할 수 있을까를 고민했다”며 “65세 이상의 인간은 청력이 감퇴될 수밖에 없고 이들은 수화를 모르는데 갑자기 청력을 상실하면 여러 문제가 생길 수밖에 없다. 라이브 트랜스크라이브를 통해 일상에서 소통하게 하자는게 목표”라고 말했다.

라이브 트랜스크라이브 실제 시연 장면. 빠르게 인식해서 화면에 자막으로 보여준다.

구글 AI리서치에 따르면 라이브 트랜스크라이브를 개발하면서 구어와 문어의 차이, 맥락에 대한 이해가 중요하다. 예컨대 “뉴욕에서 뉴저지를 샀다”는 말을 기계는 “뉴욕에서 뉴저지(텍스트)를 샀다”와 “뉴욕에서 뉴저지(지역 땅)를 샀다”라는 두 가지 문장으로 해석이 가능하다. 일상생활 대화가 가능하려면 기계는 이 대화에서 뉴저지가 티셔츠를 뜻한다는 걸 바로 알아채야 한다.

이를 위해 라이브 트랜스크라이브는 두 개의 신경망을 써서 작동한다. 하나는 디바이스, 다른 하나는 클라우드를 위한 것이다. 디바이스에서 돌아가는 신경망은 사람의 말을 듣고 음성을 여러 클라스로 분류한다. 클라우드의 신경망은 이렇게 수집된 음성을 엔진을 통해 분석해낸다. 음성 인식 엔진이 클라우드에 있는 것은 휴대폰 단말기의 성능 저하를 막기 위한 것이다. 이 때문에 지금까지는 인터넷이 되는 곳에서만 라이브 크랜스크라이브를 쓸 수 있다.

사가 사블라 매니저는 라이브 트랜스크라이브의 성능 개선을 위해 앞으로 세 가지 목표를 갖고 노력할 예정이라고 말했다. 우선 ‘사운드’에 대한 부분이다. 앞서 언급한 음성 인식 엔진을 단말기로 옮겨 놓는 것이다. 음성 인식 엔진이 디바이스로 옮겨오면 인터넷 연결 없이도 쓸 수 있다. 두번째는 스마트폰에 달린 카메라를 이용, 시끄러운 환경에서 누가 이야기 하는 사람인지를 포착해 그 사람의 말에만 집중할 수 있도록 하는 것이다. 마지막은, 여러 소리 중에서 사람의 말소리만 증폭해서 음성 인식을 향상시킬 수 있는 기술에 대한 연구다.

라이브 트랜스크라이브는 현재 베타 서비스가 진행 중이다. 수개월내 제품화가 될 예정이나, 지금 현재 베타 버전도 완제품과 다르지 않은 성능이라고 사가 사블라 매니저는 말했다. 사가 매니저는 “150개 국가에서 플레이스토어를 통해 베타 버전을 이용할 수 있다”며 “롤리팝 OS 이상에서 사용할 수 있는데 안드로이드 이용자의 88%, 즉 18억명 인구가 쓸 수 있는 수준”이라고 설명했다.

글. 바이라인네트워크
<남혜현 기자> smilla@byline.network