휴멜로, TTS 음질 ‘48kHz 스튜디오’급으로 업샘플링하는 기술 공개
보이스 AI 스타트업 휴멜로는 인공지능 음성합성(TTS) 음질을 기존 통화 음질 수준에서 고음질 스트리밍 음원과 같은 스튜디오급 고해상도 음질로 끌어올리는 기술을 적용한다고 14일 밝혔다.
이 기술은 휴멜로가 독자 개발한 초고속 업샘플링 기술을 통해 TTS 서비스의 음질(샘플링레이트)을 기존 24kHz에서 48kHz로 업그레이드한다.
휴멜로는 전화 통화나 일반적인 AI 챗봇에서 사용하는 16kHz 음질은 사람의 목소리를 알아들을 순 있지만, 잡음이 들리고 기계적인 느낌을 준다고 설명했다. 반면 48kHz는 현재 음악 스트리밍, 영화, 방송, 게임 등 대부분의 미디어 콘텐츠 제작에 사용되는 표준 규격으로, 선명하고 풍부한 질감의 소리를 제공한다.
회사 측은 업계에서 48kHz의 고품질 원음 데이터를 대량으로 확보하기 어렵고, 고음질 처리에 필요한 막대한 연산량과 인프라 유지 비용이 서비스 단가 상승으로 이어지기 때문에 고음질 TTS 구현을 꺼려했다고 설명했다.
휴멜로가 자체 개발한 ‘보이스 초해상화 업샘플링’ 기술은 8kHz 매우 낮은 수준의 음질도 48kHz의 스튜디오급 음질로 끌어올린다. 처리 속도도 업계 최고 수준인 RTFx 100을 기록했다. TFx(Real-Time Factor-inverse)는 처리 속도 지표로 1초에 동안 몇 초 분량의 오디오를 처리할 수 있는지를 나타내는 성능 측정값으로, RTFx 100은 1초 동안 100초 분량의 음성데이터를 처리할 수 있다.
권용석 휴멜로 대표는 “TTS는 기술 수준이 낮았을 때는 수요가 적었고, 기술이 발전한 후에는 비용 문제로 고음질화 적용이 더뎠다“며, “휴멜로가 독자 개발한 초고속·고품질 보이스 AI 기술은 그동안 비용 문제로 고품질 TTS 도입을 망설였던 모든 창작자와 기업에게 합리적인 비용으로 새로운 차원의 경험과 가능성을 열어줄 것“이라고 말했다.
글. 바이라인네트워크
<성아인 기자> aing8@byline.network