휴멜로, TTS 음질 ‘48kHz 스튜디오’급으로 업샘플링하는 기술 공개

보이스 AI 스타트업 휴멜로는 인공지능 음성합성(TTS) 음질을 기존 통화 음질 수준에서 고음질 스트리밍 음원과 같은 스튜디오급 고해상도 음질로 끌어올리는 기술을 적용한다고 14일 밝혔다.

이 기술은 휴멜로가 독자 개발한 초고속 업샘플링 기술을 통해 TTS 서비스의 음질(샘플링레이트)을 기존 24kHz에서 48kHz로 업그레이드한다.

휴멜로는 전화 통화나 일반적인 AI 챗봇에서 사용하는 16kHz 음질은 사람의 목소리를 알아들을 순 있지만잡음이 들리고 기계적인 느낌을 준다고 설명했다반면 48kHz는 현재 음악 스트리밍영화방송게임 등 대부분의 미디어 콘텐츠 제작에 사용되는 표준 규격으로선명하고 풍부한 질감의 소리를 제공한다.

회사 측은 업계에서 48kHz의 고품질 원음 데이터를 대량으로 확보하기 어렵고고음질 처리에 필요한 막대한 연산량과 인프라 유지 비용이 서비스 단가 상승으로 이어지기 때문에 고음질 TTS 구현을 꺼려했다고 설명했다.

휴멜로가 자체 개발한 ‘보이스 초해상화 업샘플링’ 기술은  8kHz 매우 낮은 수준의 음질도 48kHz의 스튜디오급 음질로 끌어올린다. 처리 속도도 업계 최고 수준인 RTFx 100을 기록했다. TFx(Real-Time Factor-inverse)는 처리 속도 지표로 1초에 동안 몇 초 분량의 오디오를 처리할 수 있는지를 나타내는 성능 측정값으로, RTFx 100은 1초 동안 100초 분량의 음성데이터를 처리할 수 있다.

권용석 휴멜로 대표는 “TTS는 기술 수준이 낮았을 때는 수요가 적었고기술이 발전한 후에는 비용 문제로 고음질화 적용이 더뎠다, “휴멜로가 독자 개발한 초고속·고품질 보이스 AI 기술은 그동안 비용 문제로 고품질 TTS 도입을 망설였던 모든 창작자와 기업에게 합리적인 비용으로 새로운 차원의 경험과 가능성을 열어줄 것이라고 말했다 

. 바이라인네트워크
<성아인 기자> aing8@byline.network

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다


The reCAPTCHA verification period has expired. Please reload the page.