아마존, 최신 대화형 AI ‘노바 소닉’ 발표

사용자의 어조에 맞춰 자연스럽게 대화하고, 감정을 이해하는 등 사람과 비슷하다는 음성 AI 모델 ‘노바 소닉(Nova Sonic)’을 아마존이 8일(현지시각) 공개했다. 사용자의 화났거나 걱정하는 목소리를 이해하는 것이 특징이라고 회사 측은 설명했다.

아마존은 노바 소닉이 미국식과 영국식을 포함한 다양한 영어 억양을 구사할 뿐만 아니라 남성적, 여성적 표현 등 풍부한 음성을 지원하며 자연스러운 음성 대화가 가능하다고 설명했다. 이 모델은 여행, 교육, 의료 등 광범위한 산업 분야에서 쓰일 수 있으며, 고객 지원 전화를 자동화하고, 비서 및 언어 학습 등 여러 분야에서 활용도가 높다고 강조했다.

아마존에 따르면, 기존 음성 AI 모델은 음성을 텍스트로 변환한 뒤 거대언어모델(LLM)을 통해 응답을 이해하고 텍스트를 생성, 그리고 생성한 텍스트를 다시 음성으로 변환하는 복잡한 과정으로 이뤄졌다. 이 모든 과정은 단편화되어 있어 개발이 더 복잡해지고, 자연스러운 대화의 필수 요소인 어조나 말하는 스타일과 같은 중요한 청각적 맥락과 뉘앙스를 보존할 수 없었다고 아마존은 설명했다.

이런 문제를 해결하기 위해 아마존은 음성 이해와 생성을 단일 모델로 통합하는 방법을 취했다고 밝혔다. 이 통합된 모델은 사용자의 어조와 화법에 맞게 대답을 조정할 수 있어 더욱 자연스러운 대화가 가능하다는 설명이다. 아마존은 노바 소닉이 사용자가 대화를 잠깐 멈추거나 망설이는 시간을 이해하고, 적절히 기다릴 줄 알며 사람이 대화할 때의 미묘한 뉘앙스를 이해한다고 주장했다.

노바 소닉으로 구축한 AI 에이전트 음성 대화 예시

예시로 노바 소닉으로 구축한 여행용 AI 에이전트와 고객이 여행에 관해 대화하는 사례를 들었다. 사례에서는 하와이 여행에 관한 대화가 이뤄졌는데, 고객이 즐거워하다가 비용을 걱정하자 이에 맞춰 AI가 어조를 바꾸고 가격 정보를 설명해 고객을 안심시키는 모습을 보여줬다. 아마존은 이렇듯 노바 소닉이 실시간으로 사용자의 감정을 파악하고 필요한 정보를 제공해 자연스러운 대화 흐름을 보일 수 있다고 덧붙였다.

노바 소닉은 아마존 베드록(다양한 개발 모델을 통합 관리하는 서비스)에서 제공되며, 가격에 대비해 성능도 뛰어나다고 아마존 측은 밝혔다. 아마존은 “노바 소닉을 출시하면서 모든 아마존 고객에게 실질적인 가치를 제공하는 최첨단 기반 모델로 혁신을 계속하겠다”며 대화형 AI를 강화하는 음성 기반 기술을 계속 개발하겠다는 의지를 드러냈다.

글. 바이라인네트워크
<최가람 기자> ggchoi@byline.network

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다