GPT-o1 이후에는 ‘고급 음성 모드’, 오픈 AI 음성 모드 출시

2주 전 고급 추론 기능을 향상한 GPT-o1을 내놓은 오픈 AI가 새로운 음성 모드를 출시한다. 현재 음성 모드는 텍스트 기반 채팅을 읽어주는 것인데, 고급 음성 모드(Advanced Voice Mode, AVM)는 음성 모드를 더욱더 자연스럽게 개선한 것이다.

이번 출시와 함께 AVM의 디자인도 새롭게 바뀌었다. 기존의 애니메이션 검은 점 대신 파란색 애니메이션 구체로 표시되며, AVM이 활성화되면 챗 GPT 앱의 음성 아이콘 옆에 팝업 알림이 나타난다.

오픈 AI는 고급 음성 모드 출시 소식을 알리며, 유료 사용자(플러스, 팀즈)들에게 기능을 순차 적용한다고 밝혔다. 유료 사용자인 기자의 폰으로 고급 음성 모드를 적용해 보았으나 기자의 계정에는 아직 고급 음성 모드가 적용되지 않았다.

고급 음성 모드는 한국어, 영어, 일본어 등 50개 이상의 언어로 업데이트되며, “늦어서 미안해요”와 같은 자연스러운 발화를 할 수 잇다.

Advanced Voice is rolling out to all Plus and Team users in the ChatGPT app over the course of the week.

While you’ve been patiently waiting, we’ve added Custom Instructions, Memory, five new voices, and improved accents.

It can also say “Sorry I’m late” in over 50 languages. pic.twitter.com/APOqqhXtDg

— OpenAI (@OpenAI) September 24, 2024

고급 음성 모드를 출시하며 사용자는 아버, 메이플, 솔, 스프루스, 베일의 다섯가지 목소리를 사용할 수 있게 되었으며, 기존의 브리즈, 주니퍼, 코브, 엠버와 함께 총 9가지의 목소리로 사용할 수 있다. 기존에 스칼렛 요한슨의 목소리와 비슷하다는 지적을 받은 음성 Sky는 완전히 빠지게 됐다. 영화 “Her”에서 AI 시스템의 목소리를 연기한 요한슨은 Sky의 목소리가 자신의 목소리와 너무 유사하다고 주장했고, 이에 OpenAI는 Sky 음성을 즉시 삭제했다. OpenAI는 요한슨의 목소리를 의도적으로 모방한 것은 아니라고 해명했다.

한편, 이번 출시에서 챗 GPT의 비디오 및 화면 공유 기능은 빠졌다. 멀티모달이 가능해지며 들어간 이 기능을 통해 GPT-4o가 시각 및 청각 정보를 동시에 처리할 수 있다. 데모에서는 종이에 수학 문제를 실간으로 질문하거나 컴퓨터 화면에 코드를 작성하는 장면을 보여준 바 있다. 현재 오픈 AI는 이 기능의 출시 일정에 대해서 밝히지 않고 있다.

오픈 AI는 AVM의 제한된 알파 테스트 이후 여러 개선이 있었다고 밝혔다. 챗 GPT의 음성 기능은 이제 다양한 악센트를 더 잘 이해하며, 대화 속도와 부드러움도 개선되었다고 한다. 결함이 종종 발견됐으나 현재는 많은 부분이 개선되었다고 설명했다.

또한 오픈 AI는 챗 GPT의 일부 사용자 정의 기능을 AVM으로 확장하고 있다. 사용자 정의 지침과 메모리 기능을 통해 사용자는 챗 GPT의 응답 방식을 개인화하고, 대화를 기억해 나중에 참조할 수 있게 한다.

AVM은 미국 일부 사용자에게 우선 출시됐으며, AI 규제가 심한 유럽연합(EU), 영국, 스위스, 아이슬란드, 노르웨이, 리히텐슈타인 등 일부 지역에서는 아직 제공되지 않는다고 전했다.

글. 바이라인네트워크
<이종철 기자> jude@byline.network