GPT-4o, 영화 Her가 현실화된다 (영상 포함)
AI가 사람의 감정이나 말투(뉘앙스)를 읽고 다양한 음성 스타일을 만들어 대답한다. 영어만 쓰는 이와 이탈리아어만 쓸 수 있는 이가 GPT를 사이에 두고 언어의 장벽 없이 이야기 한다. 인공지능이 과외 선생님처럼 수학 문제 풀이를 설명한다. 이 모든 작업에 대한 GPT의 반응 속도가 ‘실시간’이라, 사람이 지연 없이 서비스를 받는다. 정말로, 아이언맨의 AI 비서 ‘자비스’나 사람이 인공지능과 사랑에 빠지게 되는 ‘Her’와 같은 영화가 현실화되고 있는 순간이다.
오픈AI가 13일(현지시각) 공개한 ‘GPT-4o(포오)’로 사람들이 다시 한 번 놀랐다. 미라 무라티 오픈AI 최고기술책임자(CTO, = 사진)가 유튜브 영상을 통해 공개한 GPT-4o의 라이브 데모 때문이다. 기존의 GPT가 주로 텍스트를 통한 대화로 정보를 줬다면, GPT-4o는 음성과 이미지까지 모든 정보를 받아들여 실시간 소통한다. 그 과정에서 사람의 감정과 맥락을 읽는다. 업데이트된 GPT-4o는 무료로 배포된다. 미라 무라티 CTO는 “GPT-4o는 GPT-4 수준의 지능을 제공하지만 훨씬 빠르다”면서 “GPT-4o는 (인간과 로봇의) 상호 작용이 훨씬 자연스럽고 쉬워지는 협업의 미래로 패러다임을 전환하고 있다고 생각한다”고 강조했다.
어떤 게 가능해졌을까? 영상에서 나오듯, 핵심은 ‘사람과 대화하고 상호작용하는 로봇’이다. 시연을 위해 출연자가 숨을 헐떡이면서 GPT-4o에게 “내가 좀 긴장상태다. 어떻게 진정할 수 있을까?”라고 말을 걸자 GPT-4o는 “숨을 깊게 들이마시라”고 조언한다. 이런 응답이 나오는 데 드는 시간이, 사람의 평균 응답 시간과 유사한 320밀리초다.
미라 무라티 CTO의 발표를 종합해보면 GPT-4o는 인간과 컴퓨터가 더 자연스럽게 상호작용하기 위해서 텍스트와 오디오, 이미지의 모든 조합을 입력으로 받아들이고, 또 이를 모두 출력하는 방식으로 응답한다. 예컨대 코딩하고 있는 화면 사진을 보여주면서 “이 소프트웨어 코드에 무슨 일이 일어나고 있나요?” 묻는 질문이나, 인터넷의 사진을 따와서 “이 사람이 입고 있는 셔츠는 어떤 브랜드인가요”라는 물음에 GPT-4o이 빠르게 대답할 수 있다는 것이다. 새 GPT에 붙은 ‘o’는 영어로 ‘모든 것의, 모든 방식의, 모든 곳에’를 뜻하는 ‘omni’다.
GPT-4 터보와 비교하자면, 비영어권 언어의 텍스트에 대한 성능은 크게 향상됐다. 오픈AI 측에 따르면 50여개 언어를 서비스를 제공할 수 있다. GPT-4 터보와 비교해 성능은 훨씬 빠른데 가격은 절반으로 줄였다. 더 빠른 응답속도와 비용 효율을 위해서 GPT-4o는 텍스트, 시각, 오디오에 걸쳐 하나의 새로운 모델을 엔드투엔드로 훈련시켜 모든 입력과 출력을 동일한 신경망으로 처리할 수 있게 한 것이 특징이다.
위 영상은 영어만 쓰는 사람과 이탈리어만 쓰는 사람이 GPT-4o로 어떻게 실시간 대화가 가능한지 라이브로 시연하는 모습이다. 대화의 맥락을 파악하는 것은 물론, 유머감각까지 읽힌다. 대화에 참여하는 분위기가 마치 영화 ‘Her’의 인공지능 비서였던 스칼렛 요한슨의 것처럼 느껴진다.
오픈AI 창업자이자 대표인 샘 알트만은 이날 자신의 블로그를 통해 “새로운 음성(과 비디오) 모드는 내가 사용해 온 컴퓨터 인터페이스 중 최고”라며 “영화에나 나올 법한 인공지능이 현실에 존재한다는 사실이 아직도 놀랍다. 인간 수준의 반응 속도와 표현력을 갖추게 된 것은 큰 변화”라고 평가했다.
글. 바이라인네트워크
<남혜현 기자> smilla@byline.network