오픈AI 향한 구글의 대반격 ‘제미나이2.0’

지난 5일부터 12일 동안 오픈AI가 추론모델과 동영상 생성 서비스 ‘소라’를 출시하는 사이에 구글이 대반격을 개시했다. 구글은 전례없이 공격적인 행보를 보였는데, 오픈AI 발표 직전 혹은 직후에 정면으로 대응하는 경쟁작을 선보였다.

작년 덜 준비됐던 구글은 오픈AI의 영리한 일격에 흔들리는 모습이었다. 지난해의 오픈AI는 구글의 새로운 생성형 AI 발표에 즈음해 그보다 더 앞선 기능과 모델을 선보이면서 김을 뺐다. 그러나 올해는 정반대다. 오픈AI의 발표에 맞서서 구글이 한차원 앞선 모델과 기능을 대거 선보이며 이목을 빼앗아갔다.

구글은 기존의 AI 연구조직을 딥마인드 위주로 재편하고, 반격을 준비했다. 올해 초 제미나이 1.0과 1.5로 서서히 반응을 이끌어내더니 연말에 이르러 압도적 성능으로 경쟁사와 관련 업계를 질겁하게 만들었다.

제미나이 2.0

11일 구글은 제미나이 2.0을 발표했다. 제미나이는 1년 전인 2023년 12월 공개됐는데, 1년 만에 멀티모달 AI 에이전트를 전면에 내세우며 2.0 버전으로 업그레이드됐다.

순다 피차이 구글 최고경영자(CEO)는 “새로운 에이전트 시대를 위해 구축된 차세대 모델이며 현재 가장 유능한 모델”이라며 “네이티브 이미지 및 오디오 출력, 네이티브 도구 사용 같은 멀티모달리티의 새로운 발전으로, 보편적인 어시스턴트에 대한 비전에 더 가까이 다가갈 수 있는 새로운 AI 에이전트를 구축할 수 있게 될 것”이라고 밝혔다.

그는 “검색만큼 AI에 의해 변형된 제품은 없다”며 “구글의 AI 개요는 다음 단계로 제미나이 2.0의 고급 추론 기능을 도입해 고급 수학 방정식, 멀티모달 쿼리 및 코딩을 포함한 더 복잡한 주제와 다단계 질문을 처리한다”고 강조했다.

구글의 제미나이 2.0 기반 검색은 내년 초 출시될 예정이다.

피차이는 “제미나이 2.0 구축에 활용된 하드웨어인 6세대 TPU 트릴리엄을 소개하며 전세계에 출시한다”고도 밝혔다.

그는 “제미나이 1.0이 정보를 정리하고 이해하는 것에 관한 것이라면, 2.0은 정보를 훨씬 더 유용하게 만드는 것에 관한 것”이라고 강조했다.

제미나이 2.0 플래시(Flash)

제미나이 2.0으로 발표된 첫 모델은 ‘제미나이 2.0 플래시’다.

제미나이 2.0 플래시는 멀티모달로 텍스트뿐 아니라 이미지, 오디오도 이해하고 생성할 수 있다. 타 앱이나 서비스를 연동해 구글 검색이나 코드 실행 등의 작업을 할 수 있다.

구글 딥마인드에 의하면, 제미나이 2.0 플래시는 1.5 플래시보다 2배 빠른 속도를 제공한다. 구글 AI 스튜디오, 버텍스 AI, 제미나이 API 등으로 실험적 모델을 이용할 수 있다. 모든 개발자는 멀티모달 입력 및 텍스트 출력을 이용할 수 있고, 조기접근 파트너는 텍스트-음성 변환 및 기본 이미지 생성을 이용할 수 있다.

구글은 1월 중 더 많은 크기의 모델과 함께 정식 출시할 예정이다. 구글은 개발자에게 실시간 오디오 및 비디오 스트리밍 기능 앱을 구축하는데 도움을 주는 ‘멀티모달 라이브 API’를 제공한다고 밝혔다. 이 API를 이용하면 카메라나 화면의 오디오, 비디오 입력을 이용해 실시간 멀티모달 앱을 만들 수 있다고 한다.

제미나이 2.0 플래시는 기본 사용자 인터페이스 액션 기능과 멀티모달 추론, 장기 맥락 이해, 복잡한 명령 따르기 및 계획, 구성적 함수 호출, 기본 도구 사용, 향상된 지연 시간 등을 통해 새로운 에이전트 경험을 제공한다.

프로젝트 아스트라(Project Astra)

지난 봄 구글I/O에서 공개된 ‘아스트라’는 제미나이 2.0을 활용해 최신 버전으로 거듭났다 여러 언어와 혼합된 대화에서 각 언어와 단어를 전보다 더 잘 이해한다. 제미나이 2.0의 호출 기능으로 구글 검색, 구글 렌즈, 구글 지도 등을 함께 사용할 수 있게 됐다.

아스트라 프로젝트 시연 화면 캡처. 안드로이드폰 카메라로 제미나이에게 세탁기를 비춰 사용법을 물어보는 모습.

아스트라는 최대 10분 길이의 세션을 기억하고, 과거 대화 내용을 통해 더 맥락과 사용자 의도에 맞는 답변을 제공한다.

지연시간을 대폭 향상시켜 아스트라 기반 에이전트는 인간과 대화하는 수준의 속도로 언어를 이해하고 답한다.

프로젝트 마리너(Project Mariner)

‘마리너 프로젝트’는 웹 브라우저 화면의 정보를 이해하고 추론해 크롬 확장을 통해 작업을 완료하는 AI 기반 크롬 확장 프로그램이다.

웹 작업의 종단 간 에이전트 성능을 테스트하는 WebVoyager 벤치마크에서 마리너 프로젝트는 단일 에이전트 설정으로 작동해 83.5%라는 최첨단 결과를 달성했다고 한다.

구글은 작업 완료의 정확성이나 속도에서 부족하지만 계속 개선될 것이라고 강조했다. 안전 강화를 위해서도 인간을 루프에 포함시키고 새로운 유형의 위험과 완화책을 강구하고 있다고 밝혔다.

줄스(Jules)

구글은 개발자를 지원하는 AI 에이전트 ‘줄스’를 제공한다. 깃허브 워크플로우에 직접 통합할 수 있는 AI 기반 코드 에이전트로, 개발자의 지시와 감독 하에 문제를 해결하고 개발을 계획하며, 실행할 수 있다.

자바스크립트, 파이썬 등의 코딩 작업을 줄스에게 요청할 수 있다. 깃허브와 비동기식으로 통합돼 줄스에게 버그 수정이나 기타 소모적 작업을 처리하는 동안 개발자는 실제 개발 작업에 더 집중할 수 있다.

구글 베오2(Veo2)와 이마젠3

구글은 자연어 프롬프트로 4k 동영상을 만들 수 있는 비디오 생성기의 새 버전 ‘베오2’를 공개했다.

베오2는 오픈AI의 소라 출시 시점에 맞춰 공개됐는데, 각종 평가에서 가장 앞선다는 평가를 받았다.

실제 세계의 물리와 인간의 움직임, 표현의 뉘앙스 등에 대한 이해를 더 높여 전체적인 세밀함과 사실성을 개선했다고 한다.

장르를 요청하고, 렌즈를 지정하며, 영화적 효과를 제안하면 베오2는 4K 해상도의 동영상을 만들어낸다. 로우 앵글 추적 샷이나 클로즈업 등 카메라 동작에 따른 변화를 만들 수 있다. 프롬프트에 렌즈 종류를 제안하면 해당 렌즈 사양에 맞게 샷을 만들어내기도 한다. 배경 흐림처리나 특정 피사체 초점 처리도 가능하다.

구글에 의하면, 베오2는 여섯번째 손가락이나 엉뚱한 물체 등 사실과 다른 출력의 빈도를 낮춰 사실성을 높였다고 강조했다. 또 베오2로 생성된 영상은 육안으로 보이지 않는 AI 생성물이란 식별표시 ‘신스ID(Synth ID)’ 워터마크를 포함한다.

구글은 베오2 기능을 구글랩스의 비디오 생성도구인 ‘비디오FX’에 도입하고, 접근할 수 있는 사용자 규모를 늘렸다고 밝혔다. 구글은 내년 유튜브 쇼츠와 기타 제품으로 베오2를 확장할 계획이라고 덧붙였다.

베오2는 전에 공개된 오픈AI의 소라가 다소 실망스럽다는 반응을 얻는 사이 사용자의 극찬을 받았다. 소라보다 더 정확하고 더 세밀한 영상을 만들어낸다는 것이다.

이미지 생성 모델의 최신 버전인 ‘이마젠3’도 나왔다. 이마젠3는 전보다 더 밝고 잘 구성된 이미지를 생성한다고 한다. 인상주의, 추상적 애니메이션 등 다양한 예술 스타일을 정확하게 그려낸다. 이마젠3도 각종 평가에서 타 모델보다 앞섰다는 평가를 받았다고 한다.

이마젠3는 구글랩스의 ‘이미지FX’로 이용할 수 있다.

위스크(whisk)

구글은 특정 주제, 장면, 스타일로 된 이미지를 입력하거나 만들고, 리믹스나 다양한 디자인을 만들 수 있는 아이디어 저작도구 ‘위스크’를 선보였다.

위스크는 이마젠3 최신 모델을 제미나이의 시각적 이해 및 설명 기능과 결합했다. 제미나이가 이미지의 캡션을 작성하고, 이 설명을 이마젠3에 입력해 결과물을 만들어낸다. 위스크는 미국에 출시됐다.

노트북LM 업데이트

구글은 올해 초 선보인 ‘노트북LM’에 대해서도 새로운 인터페이스, 오디오 개요를 위한 AI 호스트, 프리미엄 버전인 ‘노트북LM 플러스’ 등의 발표를 내놨다.

노트북LM은 사용자 업로드 정보를 이해하고 요청에 따라 요약해주는 서비스다. 제미나이2.0 플래시와 함께 업그레이드됐다.

노트북LM의 인터페이스는 세 영역으로 구성된다. 소스 패널은 프로젝트의 모든 정보를 관리하고, 채팅 패널은 대화형 인터페이스에서 소스를 논의하는 곳이다. 스튜디오 패널은 소스에서 학습 가이드, 브리핑 문서, 오디오 개요 등을 만들 수 있다.

각 패널 인터페이스는 사용자 요구사항에 따라 유연하게 나타나거나 사라진다. 문서의 메모를 작성하려 하면 소스 뷰어와 메모 편집기가 확장되고, 오디오 개요를 듣는 동안 채팅으로 질문할 수 있다.

노트북LM 플러스는 유료 구독 버전으로 무료 버전보다 5배 많은 오디오 개요, 노트북 및 소스, 노트북 응답 스타일과 길이 사용자정의 기능, 팀 노트북, 보안 등의 기능을 가졌다. 구글워크스페이스로 기업, 학교, 단체 등에서 이용할 수 있다.

‘2024 마지막 일격’ 제미나이 2.0 플래시 싱킹

구글은 제미나이2.0 플래시의 추론 모델인 ‘제미나이2.0 플래시 싱킹 익스페리멘탈(Gemini 2.0 Flash Thinking Experimental)’을 공개했다.

제미나이2.0 플래시 싱킹은 ‘오픈AI 12일’의 주요 내용이었던 ‘오픈AI o1, o3’ 모델과 같은 시점에 발표됐다.

제미나이2.0 플래시 싱킹은 오픈AI o1와 o3 모델처럼 런타임 추론 기술을 사용해 입력된 문제를 더 깊이 사고해 답변한다. 이 모델은 사용자의 요청을 받고 여러 단계로 쪼갠 사고 과정을 스스로 생성하도록 학습됐다.

이런 추론 모델은 사고 사슬을 통해 추론의 정확도를 높이고, 더 전문적인 영역에서 뛰어난 답변을 제공할 수 있다. 오픈AI는 o1 모델을 정식 출시했는데, 제미나이 2.0 플래시 싱킹은 o1 모델을 압도한 성능을 보였다. 다만 사용자 요청에 답변을 내놓기까지 더 많은 시간을 소요하고, 더 많은 컴퓨팅 파워를 사용해야 한다는 단점이 있다.

구글은 프로그래밍, 수학, 물리학 등의 분야의 가장 복잡한 문제를 추론할 수 있으며, 멀티모달 이해, 추론, 코딩 등에 적합하다고 설명했다.

현재 이 기능은 실험용으로 사용에 제한을 둔다. 토큰입력 한도는 32000개이고, 텍스트와 이미지 입력만 가능하다. 토큰 출력은 8000개까지며, 텍스트만 출력한다. 검색이나 코드 실행 같은 외부 도구를 연동할 수 없다.

글. 바이라인네트워크
<김우용 기자>yong2@byline.network