“구글은 생성형 AI의 모든 걸 만드는 회사, 개발부터 응용까지”

구글은 AI 반도체, 데이터센터, 클라우드 인프라, 파운데이션모델 등 생성형 AI의 기반을 스스로 만든다. 그 기반을 바탕삼아 생성형 AI 소프트웨어와 서비스 제품까지 개발해 제공한다. 생성형 AI의 밑바닥부터 최상층의 서비스까지 모든 것을 만드는 회사는 구글뿐이다.

지난 5월 20일 마운틴뷰에서 개최된 연례 개발자 컨퍼런스 ‘구글I/O 2025’의 주요 메시지는 상상을 곧바로 현실로 만들 수 있다는 것이었다. AI 모델을 활용하든, 생성형 AI 기반 애플리케이션 및 서비스를 활용하든 개발자, 연구자, 크리에이터, 일반인 모두 구글의 기술과 함께라면 상상과 이론을 현실로 당장 구현하고 구체화할 수 있다는 얘기다.

이 메시지는 2일 열린 ‘구글포코리아2025’에서도 동일하다. 이날 마니쉬 굽타 구글 딥마인드 시니어디렉터(표지 사진)는 구글코리아에서 개최한 기자간담회에서 “AI는 더 이상 공상과학이나 연구 단계에 있지 않고 현실에 사용되고 산업에 많은 영향을 미치고 있다”며 “강력한 파운데이션 모델이 이미 존재하고, 이를 활용하는 솔루션이 있어 인류의 삶을 개선하고 있다”고 말했다.

그는 “구글은 모델을 출시하는 것에 만족하는 게 아니라 미래지향적으로 생각해 다음의 새로운 돌파구를 고민한다”며 “달을 탐사하는 마음으로 시간이나 자원 이용을 20%, 30% 개선하는 걸 추구하지 않고 10배 향상시킬 혁신을 구가하고 있다”고 강조했다.

마니쉬 굽타 시니어디렉터는 이날 간담회에서 지난 5월 발표된 구글의 파운데이션 모델과 분야별 응용 모델을 소개하고, 동시에 각 모델을 실제로 활용할 수 있는 애플리케이션과 서비스를 강조했다.

파운데이션 모델인 제미나이의 뛰어난 역량, 각종 벤치마크 기록 등을 열거하고, 제미나이에 기반한 단백질연구 모델 ‘알파폴드’, 이미지 생성 모델 ‘이마젠4’, 비디오 생성 모델 ‘비오3’ 등을 발표했다.

제미나이 모델은 동명의 서비스인 ‘구글 제미나이’ 채팅 인터페이스 앱에서 이용할 수 있다. 제미나이 앱은 웹 버전과 모바일 앱 버전으로 모두 제공되고 있으며, 모바일 앱의 경우 사용자의 카메라와 마이크를 활용해 현실 상황을 인식해 실시간으로 상호작용할 수 있는 ‘프로젝트 아스트라’를 탑재했다. 이를 통해 스마트폰의 카메라에 비춰진 장면이나 마이크로 입력된 소리를 제미나이가 인식해 그에 맞는 답을 제공한다. 제미나이 앱은 구글 지도, 구글 캘린더, 구글 태스크 등과도 통합됐으며, 딥러시치 기능에서 개인 PDF, 이미지 등도 업로드할 수 있다.

이마젠과 비오 같은 멀티미디어 콘텐츠 생성 모델은 ‘플로우’란 저작도구를 통해 크리에이터가 쉽게 활용할 수 있다. 영화감독이라면 플로우를 활용해 머릿속의 시나리오 구상을 실제 동영상과 오디오로 구현해볼 수 있다. 텍스트로 프롬프트를 입력하면. 플로우가 캐스팅, 장소, 오브젝트, 스타일 등 이야기 구성요소를 한 곳에서 관리하고, 이를 바탕으로 한편의 콘텐츠를 생성한다.

구글은 리리아2란 음악 생성 모델도 제공하는데, 이는 뮤직 AI 샌드박스란 도구를 이용하면 쉽게 활용가능하다.

마니쉬 굽타 시니어디렉터는 “구글은 전세계의 다양한 언어와 문화를 가진 사람들 모두가 우리의 기술을 사용할 수 있길 바란다”며 “영어를 사용하든, 한국어를 사용하든 모델의 최종 결과물이 동일한 품질을 내도록 노력하고 있다”고 강조했다.

사이먼 토쿠미네 구글랩스 디렉터는 생성형 AI 기반의 실험적 애플리케이션을 만드는 부서 구글랩스의 활동을 소개했다. 구글랩스는 생성형 AI 모델의 성과를 기반으로 실제로 사용자가 활용할 수 있는 제품을 탐색하고 상용화를 고민한다.

사이먼 토쿠미네 디렉터는 “팀마다 각자의 가설을 세우고 응용 제품을 만들어 그 가설을 증명한다”며 “여러 제품을 만들었지만 출시되지 않고 폐기된 제품이 대다수고, 폐기 후 또 다른 프로젝트에 착수하는 프로세스를 갖고 있다”고 말했다.

그는 “지난 1년 간 여러 제품을 만들면서 트랜스포메이션과 콜래보레이션이란 2개의 큰 테마를 확인했다”며 “멀티모달 기술을 통해 하나의 형태를 다른 형태로 바꾸는 게 트랜스포메이션이고, AI와 함께 더 많은 걸 하는 게 콜래보레이션”이라고 설명했다.

사이먼 토쿠미네 디렉터는 구글랩스에서 노트북LM 개발을 담당했다. 노트북LM은 사용자 업로드 데이터 안에서만 분석하고, 콘텐츠를 텍스트에서 이미지로, 영상으로, 오디오로 변환한다. 그가 말한 트랜스포메이션 계열의 한 예시다.

노트북LM을 이용하면 300건의 방대한 문서를 업로드해 채팅으로 중요한 내용을 확인할 수 있고, 오디오오버뷰 기능을 이용하면 방대한 문서를 바탕으로 오디오 팟캐스트까지 만들 수 있다. 팟캐스트는 두 사람의 대화 형식이고, 한 명이 질문을 하면 다른 한명이 답변하는 형태다. 마인드맵 기능을 이용하면 업로드한 문서에서 각 아이디어의 상관관계를 수직적 관계도로 만들어 볼 수 있다. 향후 비디오 생성 기능도 출시될 예정이다.

영상 제작도구인 플로우도 트랜스포메이션 계열의 서비스다. 반면 개발자를 위한 비동기식 코딩 에이전트 ‘줄스’는 콜래보레이션 계열의 예시다. 개발자는 다른 개발자와 소통하듯 줄스 에이전트에게 개발 업무를 맡길 수 있다. 줄스는 버그를 찾고, 독립적으로 이슈를 수정할 수도 있다.

웹브라우저 등 사용자 컴퓨터를 구동하는 AI 에이전트인 ‘프로젝트 마리너(Mariner)’도 콜래보레이션 계열의 예다. 마리너를 이용하면 원하는 요리 레시피를 다운로드 받고, 해당 요리에 필요한데 부족한 재료를 에이전트가 알아서 온라인 쇼핑몰에 주문해 준비해준다. 여행 계획도 대신 해준다.

사이먼 토쿠미네 디렉터는 “이런 툴이 원하는 방향으로 가는 유용한 도구의 역할을 하려면 사용자가 필수적”이라며 “뉴욕 예술가 몇몇과 전시회를 진행했을 때 예술가들이 처음엔 AI 활용에 회의적이었지만, 나중에 그들 중 한명은 우회전만 하던 도로에서 AI 때문에 처음으로 왼쪽으로 가볼 수 있었다고 했다”고 말했다.

그는 “AI가 새로운 방향을 사람에게 제시하면, 사람은 새로운 것을 해보고 이렇게도 할 수 있구나 하면서 가치를 부여하는 것”이라며 “구글은 누구에게나 AI와 새로운 시도에 접근하게 하는 민주화를 제공하고, 새로운 방향을 제시하고 있다”고 강조했다.

글. 바이라인네트워크
<김우용 기자>yong2@byline.network