AI에게 내 PC의 마우스를 쥐어준다면

구글 딥마인드가 최근 생성형 AI 모델의 컨텍스트 입력 수단으로 마우스 포인터를 도입하는 방안을 연구 결과를 발표해 화제다. 사람이 AI 모델에게 컴퓨터 화면의 정보를 전달할 때 대화창에서 텍스트나 이미지를 올리는 게 일반적인데, 마우스 포인터의 맥락을 직접 이해하게 하면 정보 전달 효율성을 대폭 높일 수 있다는 것이다.

최근 구글 딥마인드는 블로그에서 ‘AI 시대를 위한 마우스 포인터의 재해석’이란 제목의 글을 공개했다.

블로그 저자인 아드리앙 바라네스, 롭 마찬트 등은 “마우스 포인터는 컴퓨터 화면, 모든 웹사이트, 문서, 작업 흐름에서 늘 함께 해 온 존재”라며 “포인터가 가리는 대상을 이해할 뿐 아니라, 사용자에게 왜 중요한지 파악하도록 돕는 새로운 AI 기반 기능을 연구했다”고 의의를 설명했다.

저자들은 “기존 AI 도구는 별도 창에서 작동하기 때문에, 사용자는 작업 환경을 그 안으로 끌어들여야 한다”며 “정반대로, 사용자가 사용하는 모든 도구에서 흐름을 방해하지 않고 직관적으로 작동하는 AI를 만들고자 한다”고 밝혔다.

이어 “예를 들어 건물 이미지를 가리키며 길 안내를 보여줘라고 요청한다고 가정하라”며 “AI 시스템이 이미 맥락을 이해하고 있다면 더 이상의 설명은 필요없다”고 덧붙였다.

대중화된 생성형AI와 인간의 소통 방식은 채팅이다. 사용자는 별도의 AI 채팅 창에서 텍스트나 이미지 업로드로 프롬프트를 AI에게 전한다. 저자들이 말한 작업 환경을 AI 창으로 끌어와야 한다는 말은 사람이 AI에게 전반적인 상황과 맥락을 설명해야 한다는 의미다.

딥마인드 연구진은 제미나이 모델이 마우스 포인터를 맥락 이해에 활용한다는 아이디어를 구체화했다. 마우스 포인터를 웹브라우저의 이미지나 지도 특정 지점에 가져다두는 것만으로도 제미나이가 이미지와 지도를 이해하고, 관련된 주변 맥락까지 이해할 수 있다면, 일일이 텍스트로 설명을 하면서 프롬프트를 전하지 않아도 된다.

딥마인드는 ‘AI 포인터’라 부르는 인터페이스를 고안했다. AI 포인터는 텍스트 위주의 안내 메시지를 더 간단하고 직관적인 상호작용으로 대체한다. 이를 위해 연구진은 4가지 상호작용 원칙을 개발했다.

우선, AI 기능은 모든 앱에서 작동해야 하며, 사용자가 앱 간에 AI 우회를 거치도록 강요해선 안 된다. 둘째로 AI 포인터는 주변의 시각적, 의미적 맥락을 자연스럽게 파악하고, 사용자에게 중요한 부분을 보고 이해하게 함으로써 프롬프트 작성 과정을 간소화한다. 즉, 포인터로 가리기는 것만으로 AI가 사용자에게 필요한 단어, 단락, 이미지 일부, 코드 블록 등을 정확히 파악하는 것이다.

셋째는 자세하지 않고 간략한 지시로 이뤄지는 고맥락 프롬프트를 잘 이해하기 위해 손짓, 음성, 맥락 등을 종합적으로 이해하게 해 복잡한 요청도 자연스러운 약어로 전달하게 한다. 넷째는 픽셀을 장소, 날짜, 사물 등 구조화된 개체로 변환해 사용자와 즉시 상호작용하게 한다. 손으로 대충 쓴 메모를 보고 할일 목록을 만들거나, 여행 비디오 화면 속 장면을 보고 레스토랑 예약 링크를 만드는 식이다.

구글은 이런 원칙 하에 크롬과 구글북 노트북 환경에서 AI 포인터 기능을 제공한다.

크롬의 제미나이의 AI 포인터 기능은 바로 사용가능하다. 크롬의 제미나이를 통해 웹페이지에서 관심있는 부분에 질문할 때 마우스 포인터만 가리키면 된다. 페이지에서 몇가지 제품을 선택해 비교를 요청하거나, 거실에 새 소파를 배치하길 바라는 위치를 가리킬 수 있다.

구글의 새로운 노트북 라인업인 ‘구글북’의 경우 ‘매직 포인터’란 이름으로 기능을 제공할 예정이다.

아드리앙 바라네스 딥마인드 연구원은 “만약 포인터 뒤에서 제미나이 같은 AI 모델이 실제로 우리의 말을 듣고, 화면에 주의를 기울이며, 다른 사람이 그랬을 것처럼 우리가 말하는 모든 것을 해석하려고 한다면 어떨까”라며 “우리는 포인터가 모든 데이터 레이어를 파헤치도록 할 수 있으며, AI가 음성, 텍스트, 이미지 등을 이해하게 할 수 있다”고 설명했다.

그는 “음성과 포인팅, 시각적 이해를 동시에 결합할 때 할 수 있는 일은 정말 마법 같다”며 “내게 유용할 수 있는 콘텐츠를 보여주고, 그 콘텐츠를 다시 가리키고, 주변을 공유하며, 다른 사람과 함께 작업하는 캔버스를 공유하는 새로운 유형의 운영 체제를 상상한다”고 강조했다.

딥마인드가 공개한 AI 포인터의 기능 자체는 훌륭해 보인다. 하지만, AI가 사용자의 정보, 데이터, 활동을 자신의 데이터베이스로 만들어 활용한다는 점에서 우려스럽다. 제미나이가 AI 포인터를 활성화할 때 마이크 접근권한을 요구하고 있어 다소 과도해보이기도 한다.

제미나이의 AI 포인터가 별도로 개인정보 활용에 대한 부분을 고지하거나, 동의를 받지 않는다면, 중대한 프라이버시 침해에 해당한다. 무엇보다 제미나이를 통해 입력된 사용자의 컴퓨터 화면이 구글의 클라우드로 넘어간다는 점에서 보안 우려가 심각하다. 에이전트의 사용자 정보 무단 접근 및 활용에 따른 책임의 근원이 사용자에게 전가된다는 점도 걱정되는 부분이다.

이와 비슷한 논란이 이미 작년에 벌어졌다. 마이크로소프트가 윈도우11의 최신 AI 기능으로 선보였던 ‘리콜’ 기능이다.

리콜 기능은 사용자의 모든 컴퓨터 활동을 스냅샷으로 기록하고 검색하게 해주는 기능이다. 이는 혁신적이란 평가를 받았지만, 대체적인 반응은 사용자의 민감한 개인정보를 한곳에 모으고 저장해 특정 기업에게 제공한다는 정보 탈취 우려였다.

리콜은 윈도우 PC 화면을 수초마다 캡처해 저장하고, AI로 내용을 분석한다. 이렇게 저장된 스냅샷은 이전에 방문한 웹사이트, 이용한 문서, 대화 내용 등을 자연어로 쉽게 검색하는데 쓰인다. 하지만, 비밀번호, 사적 대화, 의료 기록 등이 화면에 표출되면 민감한 정보가 스냅샷에 저장되고, 윈도우 PC 특정 디렉토리에 위치하는 스냅샷 저장소가 쉽게 해킹될 수 있다는 논란이 커졌다. 결국 마이크로소프트는 리콜 기능의 출시를 연기하고 보안 우려를 불식시키기 위해 여러차례 설계를 변경해야 했으며, 제한적으로 제공하고 있다.

글. 바이라인네트워크
<김우용 기자>yong2@byline.network