픽셀2나 LG, 삼성 등 일부 안드로이드 8.1 기기에서만 사용할 수 있는 구글 렌즈 기술 원리에 대해 알아보자. 구글코리아에서 열린 AI week 미디어 행사에서 발표된 내용들이며 발표는 구글 렌즈 그룹 프로덕트 매니저인 루 왕(Lou Wang)이 행아웃으로 했다.

 

루 왕 매니저(제공=구글)

 

구글 렌즈는 현재 일부 기기에는 카메라 앱에 통합된 상태며 별도의 앱이나 구글 포토, 구글 어시스턴트에도 포함돼 있다. 기본 기술은 비전 AI와 구글의 지식 그래프(Knowledge Graph)다. 지식 그래프는 시맨틱 검색 정보를 사용해 검색결과를 향상시키는 기술이며 구글의 여러 검색에 적용된 지식 베이스다. 비전 AI의 경우 몇천장의 이미지를 시작으로 이미지의 각 각도에 따라 같은 사물임을 인지해야 하므로 수조 개 단위로 확장된 상태다. 최근 정확도가 개선된 것은 머신 러닝의 결과다.



 

과거의 구글 비전 AI는 머핀과 치와와를 구분하지 못했다

 

구글 렌즈의 네 가지 기술

 

분류, Classification

이미지를 봤을 때 이미지 내 여러 개의 사물을 분류해내는 기술이다. 레이블링을 통해 사물에 정보를 부여한다. 예를 들어 케익을 들고 있는 소년이 있다고 하면 사물 이름으로 태그를 붙인다.

 

발견, Detection

아까 그 사진에서 사진 내 위치를 파악해 정보에 포함한다.

 

분류와 발견의 사례. 이미지에 이름을 붙인 것이 분류, 이미지 위치를 파악한 것이 발견이다.

 

임베딩 Embeddings

각 이미지를 봤을 때 머신 러닝으로 만들어놓은 벡터값과 비교하는 것이다. 예를 들어 레트로 자동차 세 가지를 보여줬다고 치자. 두 차는 같은 차이며 각도만 다르고, 한 차는 비슷한 시대의 자동차지만 전혀 다른 차다. 이때 각 이미지의 유사성을 판단하고, 이미지 내 사물(헤드라이트, 앞 유리, 바퀴, 라디에이터 그릴 등)의 모양을 벡터값으로 판단해 같은 자동차인지 판단한다. 비슷한 느낌의 자동차라고 해도 벡터값이 다르므로 마지막 자동차는 다른 것으로 판단한다.

 

벡터값 비교를 통해 비슷해보이는 세 차중 왼쪽의 두 개가 같은 차임을 인지했다.(제공=구글)

 

모델 훈련의 발전 Advances in model training

구글 렌즈의 엄청난 검색 속도 비결은 통신 속도 등에도 영향을 받지만 궁극적으로는 연산 속도 때문이다. 기존 GPU로 하던 머신 러닝을 커스텀 하드웨어인 TPU(Tensor Processing Unit)로 바꾸며 연산 속도의 개선을 이뤘다. 텐서플로우 전용 하드웨어라고 생각하면 된다. 텐서플로우는 구글이 오픈 소스로 공개한 세계에서 가장 많이 쓰는 머신 러닝 툴이다.

 

구글 TPU(출처=구글)

 

이 기술은 구글 렌즈에 어떻게 적용될까

 

스마트 텍스트 선택 Smart text selection

단어를 인식하고 이해하는 것이다. 어디서든 단어를 볼 수 있는데 렌즈로 비추면 이 텍스트를 빠르게 이해한 후 무엇인지를 알려준다. 앞서 말한 기술들에 언어 이해 모델을 사용한다. 문맥, 상황 등을 파악하는 데 쓰인다.

메뉴를 번역하고 랜드마크, 상점 등을 파악하는 등에도 쓰인다. 이것을 분석할 때는 다양한 구글의 소스를 함께 끌어와서 쓴다. 구글 스트리트뷰 내 이미지, 간판의 텍스트 등을 확보해두었다가 사용자가 구글 렌즈로 찍으면 빠르게 비교하는 것이다. 동물의 얼굴도 비슷한 방법으로 비교한다. 특이한 메뉴를 번역하거나, 기프트 카드나 와이파이 비밀번호 등 키보드로 입력하기 어려운 난수를 복사하는 데 유용하다.

 

빠른 텍스트 선택(출처=구글 블로그)

 

스타일 서치 Style search(혹은 스타일 매치 Style match)

구글 렌즈의 핵심 기능으로 여러번 발표된 기능이다. 자동차와 마찬가지로 사물의 벡터값을 만들어내고 패턴을 파악해 옷, 신발, 구두 등 비슷한 제품을 찾아주는 기능이다. 구글 검색이 가능한 쇼핑몰로 직접 연결된다.

 

(출처=구글 블로그)

 

실시간 작동

이러한 기능들은 스마트폰과 클라우드 TPU를 통해 수십억개에 해당하는 인덱스(단어, 구, 장소, 사물 등)을 빠르게 식별하도록 한다. 번역이나 이미지 인식에 쓰인다.

 

구글 렌즈에 대한 궁금증 Q&A

By. 구글 고글과의 차이점, 구글 글래스에 적용될지의 여부가 궁금하다.

Lou Wang. 구글 고글은 2014년 이후로 업데이트를 멈춘 이미지 인식 앱이다. 여전히 플레이 스토어에서 내려받을 수 있다. 사진을 찍으면 그 안의 사물, 텍스트, 와인 라벨 등을 인식해주는 앱이었다. 그러나 구글 렌즈는 실시간 정보 검색 앱이다. 렌즈를 켜면 실시간으로 사물을 분석해 태그를 붙인다. 폭발적으로 많이 생성된 데이터와의 비교를 위해 TPU를 도입하는 등의 차이가 있다. 메서드와 데이터셋을 모두 새로 구성해 성능에서 차이가 있을 것이다. 구글 글래스와의 연동에 대해서는 말을 아끼겠다.

 

By. 연산 처리를 기기에서 크게 하지 않고 클라우드 TPU에서 하는 걸로 알고 있다. 즉, 사용자가 원하지 않아도 사용자의 이미지 정보가 구글의 서버를 거치는 셈인데, 올려놓고 삭제하면 되는 구글 포토와 다르게 개인정보의 불가피한 유출이 발생할 수 있을 것 같다. 구글은 이 정보를 수집하고 또 다른 머신 러닝 소스로 쓰는지 궁금하다.

 

Lou Wang. 우선 처음부터 프라이버시에 매우 민감하게 설계했다. 따라서 우선 카메라 앱에 구글 렌즈가 포함돼 있다고 해도 카메라 앱 내 구글 렌즈 버튼을 누르면 실행되지 않는다. 또한, 구글 렌즈가 실시간으로 분석한 정보가 와도 사용자가 탭해서 검색하지 않으면 그 정보는 저장되지 않는 단기 정보로 처리된다. 사용자가 검색을 했을 경우에 한해서 검색 쿼리를 적용한다. 여러분이 구글에서 텍스트로 검색하거나 이미지, 음성으로 검색한 수준의 정보만 남는다.

글. 바이라인네트워크

<이종철 기자> jude@byline.network