만약 요즘 구글 키보드인 지보드를 사용하고 있다면, 여러분은 아마 자신도 모른 채 구글의 새로운 AI 기술을 이용하고 있을 가능성이 높다. 구글이 연합학습(Federated Learning)이라는 새로운 머신러닝 기술을 지보드에서 테스트해왔기 때문이다.


딥러닝이 근래에 갑자기 발전한 것은 데이터의 폭증과 클라우드 컴퓨팅, GPU와 같은 컴퓨팅 기술의 발전 덕분이다. 과거에도 딥러닝 기술은 존재했지만 이를 실행시킬 수 있는 기반 환경이 최근에서야 마련된 것이다.

클라우드 컴퓨팅은 대용량 데이터를 학습할 때 유용하다. 학습에 필요한 컴퓨팅 파워를 유연하게 제공할 수 있기 때문이다.

그러나 클라우드도 단점이 있다. 대부분의 데이터는 스마트폰이나 컴퓨터와 같은 단말기에서 생성된다. 딥러닝을 위해 이 데이터는 클라우드로 전송된다. 이 과정에서 자칫 개인정보 침해나 유출의 가능성을 완전히 차단하는 것이 불가능하다. 계란을 한 바구니에 담지 말라는 격언이 있듯 수많은 개인정보를 하나의 클라우드에 담는 것은 리스크를 키우는 일이기도 하다.

구글은 연합학습이 이와 같은 리스크를 근본적으로 없앨 수 있는 대안이라고 설명한다. 연합학습은 클라우드가 아닌 단말기에서 AI 학습을 시도하는 기술이다. 각 단말기에서 개개인 사용자의 데이터를 학습하고, 학습된 모델을 중앙의 클라우드로 전송한다. 각 단말기의 모델을 받은 중앙의 클라우드는 각 모델을 종합해 공통의 모델을 만든다.

연합학습은 이처럼 개개인의 데이터를 클라우드에 보내지 않는다. 사용자의 데이터는 기기 안에서 학습될 때만 사용된다. 클라우드로 보내지는 것은 개개인의 데이터가 아니라 학습된 결과다. 이 때문에 구글 측은 “사용자의 데이터는 기기를 벗어나지 않는다”고 설명했다.

‘블레이즈 아게아 이 아카스’ 구글 디스팅귀시드 사이언티스는 이를 의사들의 학회와 비교했다. 의사들은 각자 경험한 임상경험을 학회에서 공유한다. 그러나 의사들이 공유하는 것은 개개 환자의 데이터가 아니라, 의사들이 얻은 경험과 지식이다. 각 의사의 임상 경험을 종합해 새로운 치료법이 만들어진다.

아카스 사이언티스트는 “구글 지보드에서 이용자들이 입력한 내용을 구글은 알 수 없다”면서 “구글의 클라우드가 전송받는 것은 각각의 데이터가 아니라 로컬에서 학습된 결과”라고 설명했다.

이처럼 클라우드가 아니라 단말기 차원으로 AI에 접근하는 방식은 최근 각광을 받는 분야 중 하나다. 이를 ‘온 디바이스 AI(On Device AI)’라고 부른다. 삼성전자를 비롯해 각 반도체 회사들은 디바이스에서 AI를 구동할 수 있는 ‘NPU’ 라는 칩셋 개발에 한창이다.

그러나 아직 NPU는 단말기에서 학습하고 모델을 만드는 수준으로 발전하지 못했다. 구글이 만든 단말기용 AI칩셋 ‘엣지TPU’ 역시 학습이 아니라 만들어진 모델을 가지고 추론하는 용도에 사용된다.

아카스 사이언티스트는 “연합학습은 어떤 하드웨어에도 도입될 수 있다”면서 “연합학습은 NPU나 TPU 없이 암 프로세서 기반으로도 돌릴 수 있다”고 말했다.

글. 바이라인네트워크
<심재석 기자>shimsky@byline.network