알파고는 되고 딥블루는 안 되는 이유
“체스는 복잡한 게임이다. 수많은 경우의 수 조합이 나올 수 있다. IBM이 만든 (슈퍼컴퓨터) ‘딥블루’는 엄청난 하드웨어를 쓰고, 모든 규칙을 계산해 (인간이) 직접 코딩한 패턴을 부여해 인간 챔피언을 이겼다.
그런데, 바둑은 훨씬 더 복잡하다. 가능한 경우의 수 조합만 10의 170승이다. 컴퓨팅 파워가 충분해도 포든 포지션을 다 익히고 배우기 어렵다. 그래서 구글이 만든 ‘알파고’는 기보를 통해 학습하는 방법을 택했다. 사람이 어떤 직감을 갖고 게임에 임하는지를 같이 봤다. (컴퓨터가) 이걸 관찰함으로써 실제 바둑두는 방법을 학습했다. 알파고 팀은 이런 접근을 통해서 이세돌을 이겼고, 중국 커제도 이겼다.”
제프 딘 구글 시니어 펠로우가 28일 일본에서 열린 ‘구글 아태지역 간담회’를 통해 딥블루와 알파고의 근본적 차이를 이같이 설명했다. 한 마디로 얘기하자면, IBM 딥블루는 20년전 인공지능 연구의 산물이다. 알파고는 이보다 똑똑하다. 암기식 교육과 자율학습의 차이라고 해야할까? 기계가 패턴을 관찰, 스스로 공부하는 머신러닝 방식은 인공지능 연구에 급격한 진보를 가져왔다. 딥블루 식 방법이라면, 이세돌을 이길 수 없었다.
제프 딘에 따르면 지금까지 인공지능 개발은 규칙 기반 접근법에 따랐다. 컴퓨터에 지능을 부여하기 위해 인간이 직접 코딩하는 것이다. 그러나 최근 몇십년간, 더딘 진보를 이루며 인간이 깨달은 것은 ‘세계 모든 지식을 모두 규칙으로 정의해 코딩해서 컴퓨터에 가르쳐 줄 수 없다’는 진리다. 모든 정보를 체계화, 규칙화하는 것은 인간이 하기 어려운 일이라는 설명이다.
그래서 머신러닝이 인공지능의 중요한 분으로 대두됐다. 제프 딘에 따르면 “머신러닝이라는 것은 기계가 세상을 관찰하면서 배우도록 하는 것”이다. 사람이 세상을 보면서 패턴을 인식하는 것과 유사하다고 생각하면 된다. 한 마디로 ‘지능형 시스템을 만드는 새로운 방법’이 바로 머신러닝이다. 제프 딘에 따르면 현재 구글은 10억 명이 쓰는 7개 제품에 머신러닝을 적용하고 있다.
머신러닝 중에서도 가장 인기 있는 것이 신경망 학습이다. 신경망은 기계학습이 가능한 소프트웨어를 말한다. 인간의 뇌가 기능하는 구조에서 영감을 받아 만들어졌다. 인간의 신경망이 이미지를 처리하는 과정을 쫓아 컴퓨터가 이미지를 레이어별로 패턴 인식하고 이 정보를 다른 뉴런에게 전달하며 지식을 확장한다.
구글이 신경망 학습을 시작한 것은 2012년이다. 기존 연구에서는 신경망을 1천만개 정도 연결해 사용했는데, 제프 딘 팀은 10억개 이상의 신경망을 연결해 이를 트레이닝 시켰다. 통상 인공지능 연구에서 가장 많은 사례로 언급되는 것이 컴퓨터가 고양이와 개의 사진을 분류해 내는 것이다.
기존 연구에서는 인간이 ‘이 사진은 고양이야’라는 걸 컴퓨터에 지도했다면, 제프 딘 팀은 컴퓨터에 그냥 유튜브 영상을 보여줬다. 그것도 랜덤 플레이로. 신경망 학습으로 패턴을 익힌 인공지능은, 그 누가 고양이를 가르쳐 주지 않았어도 유튜브 영상에서 고양이 이미지를 골라내기 시작했다.
이 연구결과를 기반으로 딥러닝 모델을 제품 전반에 적용할 수 있도록 개발한 툴킷이 텐서플로다. 구글은 텐서플로를 오픈소스로 일반에 공개했다. 머신러닝 연구 아이디어를 교류하고, 이 기술이 다양한 사회 문제 해결에 쓰이도록 하겠다는 것이다. 현재 텐서플로는 깃허브에서 가장 많이 활용되는 툴킷이기도 하다.
구글은 이날 간담회에서 그간 1만8000명의 자사 직원이 수강한 머신러닝 교육을 내년에 무료 온라인 과정으로 공개하겠다고 밝혔다. 머신러닝 기술은 지금 산업계에서 매우 중요하지만, 이를 제대로 활용할 수 있는 인재는 드물다. 더 많은 이가 머신러닝 기술에 관심을 가져야 구글 같은 기업이 빠르게 인재를 확보할 수 있다. 제프 딘은 “대학의 전공자들이 이 과정을 수강하면서 많은 도움을 받았다고 이야기한다”며 “더 많은 사람들이 이 기술을 이해하고 연구할 수 있게 됐다”고 강조했다.
그렇다면, 머신러닝이 가져온 생활의 진보는 어떤 것이 있을까. 다음은 릴리 펭 구글 프로덕트 매니저가 소개한 머신러닝 접목 사례다. 지금 현재 시점에서 인공지능은 공상과학에 나오는 그것처럼 드라마틱하거나 전지전능하진 않다. 대신, 생활 전반에 조금씩 스며들고 있다. 특히, 그간 물리적으로나 비용적으로 도움을 받기 어려웠던 사각지대에서 효용성은 더욱 크다.
# 환경 보존
해우는 바다속에 사는 동물인데 멸종위기에 처해 있다. 이런 동물의 서식지를 보호하기 위해서 해양 생물학자들이 그간 해우가 바다 속 어디에 있는지를 조사해왔다. 어려운 일이었다. 수십년간 과학자들은 조그마한 비행기를 타고 바다 위에서 해우를 찾는 작업을 해왔다. 2~3녀넌부터는 드론이 이를 대신했다. 항공사진을 통해 더 넓은 면적을 관측할 수 있게 됐다. 그러나 역시 어려움은 남았다. 드론이 찍어온 항공사진의 용량은 어마어마하다. 망망대해를 찍은 수많은 사진에서 그림자처럼 숨은 해우를 찾기란 어려운 일이다. 그 돌파구를 찾기 위해 호주 해양생물학자가 컴퓨팅 과학자와 손잡고 텐서플로로 해우를 찾는 모델을 만들었다. 초기 탐지 모델은 80%의 가능성으로 해우를 찾아냈다. 일반인들의 눈으론 해우가 어딨는지 확인하기도 어렵다. 더 좋은 툴이 만들어진다면 환경 학자들이 더 쉽게 해우 같은 멸종위기의 종을 찾을 수 있게 될 것이다.
# 당뇨병성 망막증
당뇨병성 망막증은 실명을 유발하는 가장 큰 요인 중 하나다. 세계 4억1500만명의 당뇨병 환자가 위험에 노출돼 있다. 그러나 1년에 한번씩 검사를 할 수 있다면 예방이 가능하다. 검사는 안과 의사가 카메라로 눈의 뒷면 사진을 찍는 방식이다. 의사는 검사 결과를 바탕으로 출혈이나 흔적을 찾아 진단 한다. 어떻게 예방하는지는 알지만, 의료진을 만나기 어려운 경우가 있다. 인도의 경우 12만7000명의 안과 의사가 더 있어야 한다. 실제 환자의 45%가 진단을 받기 전 실명에 이른다. 검사 기회를 얻지 못해서다. 구글은 인도 의료진의 요청을 받고 신경망 학습을 통해 이를 해결할 방법을 찾았다. 미국 검사지원기관과 협력해 13만개 이미지를 분석했으며 54명의 안과 의사의 지원을 받았다. 이를 통해 8만8000건의 진단 결과를 냈다. 머신러닝이 고양이나 개 사진을 분류해낸 것과 같은 기술이 쓰였다. 그 결과, 의사가 진단을 낸 것과 큰 차이 없는 적중률을 보였다. 구글에 따르면 이 알고리즘이 평균적으로 중간 수준 정도의 의사보다 조금 더 나은 성과를 보였다.
# 유방암 검진
유방암 조직 검사 후 양성 반응이 나오면 종양 샘플을 현미경을 통해 의사가 검사한다. 이 진단 과정 자체가 복잡하다. 환자 당 최소 열 개의 샘플을 만들어야 한다. 이 검사 결과 이미지 용량이 10기가 픽셀이다. 일반 사진으로 따지면 1만장 정도의 분량이다. 시간도 많이 들고 과정 자체가 어렵다. 실제로 이 작업이 너무나 어려워서 유방암 진단 중 12건 중 한건이 오진이라는 결과가 있다. 릴리 펭에 따르면 구글 팀은 단순 작업부터 시작했다. 림프절로 전이된 유방암을 진단할 수 있도록 기술 지원했다. 암세포로 보이는 부분에 의사가 집중할 수 있도록 빨간색으로 하이라이트를 줬다. 암의 위치를 얼마나 정확하게 판단하느냐는 매우 중요하다. 통상 병리학자가 찾아내는 비율의 정확도를 점수로 환산하면 0.79가 나오는데, 구글 알고리즘은 0.89점을 받았다.
글. 바이라인네트워크
<남혜현 기자> smilla@byline.network