강화학습이 대세(?)…NHN 바둑 AI  ‘한돌’도 증명

NHN엔터테인먼트(이하 NHN)의 인공지능(AI) 바둑기술 한돌이 국내 정상급 프로 바둑기사를 모두 제압했다. 23일 판교 사옥에서 열린 ‘프로기사 톱5 vs 한돌 빅매치’에서 한돌이 190수 만에 불계승을 거뒀다. 한돌은 앞서 신민준 9단, 이동훈 9단, 김지석 9단, 박정환 9단과의 대결에서도 이겼다. 이로써 국내 최강 프로기사 5명이 모두 한돌 앞에 무릎을 꿇었다.

한돌은 2016년 알파고가 이세돌 9단을 꺾은 이후 NHN이 연구개발한 자체 AI 바둑 프로그램이다. 0.1 버전에서 시작해 현재 2.1 버전까지 발전해 있다.

한돌의 최신 버전은 알파고 최신 버전과 많이 닮아있다. 이날 신진서 9단을 꺾은 한돌 2.1 은 ‘강화학습’을 통해 탄생한 버전이다. 강화학습이란 인간이 가공한 데이터를 학습하는 것이 아니라 스스로 경기를 통해 데이터를 만들고 이를 학습하는 방법론이다.

인간은 기본적인 규칙(이기고 지는 기준) 정도만 제공하면 컴퓨터는 복제된 자신과 대결을 하고 그 속에서 점차 이기는 법을 알아가게 된다. AI의 가장 난제 중 하나인 학습데이터를 만드는 일을 하지 않아도 된다는 점에서 획기적인 방법론이라고 할 수 있다.

이세돌 9단과 대결한 ‘알파고 리’ 버전은 지도학습과 강화학습을 함께 사용했었다. 지도학습은 인간이 데이터를 정제해 AI를 학습시키는 방법론이다. ‘알파고 리’는 기존 프로기사의 기보(데이터)를 학습한 이후 스스로 대결을 펼치는 강화학습으로 실력을 더했다.

그러나 최근에 등장한 버전인 ‘알파고 제로’와 ‘알파 제로’는 인간의 기보없이 강화학습만으로 탄생한 버전이다. ‘인간의 데이터’가 전혀 들어가지 않았다는 점에서 인간계(?)에는 없는새로운 바둑을 만들 수 있을 것이다. 처음에는 컴퓨터들이 아무렇게나 바둑돌을 놓겠지만 점차 승리와 패배를 반복해가면서 승리의 비법을 알아가게 된다.

한돌 역시 알파고 제로나 알파 제로처럼 인간의 기보를 이용하지 않고 강화학습만으로 인간계 최고의 바둑기사들을 물리쳤다. NHN 측의 추측에 따르면, 한돌은 3년전 알파고 ‘알파고 리’ 버전은 넘어섰고, 최신 버전인 알파고 제로나 알파 제로에는 조금 부족한 수준일 것이라고 한다.

그러나 강화학습도 문제는 있다. 강화학습은 성공과 실패를 반복하면서 컴퓨터 스스로 성공비법을 배우는 방법론이다. 이는 가상의 게임 속에서는 문제없다. 얼마든지 실패해도 괜찮기 때문이다.

반면 현실에서는 다르다. 현실에서는 처음부터 실패하면 안되는 경우가 많다. 예를 들어 강화학습으로 자율주행차를 연구한다고 가정했을 때, 무수히 많은 교통사고를 전제해야 하는데 현실에서는 불가능한 일이다. 물론 가상 시뮬레이션이 있지만 가상의 환경에서만 달려본 자동차를 현실에 들고 나오기는 두려운 일일 것이다. 이 때문에 인간 현실의 문제를 풀 때 강화학습은 보조적 수단으로 이용될 수밖에 없다.

하지만 NHN 입장에서는 다르다. NHN의 주 사업은 아직 온라인게임이다. 게임 개발 및 운영에 얼마든지 강화학습을 활용할 수 있고, 그 경험을 게임 외의 온라인 서비스 분야에도 적용할 수 있다.

구글 딥마이드가 자사의 기술을 증명하려는 용도로 바둑을 이용했다면, NHN은 한게임 바둑이라는 서비스에 직접 응용하기 위해 AI 기술을 개발했다. 현재 유저들은 바둑을 두다가 한돌의 훈수를 받을 수도 있고, 한돌과 대결을 펼칠 수도 있다. 물론 바둑뿐 아니라 다양한 게임 및 서비스에 활용될 예정이다.

박근한 기술연구센터장은 “이제까지 발표된 AI는  특별한 사람들만 사용할 수 있었다”면서 “NHN은 개발한 AI 기술을 실제 유저들이 사용할 수 있고 혜택을 누릴 수 있도록 하는 것이 목표”라고 말했다.

글. 바이라인네트워크
<심재석 기자>shimsky@byline.network

관련 글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다