카카오 “지난일 기억하는 인공지능 만든다”

“3년간 풍부한 슈퍼컴퓨팅 자원을 제공해 인공지능에게 기억력이라는 기능을 만든다는 도전을 합니다.”

아마도 카카오는 개발자의 뮤즈가 되고 싶은가 봅니다. 많은 인공지능 학자나, 혹은 인공지능 기술을 가져다가 새로운 서비스를 만드려는 개발자에게 영감을 불어넣고 싶어 보이는데요.

김일두 카카오브레인 대표는 16일 카카오 그룹이 온라인으로 연 컨퍼런스 ‘이프(if) 2021’에서 향후 미션을 “다음 세대 인공지능 준비”라 말했습니다. 앞으로 3년간, 카카오브레인이 일곱명의 열정적 교수에게 풍부한 슈퍼컴퓨팅 자원을 지원해 기억을 저장하고 맥락을 추론하고 눈앞에 보이는 걸 이해하는 능력을 가진 인공지능을 만들겠단 비전을 공개한 것이죠.

지금까지 가장 뛰어나다 평가받는 인공지능 모델은 오픈AI라는 곳에서 만든 ‘GPT-3’입니다. 오픈 AI는 테슬라 창업자 일론 머스크가 만든 연구소죠. “인공지능 정보를 오픈소스화해 더 안전한 인공지능의 발전을 추구한다”는 걸 대외적 목적으로 설립했는데요. 사람처럼 문맥을 이어서 글을 쓸 수 있는 능력을 가진 인공지능 모델 GPT-3를 내놓아 세계를 놀라게 했죠.

GPT 3는 현존하는 인공지능 모델 중 최고라는 찬사를 받지만, 아직 갈 길은 멉니다. 갖고 있는 데이터가 아주 방대하므로 이를 토대삼아 ‘입력’한 질문에 맞게 응답을 ‘출력’하는 능력은 출중하죠. 그러나 과거 자신이 나눈 대화는 기억하지 못합니다. 입출력한 내용을 저장해 놓거나 과거 대화를 활용해 추론하는 일은 능력 밖이죠. 인류가 이룬 위대한 성과나 찌질한 짓은 모두 과거의 기억을 되짚어보는데서 시작했잖아요? 이 부분은 아직 인공지능 개발자가 넘어야 할 거대한 산과 같습니다.

카카오브레인은 이날 GPT 3의 한국어 버전인 ‘KoGPT’를 일반에 공개했습니다. GPT 3의 소스를 가져다가 한국어에 최적화해 개발했죠. 김일두 대표는 이를 “최대 규모의 한국어 언어모델”이라고 자평했는데요. GPT 3와 마찬가지로 일부 문맥을 주면 나머지 문장을 완성해 나가는 능력을 갖고 있습니다.

카카오브레인 측은 KoGPT를 활용해 인간과 인공지능이 한국말로 원활히 대화해나갈 것을 기대합니다. 사람이 “글 요약해줘” “수능문제 풀어줘” 같은 명령어를 입력하면, KoGPT가 이를 찰떡같이 알아듣고 적절한 답을 해줄 수 있을 것이란 얘기죠. 이미 대중화된 서비스에 바로 결합할 수 있는 기술이라, 더 잘 만들게 된다면 산업 발전에 도움이 클 것입니다.

이는 큰 성과입니다. 김일두 대표의 말처럼, 이정도 대화가 가능한 챗봇을 만들려면 엄청난 양의 말뭉치와 인프라가 필요하죠. 김 대표는 “카카오브레인은 언어모델의 대중화를 해치지 않게 하기 위해서 인프라, 자본, 데이터 그리고 인력 수급의 어려움을 책임지고 이 기술을 공개했다”고 말했는데요. 카카오 내부에서도 KoGPT를 활용한 사례를 준비 중이며, 기존에는 상상도 못했던 도전을 하겠다는 의지도 덧붙였죠.

그러나 KoGPT는, 엄마 뻘인 GPT 3의 한계도 고스란히 가져갑니다. 김일두 대표가 말한 “다음세대 인공지능”은 GPT 3로 풀지 못한 인공지능의 한계를 카카오가 먼저 넘어서겠다는 의지로 보입니다. 김일두 대표는 이와 관련해 “기억력을 위한 새로운 모듈의 제안이 필요한데, 아직 그 부분에 연구가 많이 필요한 상황”이라면서 “기억력을 위한 몇가지 가설을 가지고 접근하고 있고, 실용적으로 개선될만한 방식으로 기술적 도전을 준비하고 있다”고 말했죠.

카카오브레인의 발표 중에서 또 다른 흥미로운 사실도 있었습니다. 양질의 데이터를 어떻게 확보할 것이냐 하는 부분에서인데요. 여러분은 혹시 올 초 뉴스를 뜨겁게 달궜던 챗봇 ‘이루다’를 기억하시나요? 사람처럼 대화하는 챗봇에 인터넷에서 큰 인기를 끌었으나, 곧 개인 정보 활용의 정당성 여부, 윤리적이지 않고 편향된 발언을 거름 장치 없이 학습하고 발화하는 것에 대한 비판에 직면했었죠.

카카오 역시 이에서 자유로울 수 없습니다. 국민 메신저를 갖고 있는 입장에서 더더욱 민감한 영역이죠. “딥러닝과 블록체인의 결합을 검토한다”는 이야기는 아마도 카카오가 어떻게 슬기롭게 인공지능의 윤리 문제를 해결할 수 있을 것인가에서 온 답안지 중 하나일 겁니다.

언어모델이라는 것은 계속해서 데이터를 학습해야 하므로 모델 사이즈가 증가되고 확장되도록 설계되는데요, 언어 모델의 학습 연산이 좋아지는데 참여하거나 혹은 양질의 데이터를 제공하는 이들에게 기여에 따라 언어모델의 지분을 나눈다는 것이죠. 누군가 모델을 사용하고 대가를 내게 되면, 그 돈을 지분에 따라 지급받는 생태계를 그리고 있다는 것이 카카오브레인 측 설명입니다.

이렇게 되면 카카오브레인이 만드는 언어모델 생성 생태계에 경제모델이 들어오게 되는 것이죠. 사람들은 자신의 기술이나 데이터를 자본 삼아 KoGPT 생태계에 참여할 것이고, 이 기술이 잘 되면 이득을 얻게 되니까 아마도 더 거부감없이 데이터를 이곳에 들고 들어오게 되겠죠. 물론 블록체인이 인공지능의 여러 윤리 문제를 모두 해결해줄 수는 없겠습니다만, “경제적 이득”이라는 매커니즘은 지금보다는 나은 상황을 가져올 수 있겠네요.

돈과 인재가 집중 투입되면, 우리는 예상보다 빠른 시간에 개선된 인공지능 친구를 맞이하게 될 수 있을 겁니다. 과거를 돌아보는게 가능해진, 그래서 현재를 파악하고 미래를 상상할 수 있는 능력을 가진 인공지능은 미래에 지성으로 여겨지게 될까요? 궁금한 것이 늘어나네요.

글. 바이라인네트워크
<남혜현 기자> smilla@byline.network