“취미로 만든 자동번역기, 카카오 서비스가 됐어요”

카카오가 신경망 번역 시장에 본격적으로 뛰어든다. 카카오는 지난 해 9월부터 시범적으로 번역 서비스를 제공하고 있는데, 올해 정식 서비스로 선보일 예정이다. 우선 2월 안에 카카오톡 플러스친구 방식으로 챗봇 서비스를 제공하고, 연내에는 구글번역이나 네이버 파파고와 같은 전용 앱도 선보일 예정이다.

흥미로운 점은 카카오의 번역 기술이 개발자 개인의 취미에서 시작됐다는 점이다.

배재경 카카오 AI부문 컨텍스트파트장

배재경 카카오 AI부문 컨텍스트파트장 3년 전부터 혼자 자동번역기를 개발했다. 순전히 개인적인 취미활동이었다. 회사에서는 주어진 업무를 하고 야간에 집이나 주말을 이용해서 개발했다.

이때만해도 카카오는 번역 시장에 뛰어들 구체적인 계획을 갖고 있지 않았다. 그러나 인공지능 기반 서비스에 대한 수요가 늘어나고, 자연언어처리 기술의 활용도가 높아지면서 핵심기술인 기계번역을 더이상 외면할 수 없었다.

검색을 이끌던 김병학 부사장이 AI총괄로 부임했고, 배재경 파트장은 취미로 개발하던 것을 회사에 프로젝트로 제안했다. 번역 기술을 필요로 했던 회사는 이를 받아들였고, 조직까지 꾸려졌다.

카카오는 자체적으로 번역품질을 평가한 결과 카카오 번역이 경쟁사 대비 가장 우수하다는 결론을 내렸다. 영한번역의 경우 구글이나 네이버보다 우수한 품질을 자랑하며, 한영번역은 가장 좋은 품질의 서비스와 유사한 수준이라는 것이다.

카카오는 번역품질을 높일 수 있었던 비결로 많은 데이터 확보했기 때문이라고 설명했다. 좀더 구체적으로 말하자면 문서에서 원문과 번역문을 문장 단위로 정렬하는 기술 덕분에 많은 데이터를 확보했다는 것이다.

기계번역을 위해서는 문장단위로 원문과 번역문 데이터가 있어야 학습을 할 수 있다. 그런데 일반적으로 원문과 번역문은 문장단위가 아니라 문서 단위로 공개돼 있다. 번역문은 보통 원문의 순서 그대로 1대 1로 번역되지 않는다. 어떤 문장은 번역에서 생략되기도 하고, 원문의 두 문장이 번역문에서 한 문장으로 합쳐지거나, 한 문장이 두 문장으로 쪼개지기도 한다. 이 때문에 원문과 번역문을 문장단위로 데이터셋을 만드는 기술이 필요하다.

보통 ‘BLEU( Bilingual Evaluation Understudy) 얼라인(align)’이라는 기술이 이용된다. BLEU는 번역이 필요한 원문을 사람이 번역한 결과와 번역기의결과가 얼마나 유사한지를 수치화해 텍스트의 품질을 평가하는 알고리즘이다. 이를 활용해 원문의 단어와 번역문에 등장하는 단어의 위치를 파악하고 원문과 번역문의 쌍을 만드는 것이다.

배재경 파트장에 따르면, 카카오는 특히 ‘BLEU 얼라인’을 한단계 발전시켜 A(Advanced)BLEU 얼라인’이라는 것을 만들었다. ABLEU 얼라인은 기존 BLEU 얼라인이 다른 뜻으로 집계하는 유사어(이쁘다, 예쁘다)들도 학습할 수 있게 해주는 툴로 기존 ABLEU가 학습 데이터로 활용하지 못했던 글과 문장을 활용할 수 있다.

카카오가 선보일 번역기는 기능적인 특징도 갖고 있다. 예사말·높임말, 구어체·문어체를 구분하는 기능이 들어간다. 현재 자동번역기들은 반말로 번역하다가 갑자기 존대말이 나오고, 구어체-문어체가 혼용되는 경우가 많다. 학습 데이터에 따라 달라지기 때문이다. 카카오는 이같은 문제를 해결하기 위해 이용자가 예사말·높임말, 구어체·문어체 중 어떤 스타일을 번역결과로 얻을지 선택할 수 있도록 했다.

배 파트장은 “번역 서비스를 개인적으로만 연구하다가 회사에 제안해 전담 조직까지 꾸리게 됐다”이라며 “AI는 오픈소스나 논문으로 공개된 기술이 많아서 금방 따라잡을 수 있었고, 학습 데이터를 잘 모은 덕분에 높은 품질의 번역기를 개발할 수 있었다”고 말했다.

한편 카카오는 번역 엔진 적용 서비스를 서비스 전반으로 확장할 계획이다. 카카오톡뿐 아니라  인공지능 스피커인 카카오미니에서도 활용할 수 있도록 하고, 카카오TV에서도 자동자막 등의 기능으로 활용할 예정이다. 또 번역 API를 공개해 번역 서비스가 필요한 개인이나 기업들이 이용할 수 있도록 제공할 계획이다.

글. 바이라인네트워크
<심재석 기자>shimsky@byline.network

관련 글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다