구글 영/한 번역 좋아진 이유, 일본어 덕분?

최근 구글의 번역 서비스를 이용해보면 깜짝깜짝 놀라곤 합니다. 번역 품질이 과거에 비해 월등히 좋아졌기 때문입니다. 과거에는 영한/한영 번역의 경우 자동번역된 결과만 보고 문장을 이해하는 것이 사실상 불가능했는데, 이제는 꽤 자연스러운 문장이 도출됩니다.

2016-12-02-12-56-23
헌법 1조, 2조를 번역한 결과

이같은 변혁은 인공지능(AI) 덕분에 가능했습니다. 구글은 지난 11월 15일 한국어, 영어, 중국어, 프랑스어, 독일어, 스페인어, 일본어, 터키어 등 8개 언어에 대해 인공신경망 번역(NMT) 기술을 적용해 발표했습니다.

인공신경망 기술은 기계학습 기법 중 하나로 인간의 신경망을 본뜬 인공 신경망을 통해 기계가 스스로 학습하도록 하는 것입니다.

기존 구글 번역은 통계적 기법을 이용했습니다. 문장이 들어오면 단어나 구로 나눠서 과거에 사람이 번역해 놓은 문서에서 어떻게 번역됐는지 통계에 따라 번역 결과를 내보냈습니다.

하지만 새롭게 등장한 인공신경망 번역은 기계가 스스로 학습하도록 했습니다. 사람이 바둑 규칙을 일일이 입력하지 않았음에도 알파고가 이세돌 9단을 이긴 것도 이같은 학습능력 덕분이었습니다.

1
인공신경망 개념

새로운 구글 번역기는 단어나 구로 나눠서 번역을 하지 않는다고 합니다. 문장을 통째로 받아들여서 학습된 결과에 따라 번역문을 내놓습니다.

그런데 문제가 있습니다. 인공신경망 기법으로 학습을 하기 위해서는 충분한 데이터가 필요합니다. 과거에 사람들이 번역해 놓은 원문과 번역문이 많아야 그것을 보고 배울 수 있기 때문입니다.

하지만 영어-한국어 번역문은 충분치 않습니다. 구글에 따르면, 웹 크롤링을 통해 데이터를 수집했다고 하는데 한국어 웹문서가 영어로 번역돼 있는 경우가 얼마나 될까요? 구글 번역기가 충분히 학습할 수 있는 양에 미치지 못합니다.

과거 통계적 기법을 사용하던 시절에도 한국어-영어 번역쌍이 적어서 품질이 좋지 못했습니다. 반면 일본어-영어의 경우 번역 데이터가 한국어-영어보다 훨씬 많기 때문에 과거에도 자동번역 품질이 더 좋았습니다. 영어 문서를 한국어로 구글 자동번역기를 돌린 결과보다 영어를 일단 일본어로 번역하고, 그 일본어를 다시 구글 번역기에 집어넣어 한국어로 번역하면 더 좋은 번역 결과를 얻기도 했습니다.

데이터의 부족은 인공신경망 번역에서도 마찬가지의 문제점입니다. 컴퓨터가 학습할 데이터가 부족하면 품질을 담보할 수 없습니다.

그렇다면 구글은 어떻게 한국어-영어의 데이터 부족을 극복했을까요?

바로 비결은 ‘일본어’에 있습니다. 구글은 이번에 새롭게 ‘다중 언어 트레이닝’이라는 기법을 도입했습니다. 이는 비슷한 구조를 가진 언어들을 한 번에 묶어 학습시키는 것입니다.

한국어의 경우 일본어, 터키어와 언어구조가 비슷하기 때문에 구글은 세 언어를 함께 학습했다고 합니다. 번역쌍 데이터가 많은 일본어를 통해 학습한 결과가 한국어 번역에도 적용된 것입니다. 한국어-영어의 데이터 부족을 일본어를 통해 보충할 수 있게 됐습니다.

구글은 총 103개 언어를 인공신경망으로 번역할 계획을 가지고 있는데 인터넷이 발전하지 않아 웹에 데이터가 부족한 경우라도 번역 서비스를 제공할 수 있습니다.

버락 투로프스키 구글 번역 프로덕트 매니저는 “구글이 지난 10년 동안 계속 번역 서비스를 진화시켜 왔는데, 인공신경망을 통해 지난 10년간 발전한 것보다 하루아침에 더많은 혁신을 이룰 수 있었다”면서”인공신경망 기술 적용 후 번역 오류가 55%에서 최대 85% 가까이 줄어들었다”고 밝혔다.

글. 바이라인네트워크
<심재석 기자>shimsky@byline.network

관련 글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다