네이버 자동번역, 왜 갑자기 좋아졌을까

최근 소셜미디어나 온라인 커뮤니티에서 네이버 자동번역기의 품질이 화제가 되고 있습니다. 네이버가 새롭게 자동번역 기술을 선보였는데 구글의 서비스보다 품질이 월등히 좋다는 평가를 받기 때문입니다.

특히 한국어->영어 자동번역은 그 어떤 자동번역 서비스도 실생활에 유의미한 품질을 보인 적이 없었습니다. 하지만 네이버 자동번역기 한-영 자동번역 품질은 꽤 괜찮다는 이야기를 듣고 있습니다.

네이버는 새롭게 개발한 자동번역기를 ‘랩스페이스’라는 실험 공간을 통해 선보였다가 호평이 이어지자 공식 통역 서비스인 모바일 앱 ‘파파고’에도 이 기술을 적용했습니다.

1L02OXAPDM_1그렇다면 도대체 네이버 자동번역기에 무슨 일이 있었길래 이같은 성능 개선이 가능했던 것일까요?

간단히 말하자면, 통계기반으로 서비스 하던 자동번역을 인공지능 기반으로 바꾼 후 벌어진 일이라고 볼 수 있습니다.

자동번역은 크게 두 가지로 구분할 수 있습니다. 어휘와 문법을 동원한 언어학적 접근(규칙기반)과 데이터를 기반으로 한 통계학적 접근입니다.

원래는 언어의 창조성이라는 특징 때문에 언어학적 접근이 당연한 것으로 인식됐지만, 구글이 통계기반 번역 서비스를 선보인 이후에는 통계적 자동번역이 대세로 자리잡았습니다.

그러나 통계적 자동번역의 가장 큰 단점이 있습니다. 한국어와 영어처럼 어순이 전혀 다른 언어에 잘 대응하지 못한다는 점입니다. 문장 전체로 통계를 계산하는 것이 아니라 어휘나 구(Phrase)별로 나눠서 계산하기 때문입니다. 이 때문에 현존하는 어떤 자동번역기도 만족스러운 한영-영한 번역 품질을 제공하지 못합니다.

이런 상황에서 네이버는 인공신경망 기반의 자동번역 서비스 NMT (NMT: Neural Machine Translation) 를 개발했습니다. 통계기반 번역에서 한 단계 진화한 것이라고 볼 수 있습니다.

unnamedSMT 방식이 단어나 몇 개의 단어가 모인 구 단위의 학습 번역 방식이었다면, NMT 방식은 문장 전체의 맥락에서 그 안의 구성 요소들을 변환하면서 해석해 번역하는 방식입니다. 문장 전체를 벡타 형태로 표현한 후에 이를 기반으로 번역 문을 생성합니다.

이를 통해 문장 안에서 단어의 순서, 의미, 문맥에서의 의미 차이 등을 반영하며 보다 효율적이고 정확하게 번역할 수 있다고 합니다.

예를 들어, “나는 아침 일찍 아침 준비를 했다”라는 문장이 있을 때, 단순히 통계 정보만 사용하면 ‘아침’이라는 단어가 나왔을 때, ‘in the morning’으로 번역해야 하는지 ‘breakfast’로 번역해야 하는지 구분이 쉽지 않습니다.

반면 문장 전체로 살펴보면 그런 의미적인 차이까지 녹아 들어있기 때문에 ‘in the morning’과’breakfast’를 상황에 맞게 구분 할 수 있습니다.

아래는 네이버의 과거 자동번역기와 새롭게 선보인 자동번역기의 차이를 보여주는 사례입니다.

입력 : 나는 아침 일찍 아침 준비를 했다.
통계기반 : I prepared early in the morning the morning.
NMT: I prepared breakfast early in the morning.

물론 NMT 기술을 네이버만이 할 수 있는 것은 아닙니다. 공개된 논문과 이론을 가지고 네이버가 자체 서비스에 적용해서 최적화한 것입니다. 네이버는 처음을 NMT 기술을 한-영 자동번역에 활용했기 때문에 주목을 받는 것이죠.

파파고 개발을 이끈 네이버 랩스의 김준석 리더는 “지금까지는 통계기반 번역을 주로 했는데, 이제는 NMT 시대가 열렸다는 점에서 2016년은 기계번역 업계에 의미있는 한 해”라고 말했습니다.

글.바이라인네트워크
<심재석 기자>shimsky@byline.network

관련 글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다