“제주도에 오난 어떵 하우꽈?”

육지 사는 분들, 이 기사의 제목을 어떻게 번역하시렵니까? 챗GPT는 이걸 “제주도에는 어떤 일이 있나요?”라고 옮겼습니다. 제주에서 나고 자라신 분들, 아시죠? 이거 다 거짓말이라는 걸요. 원래는 “제주도에 오니 어떻나요?”라는 뜻인데요. 요즘 제일 잘 나가는 챗GPT도 데이터가 충분하지 않은 언어나 방언에서는 힘을 좀 쓰지 못하는 모습입니다.

챗GPT가 왜 아직은 완벽한 번역을 못하는지, 그렇지만 어떻게 하면 조금 더 높은 정확도의 번역 결과물을 만들어낼 수 있을지에 대한 발표가 있었습니다. 16일 바이라인네트워크가 서울 과학기술컨벤션센터에서 개최한 “챗GPT와 생성AI가 만드는 미래” 컨퍼런스에 이정수 플리토 대표(=사진)가 참석했는데요. 이정수 대표는 “데이터가 상대적으로 적은 언어의 유추는 가능할 것인가”라는 흥미로운 질문을 컨퍼런스에서 던졌습니다.

챗GPT는 일상의 많은 영역에 화두를 만들어냈고, 그건 번역 시장에도 마찬가지입니다. 언어 인공지능 번역이 서비스로 나온 것은 지난 2016년. 플리토는 이 시장에서 업력을 쌓아오고 있는 플레이어입니다. 원래는 집단지성을 이용해서 번역 서비스를 제공하는 일을 했는데요, 요즘엔 그간 쌓아온 말뭉치(번역쌍 데이터)를 기업에 판매하기도 합니다. 번역 엔진을 개발하면서, 챗GPT와 결합해 새로운 서비스를 만들어낼 방법도 모색중입니다.

이정수 대표는 이날 몇가지 흥미로운 예시를 들면서 기존의 번역 엔진과 챗GPT가 왜 불완전한 번역을 내놓았는지를 추론했는데요. 예를 먼저 보실까요?

폭스뉴스가 트위터로 날린 야구 뉴스입니다. 여기에서 “comes off the bag”이라는 표현이 나오죠? 선수가 저 플레이트에서 발을 떼는 상황을 묘사한 거라고 합니다. 이정수 대표는 이 번역이 상당히 까다롭다고 설명했는데요, 왜냐하면 자주 쓰는 말이 아니기 때문이죠. 그래서 대부분의 번역기는 저 문장을 제대로 번역하지 못했습니다. 그런데,

챗GPT는 다르네요? 선수가 베이스에서 떨어져 아웃처리되었다고 정확히 묘사합니다. 놀랍죠? 그런데 이정수 대표는, 여기서 한 가지 실험을 해봤다고 합니다. 강백호라는 사람 이름을 마이크 타이슨으로 바꿔 본거죠. 번역 결과는 어떨까요?

똑같은 문장에서, 사람 이름이 하나 바뀌었는데 번역 문장은 완전히 달라졌습니다. “베이스에서 떨어져”라는 표현이 갑자기 “주먹가방에서 벗어나”로요. 이정수 대표는 “이름이 번역을 위한 하나의 조건값으로 활용되었을 것”이라고 추론했습니다.

강백호라는 선수 이름이 들어가 있으므로 챗GPT는 야구라는 스포츠를 유추해서 번역 결과값을 가져왔을 거라는 설명입니다. 반대로, 마이크 타이슨은 야구가 아닌 권투 선수죠. 그래서 샌드백에 가까운 주먹가방이라는 번역값을 가져왔을 수 있죠.

하지만, “강백호=야구, 마이크 타이슨=권투”라는 조건값에 따른 결과값 유추가 항상 옳을 수 있을까요? 만약 마이크 타이슨이 동네에서 야구를 하던 중이라면요? 챗GPT는 관련한 상황을 정확하게는 모르기 때문에 얼마든지 잘못된 번역 정보를 제공할 수 있는 거죠. 따라서 이 대표는 “상황에 대한 이해 없이는 번역을 정확하게 제공하는 건 불가능하다”는 중요한 지적을 합니다.

번역 엔진이 하는 오해(?)는 문화권이 달라지면 더욱 커질 수도 있습니다. 예를 들어 “맨날 하라는 공부는 안 하고 놀기만 하더니, 참 장하다”라는 문장을 읽을 때, 딱 한국인끼리만 통하는 무언가가 있지 않습니까. 이정수 대표는 “한국인은 이런 문장을 부모가 자녀에게, 공부 안하고 놀기만 할때 지적하는 문장이라는 걸 바로 알수 있지만 번역 엔진은 충분한 조건 설명이 없다면 이를 제대로 번역해내기 어렵다”고 설명했습니다. 특히, 한국어는 문장에 주어를 쓰지 않는 경우가 많아서, 완전한 오역을 내놓기도 하고요.

그래서, 챗GPT의 시대에도 여전히 로컬라이제이션과 사람의 검수는 중요합니다. 그렇다고 이정수 대표가, 번역에서는 챗GPT가 역할을 하지 못한다는 주장을 하는 건 아닙니다. 챗GPT는 번역을 위한 데이터 생성에서 큰 몫을 할 수 있죠. 사람들은 계속해서 새로운 문화와 말을 만들어내는데, 이를 번역하기 위한 번역쌍은 변화의 속도만큼 충분히 빠르게 나오지 않습니다.

여기에서 번역 기술을 만드는 회사나, 혹은 번역과 생성AI 기술을 결합하려는 이들이 얻을 수 있는 힌트가 있다고 이정수 대표는 조언합니다. 비록 챗GPT가 거짓말을 하긴 하지만 말 만큼은 빨리 만들어내니까요. 정확한 프롬프트만 넣어주면 챗 GPT는 그럴싸한 문장을 빠르게 많이 만들어낼 수 있습니다.

조금 더 나아간다면, 그동안은 데이터가 적어 번역이 어려웠던 고어 같은 것들을 지금의 언어로 살려내는 것 역시 충분히 가능한 일이라고 하는데요. 멀게만 느껴졌던 조상님들의 콘텐츠를 재미있게 향유하게 되는 것도 멀지 않아 보이네요. 자, 독자님들. 이정수 대표가 말하는 “챗GPT로 인한 번역의 변화”가 어떤가요? 흥미로우셨나요?

글. 바이라인네트워크
<남혜현 기자> smilla@byline.network

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다