불 붙은 생성AI-뉴스 저작권 분쟁, 파장은?

물밑에서만 어른거리던 언론과 생성 인공지능(AI) 진영의 갈등이 소송까지 이어지며 수면 위로 떠올랐다. 그간 생성AI의 저작권 침해 문제는 늘 따라다니던 이슈다. 하지만 이번처럼 세계적인 언론사와 빅테크 간 거액의 송사까지 이어진 경우는 없었다.

좋든 싫든 반드시 풀어야 할 실타래가 생긴 모습이다. 논리 싸움을 넘어 ‘기술’ 이야기까지 나왔다. 언론사가 생성AI 솔루션의 기술적 취약점까지 소장에 적어냈다. 문제의 근원은 무엇이며 우리 미디어 생태계에는 어떻게 작용할까.

GPT의 맹점 파고든 NYT

앞서 뉴욕타임스(NYT)는 지난해 12월 오픈AI가 기사 저작권을 침해했다는 이유로 소송을 제기했다. 회사 허락 없이 GPT 모델을 훈련하는데 자신들의 기사 데이터를 활용했다고 주장했다. 이와 함께 오픈AI와 제휴로 생성AI 서비스를 제공하는 마이크로소프트도 함께 고소했다.

NYT는 단순히 저작권뿐만 아니라 IT 기술까지 깊게 파고들었다. 저작권 보호 논리만 내세워 “우리 기사를 베껴갔다”라고 말하면 세계적인 언론사의 소장이 아닐테다. 개발사 입장에서는 숨기고 싶은 솔루션 취약점을 물고 늘어졌다.

NYT는 소장에서 “NYT 기사의 여러 단락을 뱉어내는 경우도 있다”며 GPT를 비롯한 거대언어모델(LLM)의 취약점인 ‘기억-역류(Memorizing-regurgitation)’ 문제를 지적했다. 기억-역류 현상은 풀어 말하면 들어간 프롬프트에 따라 원본 데이터를 뱉어(역류)내는 취약점을 말한다.

NYT는 “GPT-4는 NYT 저작물의 상당 부분을 거의 그대로 출력하라는 메시지를 넣으면 이를 출력한다”고 전했다. 프롬프트에 따라 자신들이 쓴 콘텐츠(무려 퓰리처상을 받은 기사다) 일부가 그대로 출력된 것을 증거로 제시했다.

NYT는 한 발 더 나가 ‘접지(Grounding)’ 기법을 지적했다. 접지 기법의 기본 원리는 아래와 같다.

1) 사용자로부터 프롬프트를 받으면 관련된 NYT 콘텐츠를 인터넷에서 복사.
2) 복사된 콘텐츠와 함께 프롬프트를 LLM에 추가 컨텍스트로 제공.
3) LLM이 복사된 NYT 콘텐츠의 의역 또는 인용문을 연결.
4) 원본과 동일한 정보 제공 목적을 가진 자연어 대체물을 생성.

NYT는 “이러한 합성 응답(synthetic responses)의 내용은 일반적으로 일반 검색 결과에 표시되는 스니펫(Snippet·텍스트의 일부 부분)을 뛰어넘는 경우가 많다”며 “소스 자료에 대한 링크가 포함되어 있더라도 결과에는 이미 해당 표현의 내용이 인용되거나 의역돼 있어 해당 소스로 이동할 필요성이 줄어든다”고 전했다.

꼭 NYT가 아니더라도 다른 콘텐츠 제공사 모두가 피해자가 될 수 있다는 걸 어필한 셈이다. 챗GPT의 등장 때부터 지적 받던 할루시네이션(Hallucination·환각) 문제도 다시 짚었다. 자신들이 쓴 기사가 아님에도 출처 표기 때 NYT 콘텐츠라는 값을 내놓으면서 자신들의 명예를 훼손했다는 주장이다.

오픈AI가 블로그에 올린 입장문에 붙은 이미지. “우리는 저널리즘을 지지하고, 언론사와 협력한다. 뉴욕타임스 소송은 가치가 없다고 생각한다.”는 문구가 눈에 띈다.

오픈AI의 반박

오픈AI는 회사 블로그에 글을 올려 NYT가 버그를 악용했다고 반박했다. 기억-역류 현상은 드물게 발생하는 버그로 이를 제로화하기 위해 노력하고 있다고 밝혔다. 동시에 NYT에 대한 날을 세우는 것도 잊지 않았다.

오픈 AI 주요 메시지 (입장문 중 발췌)

“이(챗GPT)를 통해 NYT는 기존 및 신규 독자와 소통할 수 있는 새로운 방법을 얻고, 우리 사용자들은 NYT의 보도에 액세스할 수 있게 된다.”

“하지만 다른 단일 소스와 마찬가지로 NYT 콘텐츠는 기존 모델의 학습에 의미 있는 기여를 하지 못했고 향후 학습에도 충분한 영향을 미치지 못할 것.”

“보도를 통해 알게 된 소송 소식은 놀라움과 실망감을 안겨주었다.”

“NYT는 모델이 역류하도록 하기 위해 종종 긴 기사 발췌문을 포함한 프롬프트를 의도적으로 조작한 것으로 보인다.”

NYT의 주장을 조목조목 반박한 가운데 사실 제대로 주목해야 할 문구는 따로 있다.

“저희는 학습 데이터를 역류시키려는 적대적 공격에 대한 시스템의 저항력을 지속적으로 강화하고 있으며, 최근 모델에서 이미 많은 진전을 이뤘다.”

계속해서 모델 취약점을 보완하고 기술 개발에 매진하고 있다는 이야기다. GPT-4의 구동 원리를 속속들이 들여다 볼 수는 없지만 이번 소송이 취약점을 보완할 계기로 작용한 것은 분명해 보인다.

세계적인 언론사가 제기한 세계가 주목하는 소송. 제대로 취약점을 메꾸지 못하면 또 다른 송사에도 휘말릴 가능성이 크다. 그 어떤 사용자의 피드백보다도 뼈아픈 송사가 GPT를 한층 발전시키는 역설을 낳을 전망이다.

우리도 예외는 아냐

그저 태평양 건너 일로 치부하기에는 우리나라에도 시사하는 바가 크다. 국내에서도 언론사와 AI기업 간의 저작권 문제는 꺼지지 않은 불씨, 아니 바로 크게 번져도 이상하지 않은 불쏘시개다.

네이버와 한국신문협회의 갈등이 그렇다. 지난해 12월 말 한국신문협회는 네이버의 LLM ‘하이퍼클로바X’의 뉴스 학습과 관련해 “저작권자인 언론사 허락 절차를 거치지 않아 불공정 계약”이라며 새 약관을 만들어야 한다는 의견을 공정거래위원회에 냈다.

네이버가 뉴스콘텐츠 제휴 약관에 ‘서비스 개선, 새로운 서비스 개발을 위한 연구를 위해 직접, 공동으로 또는 제3자에게 위탁하는 방식으로 정보를 이용할 수 있다’는 구절을 넣어놓긴 했지만 이는 뉴스 제공에 한정할 뿐 하이퍼클로바X 학습에까지는 적용해서는 안 된다는 주장이다.

NYT는 이번 손해배상과 이익 반환, 구제책 등을 요구했다. 구체적인 손해배상 액수는 적시하지 않았다. 업계에서는 합의를 통해 이번 사안이 해결될 것으로 본다. 결국 NYT의 이번 소송은 미국을 넘어 국내 AI-언론사 간 저작권 갈등에도 중요한 참고 사례로 작용할 것으로 보인다.

글. 바이라인네트워크
<이진호 기자>jhlee26@byline.network

관련 글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다