AI가 AI를 망칠까?
챗GPT를 비롯한 대부분의 생성 AI는 인터넷 상의 데이터를 기반으로 학습한다. 크롤링으로 대규모 데이터를 수집하거나 공개된 데이터셋을 활용한다.
그런데 인터넷에는 AI 생성 콘텐츠가 많이 존재한다. 특히 AI의 콘텐츠 생산 속도는 인간과 비교할 수 없을 정도로 빠르기 때문에 AI 생산 콘텐츠의 비중은 갈수록 커지고 있다. 유로폴(유럽연합 법집행협력청) 보고서에 따르면, 2026년이 되면 인터넷 상의 콘텐츠 90%는 AI가 만들어낸 것이 될 수 있다고 한다.
AI는 인터넷 상의 데이터를 수집해 학습하기 때문에, 이 90%의 콘텐츠는 다시 AI 학습에 이용될 가능성이 높다. 즉 AI가 만든 콘텐츠를 AI가 학습하고, 또 그 AI가 만든 콘텐츠를 다시 AI가 학습하는 재귀적 상황이 반복된다는 것이다.
생성 AI는 종종 가짜정보를 만들어 낸다. 할루시네이션이라 부르는 문제는 생성 AI의 본질적 한계다. 할루시네이션을 줄이기 위한 다양한 노력을 펼치고 있지만, 근원적으로 없애는 방법은 아직 개발되지 못했다. 이 때문에 생성 AI가 만든 콘텐츠에는 가짜정보가 포함될 수밖에 없다.
결과적으로 AI가 생성한 가짜정보를 다시 AI가 학습하게 된다. 결국 AI의 재귀적 학습이 가짜정보의 확산이라는 불행한 결과로 이어질 가능성이 제기된다. 쓰레기 정보를 학습해서 만들어낸 콘텐츠는 쓰레기일 수밖에 없기 때문이다.
미국 인터넷 언론사인 악시오스는 최근 “인터넷은 AI에 의해 생성된 콘텐츠로 점점 더 많이 채워지기 시작했다”면서 “이는 인간 사회와 인공 지능 프로그램 자체에 이상하고 새로운 위험을 초래하고 있다”고 보도했다.
AI 전문가들은 이를 ‘모델붕괴’라고 부른다. 이 시나리오에 따르면 모델은 AI가 생성한 데이터를 학습할수록 진짜 중요한 데이터 분포가 무엇인지 잃어버린다. 생성 모델이 이미 본 패턴을 복제하고 있기 때문에, AI가 생성한 데이터에서 새롭게 가져올 수 있는 정보는 한정된다는 원리다. 이때문에 AI 모델은 세대가 거듭되면 점점 더 유사하고 다양성이 떨어지는 결과물을 생성한다.
악시오스에 따르면, 일부 연구진은 이를 ‘합스부르크 AI’라고도 부른다. 근친혼으로 유명했던 합스부르크 가문을 빗댄 명칭이다. 합스부르크 가문의 경우 근친혼으로 인해 유전병이 심했던 것으로 전해진다. 악시오스는 “다른 생성 AI의 결과물을 많이 학습한 시스템은 근친교배 돌연변이가 되어 과장되고 기괴한 특징을 갖게 될 가능성이 높다”고 설명했다.
사람이 생성한 데이터를 주로 학습하면 이런 문제는 줄어들 수 있지만 아직까지 사람이 만든 데이터와 AI가 만든 데이터를 구분해서 학습하기는 어렵다. 앞으로는 사람이 직접 만든 콘텐츠는 점점 줄어들 가능성이 높다.
특히 최근에는 자신이 만든 콘텐츠가 AI 학습 데이터로 사용되는 것을 거부하는 움직임이 늘고 있다. 예술가나 작가들이 이같은 움직임을 이끌고 있으며, 언론사 등도 자신의 콘텐츠의 AI 스크랩핑을 거부하는 경우가 있다.
오리지널리티 AI에 따르면, 지난 22일 기준 세계에서 인기 있는 사이트 1000개 중 챗GPT의 정보수집 도구인 ‘GPT봇’을 차단한 사이트가 9.2%로 늘어난 것으로 집계됐다.
제대로 대가를 받지 못하는 상태에서 자신의 콘텐츠가 AI 학습 데이터로 활용되면, 장기적으로 스스로의 창의적 경쟁력을 무너뜨리는 일이 될 수 있기 때문이다. 내가 만드는 것과 유사한 콘텐츠를 AI가 만들어내면 콘텐츠 생산자로서 나의 경쟁력은 상실될 가능성이 크다.
물론 모델붕괴나 합스부르크 AI 이론에 동의하지 않는 목소리도 적지 않다. 최근 클로바X를 출시한 네이버클라우드의 성낙호 하이퍼스케일 AI 기술 총괄은 “최근에는 AI가 스스로 안 좋은 데이터를 걸러내는 기술이 발전하고 있다”면서 “오픈AI도 수퍼얼라인먼트 팀에서 AI가 그런 일을 할 수 있다고 설명하고 있다”고 말했다.
오픈AI는 최근 수퍼얼라인먼트 팀을 발족했다. 오픈AI는 이 팀의 목표에 대해 “인간 수준의 자동화된 얼라인먼트(alignment, 가지런하게 만들기) 연구자를 구축하는 것”이라고 밝혔다. AI 시스템을 활용하여 다른 AI 시스템을 평가할 수 있다고 회사 측은 설명했다. AI를 만들고 평가하는 AI를 만들겠다는 의미다.
성 총괄은 “최근 RFT(Random Trees classifier) 알고리듬을 보면 안 좋은 AI 모델로 데이터를 만들어도 잘 걸러내서 학습을 시키면 AI가 강력해진다”면서 “할루시네이션이 있는 데이터들도 적절히 필터를 해서 쓰면 강한 AI를 만들 수 있고, 향후에는 점점 스스로 자가 정제하는 기능들이 생길 것”이라고 덧붙였다.
카카카오브레인 백운혁 리서치 총괄 디렉터도 바이라인네트워크와의 인터뷰에서 “기계가 생성한 데이터 중에서 어떤 데이터들을 선별해야 되고, 사람이 만들어낸 데이터를 어느 정도 비율로 섞어야 되고, 그리고 학습을 할 때 나눠서 하는 게 좋을지, 혹은 함께 섞어서 하는 게 좋을지, 섞을 때는 어느 정도 비율로 섞어야 하는지 다양한 방법들이 시도되어 왔다”면서 “단순하게 적용하면 분명히 품질이 저하될 텐데, 지금의 방법들은 꽤 많이 고도화가 되어 있어서 품질이 점점 더 올라가는 방향으로 가고 있다”고 말했다.
글. 바이라인네트워크
<심재석 기자>shimsky@byline.network
인터넷을 돌아다녀보면…
인간이라고 딱히 좋은 컨텐츠를 만들지는 않는거 같더라구요.
오히려 그나마 생성형 AI들이 만든 컨텐츠가 어설픈 인간들의 컨텐츠 보다 훌륭한거 같아요.
이 말씀도 맞는 것 같네요. 인간이 애드센스 낚시를 위해 기계적으로 만든 블로그도 많죠.