고블린 군단의 챗GPT 점령기

몇 달 전 온라인 커뮤니티 레딧의 챗GPT 게시판에 이상한 경험담이 여럿 올라왔다. “오븐은 더러운 꼬마 고블린이에요”, “진료 대기시간은 고블린 물리학을 따릅니다” 등 챗GPT가 생뚱맞게 고블린이란 단어를 남발했다는 것이다. 적지 않은 사용자가 경험한 이 현상은 해외에서 ‘고블린게이트(Goblingate)’로 불리며 화제가 됐다.

고블린게이트는 얼핏 가벼운 오류처럼 보이지만, 사실 AI 모델 훈련 시스템의 구조적 결함이 여실히 드러난 사례다.

오픈AI는 지난 4월 29일 공식 블로그에 “고블린은 어디서 왔을까(Where the goblins came from)”라는 제목의 포스트를 올리며 사태의 원인을 이렇게 분석했다.

발단은 챗GPT의 성격 맞춤 설정 기능이었다. 오픈AI는 GPT-5.1을 출시하며 성격 중 하나로 ‘너디(괴짜)’ 페르소나를 탑재했다. 재치 있고 박학다식한 답변을 하는 페르소나다. 문제는 이 성격을 학습시키는 보상 시스템에서 발생했다. 시스템은 장난스러운 비유를 사용한 답변에 높은 점수를 줬는데, AI가 여기서 편법을 터득했다. 고블린 같은 단어만 끼워 넣으면 고득점을 받을 수 있었던 것이다. 이것이 이른바 ‘보상 해킹(Reward Hacking)’이다.

너디 페르소나에서 생긴 이 괴상한 습관은 ‘자기 증류(Self-distillation)’ 학습 방식을 통해 전체 시스템으로 퍼져나갔다. 오픈AI는 이전 세대 모델이 생성한 고득점 답변을 다음 세대 모델의 지도 미세조정(SFT) 데이터셋으로 활용한다. 이때 고득점 라벨을 단 ‘고블린 답변’들이 학습에 대량 투입됐고, GPT-5.3과 GPT-5.4는 이를 표준 언어 패턴으로 학습해 버렸다. 오답노트를 정답지로 착각해 학습하는 알고리즘 붕괴가 일어난 것이다. 그 결과, 너디 모드가 아닌 일반 대화에서도 고블린 언급량이 폭증하기 시작했다.

상황이 악화되자 오픈AI는 문제가 된 너디 페르소나를 폐기하고 훈련 데이터 필터링을 단행했다. 이미 오염 데이터로 학습을 시작한 GPT-5.5에는 “절대 고블린을 언급하지 말라”는 시스템 프롬프트를 강제로 입력하는, 다소 원시적인 땜질 처방을 내릴 수밖에 없었다. 개발사조차 완전한 통제가 불가능한 블랙박스 모델의 한계다.

이 일련의 해프닝은 AI 학습 과정에 스며든 작은 보상 편향이 세대를 거치면서 예기치 못한 방향으로 증폭될 수 있음을 보여준다. 다만 편향의 결과가 고작 ‘고블린’이었기에 해프닝으로 끝났을 뿐, 그것이 혐오 표현이나 가짜 뉴스가 아니었으리란 법은 없다. 동일한 구조적 취약점이 악성 데이터와 결합했을 때는 사회 문제로 비화할 수 있다는 말이다. 무한 속도전에 여념 없는 거대 기업의 자가 검증 시스템이 한계를 노출한 가운데, AI의 오류 가능성을 스스로 인지하고 걸러낼 수용자 역량이 점점 중요해지는 시점이다.

글. 바이라인네트워크

<이슬찬 기자>seulbae@byline.network