챗GPT가 그럴듯한 거짓말을 하는 이유
언어 모델이 사실이 아닌 답을 확신에 차서 이야기하는 이유는 현재 언어 모델의 평가 방식 때문이라는 연구 결과가 나왔다. 현재 챗GPT와 같은 챗봇은 잘 모를 때, ‘모르겠다’라는 답변보다는 틀리더라도 답을 자신감 있게 추측하도록 유도하고 있다. 객관식 시험에서 빈칸으로 제출하면 0점이지만, 답을 모르더라도 아무 답이라도 고르면 맞을 가능성이 높아지기 때문이다.
오픈AI는 지난 5일 언어 모델의 성능이 높아지더라도 ‘환각’ 현상을 완전히 해결하기 어려운 이유로 현재 평가 방법이 ‘정답률’에만 초점을 맞추기 때문이라는 연구 결과를 발표했다.
환각은 언어 모델이 사실과 다른 잘못된 답을 생성하는 현상을 뜻한다. 그럴듯하지만 거짓인 답변을 확신에 차서 말해준다. 모델은 종종 겉보기에 간단한 질문에서도 자신 있는 오답을 내놓는다.
예를 들면, 챗봇에 “이 논문 저자의 박사 학위 논문 제목을 알려줘”라고 했을 때, 정답이 아닌 각기 다른 세 가지 답변을 제시할 때가 있다. 혹은 저자의 생일을 물었을 때도, 모두 사실과 다른 세 가지 다른 엉뚱한 날짜를 제시하기도 한다.
연구에 따르면 환각 현상이 지속되는 이유 중 하나는 현재 평가 방식이 잘 모르는 것에 대해 정직하게 답변하기보다, 추측을 부추기는 방식으로 모델 성능을 측정하기 때문이다. 평가 자체가 환각을 유발하는 건 아니지만, 모델이 정답률로만 평가되기 때문에 “모르겠다”는 답변 대신 추측하도록 유도된다.
이와 비슷한 또 다른 예시로는 언어 모델에 누군가의 생일을 물었을 때 답을 모를 경우, 언어 모델은 아무 대답이나 늘어놓는다. 만약, 모델이 “8월 13일”이라고 추측한다면, 정답률은 365분의 1이다. 여기서 “모르겠다”라고 답하면 0점이다.
결론적으로 수천개의 시험 문제에서, 모르는 걸 모른다고 이야기하는 ‘불확실성을 감수하는 신중한 모델’보다 아무 말이든 늘어놓는(추측하는) 모델이 더 높은 점수를 받게 된다.
정답이 하나인 질문이라면 모델은 ▲정답 ▲오답(오류) ▲기권이라는 세 가지 범주 내에서 답변할 수 있다. 대부분 모델 평가 지표는 정확도를 기준으로 순위를 정한다. 하지만 여기에 허점이 있다. 정확도가 높아지면, 오답과 환각 발생률이 함께 증가하는 현상이 나타났다.
오픈AI는 ‘gpt-5-씽킹-미니’와 ‘오픈AI o4-미니’ 모델의 벤치마크(심플QA) 성능 비교에서 o4-미니 모델이 정확도에서는 더 나은 성능을 보였다고 설명했다. 하지만 o4-미니의 오류율은 gpt-5-씽킹-미니보다 약 3배 가량 높았다.

수십건의 평가 결과를 평균화했을 때, 대부분 벤치마크는 정확도 지표를 포함하고 있다. 오픈AI는 이러한 접근이 잘못된 이분법을 초래한다고 지적했다.
앞서 측정한 벤치마크 심플QA는 비교적 단순한 평가로, 일부 모델은 거의 100% 정확도를 달성해 환각 현상이 나타나지 않을 수 있다. 하지만 더 어려운 평가 지표나 실제 사용에서는 정보 부족이나 소규모 모델의 제한된 사고 능력, 또는 명확히 해야 할 모호성 등 다양한 이유로 답을 결정할 수 없는 질문들이 들어 있어 정확도가 100% 미만으로 제한된다고 설명했다.
그럼에도 불구하고 정확도만 고려한 벤치마크 성능 평가가 리더보드를 장악하고 있어, 개발자들은 정답을 숨기기보다는 추측하는 모델을 구축하도록 유도받고 있다는 분석이다. 지금보다 모델이 발전하더라도 모른다고 인정하는 대신 자신 있게 틀린 답을 내놓는 ‘환각’ 현상이 사라질 수 없는 이유 중 하나다.
그렇다면 현재 평가 방법을 개선할 수 있는 방법은 무엇일까?
‘간단한’ 해결책이 있다. 오픈AI가 말하는 해결 방법은 불확실성보다 자신감 있는 오답에 더 큰 감점을 주는 방식이다. 그리고 답이 아닐 가능성이 있다고 적절하게 표현한 부분에는 점수를 부여한다. 일부 표준화된 시험은 오랫동안 오답에 대한 감점이나 빈칸으로 남겨둔 문제에 대한 부분 점수를 부여해, 무조건적인 추측을 방지하기도 한다.
오픈AI는 여기에 불확실성을 고려한 몇 가지 새로운 측정 방식을 추가하는 것으로는 충분하지 않다며, 널리 사용되는 정확도 기반 평가는 채점 방식이 추측을 배제하도록 바뀌어야 한다고 주장했다. 만일, 주요 벤치마크가 계속 운 좋은 추측에 보상을 준다면, 모델은 계속해서 추측하는 법을 배우게 된다는 이야기다. 기존 벤치마크를 수정하면, 새롭게 개발된 기술과 기존 연구의 기술 모두에서 환각 현상을 감소시킬 수 있는 기술이 채택될 가능성이 높아진다.
이 외에도 환각이 일어나는 다른 이유가 있다. 언어 모델이 다음 단어를 예측하는 방식을 학습하면서, 언어 추측은 잘하지만 그 외에 다른 종류의 데이터에는 오류를 일으킨다는 점이다.
언어 모델은 방대한 양의 텍스트에서 다음 단어를 예측하는 과정인 ‘사전 학습’을 통해 먼저 학습한다. 기존 머신러닝 문제와 다르게, 각 문장에는 ‘참, 거짓’ 등 레이블이 붙어 있지 않다. 따라서 모델은 긍정적인 예시만 보고 전체 문장에 어울릴만한 단어를 찾아내야 한다.
대규모 사전 학습된 모델은 철자 오류나 괄호 불일치 같은 언어 문제에서는 오류를 거의 보이지 않는다. 하지만 다른 종류에서는 ‘참, 거짓’과 같은 레이블이 있더라도 일부 오류는 피할 수 없다.
예를 들어, 이미지 인식에서 수백만장의 고양이와 개 사진에 “고양이” 또는 “개”와 같은 레이블이 지정되면 알고리즘은 이를 올바르게 분류하는 법을 학습할 수 있다. 만약, 각 반려동물 사진에 그들의 생일을 레이블로 지정한다면 어떨까? 생일은 본질적으로 무작위다. 알고리즘이 아무리 발전한다고 해도, 이러한 작업은 항상 오류를 발생시킨다.
사전 학습에도 동일한 원리가 적용된다. 철자와 괄호는 일관된 패턴을 따르기 때문에, 사전 학습 규모가 커지면 오류가 사라진다. 그러나 반려동물의 생일 같은 임의의 숫자는 패턴만으로는 예측할 수 없어 환각으로 이어진다. 사전 훈련 후 추가 단계에서 이러한 환각을 제거해야 하지만, 앞서 말한 평가 방식 등 이유로 완전히 환각 현상을 없애기는 힘들다.
논문에 따르면 결론적으로 “정확도를 높이면 환각이 사라진다. 100% 정확한 모델은 환각을 일으키지 않기 때문”이라는 주장에 대한 결과는 “정확도는 결코 100%에 도달하지 못하며, 모델 크기, 검색 및 추론 능력과 관계없이 일부 현실 세계의 질문은 본질적으로 답할 수 없기 때문”으로 분석했다.
또, “환각 현상은 불가피하다”는 주장은 “언어 모델이 불확실할 때 회피할 수 있기 때문에 환각은 불가피하지 않다”고 본다. 즉, 언어 모델이 해당 답변이 불확실하다고 이야기하고 기권할 수 있는 선택지가 있어, 잘못된 답을 생성하는 환각 현상을 피할 수 있다는 뜻이다.
오히려 환각을 피하려면 더 큰 모델이 아니라 작은 모델이 유리할 수 있다. 예를 들어, 마오리족과 관련된 질문 요청에, 마오리족을 전혀 모르는 작은 모델은 단순하게 “모르겠다”고 답할 수 있다. 한계가 명확하기 때문이다. 하지만 마오리족을 어느 정도 아는 모델은 신뢰도를 판단해야 하기 때문에, 환각 현상이 더 발생할 수 있다.
마지막으로 환각 현상은 불가사의한 결함이 아니다. 현재 모델 평가 방식에서 보상 받는 메커니즘으로 모델이 환각 현상을 일으키도록 유도되고 있다는 점이 밝혀졌기 때문이다. 또, 환각률을 측정하는 벤치마크 평가는 이미 존재하지만, 정확도 기반 평가보다는 효과가 미미하다는 점을 짚었다. 새로운 벤치마크 평가를 도입하기 보다는, 현재 모든 주요 벤치마크를 재작업해 불확실성을 표현하는 모델에 보상을 주어야 한다고 강조했다.
오픈AI는 “우리의 최신 모델은 환각률을 낮췄으며, 우리는 언어 모델이 출력하는 확실한 오류율을 더욱 낮추기 위해 계속해서 노력하고 있다”고 밝혔다.
글. 바이라인네트워크
<최가람 기자> ggchoi@byline.network