사람에겐 쉽지만 AI에게는 너무 어려운 이 문제

“앨리스에게는 두 명의 남자형제와 세 명의 자매가 있습니다. 그녀의 남동생에게는 몇 명의 여자형제가 있을까요? (Alice has 2 brothers and she also has 3 sisters. How many sisters does Alice’s brother have?)”

사람은 조그만 생각하면 답을 쉽게 얻을 수 있는 문제다. 앨리스 남동생 입장에서는 앨리스도 여자형제 중 한 명이기 때문에 답은 네 명. 하지만 사람에게는 쉬운 이 문제가 AI에게는 쉽지 않은 모양이다.

비영리 AI 연구단체 LAION이 발표한 논문에 따르면, 발전된 최신 AI조차 이 문제의 정답을 맞히기 어려워했다. 논문에서 연구자들은 오픈AI의 GPT-3, GPT-4, GPT-4o 구글의 제미나이, 메타의 Llama, 앤트로픽의 클로드3 오푸스, 미스트랄 AI의 멕스트랄, 모자익의 Bbrx, 코히어의 커맨스 R+ 등을 대상으로 유사한 질문들을 던진 후, 대부분의 AI가 아직 부족하다는 것을 발견했다.

오직 GPT-4o만이 정답을 맞혔지만 왜 그런 결과를 얻었는지 설명해 달라고 요청하면 말도 안되는 이야기를 했다고 논문은 밝혔다.

실제로 같은 질문을 한국어로 다양한 AI에 던져봤다. 논문처럼 대부분의 AI가 엉뚱한 답을 내놨다.

구글 제미나이는 완전히 틀린 답을 내놓고 있다. 전혀 문제를 이해하지 못하는 모습이다.

앤트로픽 클로드3은 화자가 여자형제 중 한 명이라는 사실을 추론하지 못하고 있다.

네이버 ‘큐:’는 소 뒷걸음 치다 쥐 잡는 식으로 정답을 맞혔지만 추론 과정은 완전히 틀렸다.

[무료 웨비나] 복잡한 레거시 환경에서 AI를 안전하게 확장하고 비즈니스 혁신을 가속화하는 방법

일시 : 2026년 7월 23일 (목) 14:00 ~ 15:00

최신 AI 중에 정답을 맞힌 건 오픈AI의 GPT-4o뿐이다.

하지만 GPT-4o도 한 번에 답을 내지는 못했다. 처음에는 3명이라고 답했다가 다시 물으니 정정했다. 논문에 나온 대로 GPT-4o에게 왜 그런 답을 냈는지 과정을 물었다.

논문에 따르면, GPT-4o 모델은 이런 질문에 거의 정답률 65%를 기록해 가장 높은 성공률을 보였다. 그 다음으로 정답률이 높은 모델은 클로드 3 오푸스로 성공률이 43%였다. 메타의 람마 2-7b는 30%, 구글의 제미나이 프로는 0.8%의 낮은 성공률을 기록했다.

글. 바이라인네트워크
<심재석 기자>shimsky@byline.network