사람에겐 쉽지만 AI에게는 너무 어려운 이 문제

“앨리스에게는 두 명의 남자형제와 세 명의 자매가 있습니다. 그녀의 남동생에게는 몇 명의 여자형제가 있을까요? (Alice has 2 brothers and she also has  3 sisters. How many sisters does Alice’s brother have?)”

사람은 조그만 생각하면 답을 쉽게 얻을 수 있는 문제다. 앨리스 남동생 입장에서는 앨리스도 여자형제 중 한 명이기 때문에 답은 네 명. 하지만 사람에게는 쉬운 이 문제가 AI에게는 쉽지 않은 모양이다.

비영리 AI 연구단체 LAION이 발표한 논문에 따르면, 발전된 최신 AI조차 이 문제의 정답을 맞히기 어려워했다. 논문에서 연구자들은 오픈AI의 GPT-3, GPT-4, GPT-4o 구글의 제미나이, 메타의 Llama, 앤트로픽의 클로드3 오푸스, 미스트랄 AI의 멕스트랄, 모자익의 Bbrx, 코히어의 커맨스 R+ 등을 대상으로 유사한 질문들을 던진 후, 대부분의 AI가 아직 부족하다는 것을 발견했다.

오직 GPT-4o만이 정답을 맞혔지만 왜 그런 결과를 얻었는지 설명해 달라고 요청하면 말도 안되는 이야기를 했다고 논문은 밝혔다.

실제로 같은 질문을 한국어로 다양한 AI에 던져봤다. 논문처럼 대부분의 AI가 엉뚱한 답을 내놨다.

<구글 제미나이의 답>

구글 제미나이는 완전히 틀린 답을 내놓고 있다. 전혀 문제를 이해하지 못하는 모습이다.

앤트로픽 클로드3의 답

앤트로픽 클로드3은 화자가 여자형제 중 한 명이라는 사실을 추론하지 못하고 있다.

네이버 AI 검색 큐:의 답

네이버 ‘큐:’는 소 뒷걸음 치다 쥐 잡는 식으로 정답을 맞혔지만 추론 과정은 완전히 틀렸다.

최신 AI 중에 정답을 맞힌 건 오픈AI의 GPT-4o뿐이다.

하지만 GPT-4o도 한 번에 답을 내지는 못했다. 처음에는 3명이라고 답했다가 다시 물으니 정정했다. 논문에 나온 대로 GPT-4o에게 왜 그런 답을 냈는지 과정을 물었다.

논문에 따르면, GPT-4o 모델은 이런 질문에 거의 정답률 65%를 기록해 가장 높은 성공률을 보였다. 그 다음으로 정답률이 높은 모델은 클로드 3 오푸스로 성공률이 43%였다. 메타의 람마 2-7b는 30%, 구글의 제미나이 프로는 0.8%의 낮은 성공률을 기록했다.

글. 바이라인네트워크
<심재석 기자>shimsky@byline.network

[컨퍼런스 안내] 클라우드 보안 & 제로트러스트 컨퍼런스 2024

  • 일시: 2024년 7월 4일 오전 8:40 ~ 오후 6:00
  • 장소: 서울 서초구 강남대로 213 양재 엘타워 6층 그레이스홀

[무료 웨비나] B2B기업, AI 시대 어떻게 고객을 발굴할 것인가?

  • 정민아 <하룻밤에 읽는 B2B 마케팅> 저자
  • 2024년 7월 9일 14:00~15:00

관련 글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다