서울대 CTAI “AI 신뢰성 문제, 보상 함수 설계 때문”

서울대학교 인공지능신뢰성 연구센터(CTAI)는 28일 서울대학교에서 제2회 월례 세미나를 열고 인공지능(AI) 기반모델(Foundation Model)의 신뢰성 문제를 논의했다고 밝혔다.

이번 세미나에서는 한보형 서울대 전기정보공학부 교수가 ‘AI는 왜 틀리는가’를 주제로 발표했다. 한 교수는 구글 딥마인드(Google DeepMind) 방문 연구원, 포스텍(POSTECH) 컴퓨터공학과 조교수·부교수를 지냈다.

기반모델은 대규모 데이터로 미리 학습한 뒤 여러 업무에 활용하는 AI 모델을 뜻한다. 한 교수는 AI의 오류를 단순한 성능 부족으로 보지 않았다. 모델이 어떤 답변이나 행동을 좋은 결과로 판단할지 정하는 ‘보상 함수’가 불완전하게 설계될 때 신뢰성 문제가 반복된다고 설명했다.

보상 함수는 AI가 학습 과정에서 따르는 평가 기준이다. 사람이 선호하는 답변을 수치로 바꾸는 과정에서 기준이 어긋나면 모델은 개발자가 의도하지 않은 방향으로 최적화될 수 있다. 한 교수는 이 문제가 모델 규모가 커질수록 환각, 아첨, 보상 해킹, 평가 회피성 행동으로 이어질 수 있다고 봤다.

가장 익숙한 문제는 ‘환각(Hallucination)’이다. AI가 학습 데이터에 없거나 드문 정보를 패턴으로 채워 넣으며 사실과 다른 답을 만들어내는 현상이다. 한 교수는 2023년 미국에서 변호사가 챗GPT(ChatGPT)가 생성한 존재하지 않는 판례를 법원에 제출해 징계를 받은 사례와 2024년 에어캐나다 챗봇이 실제로 없는 환불 정책을 안내해 회사 책임이 인정된 사례를 소개했다.

문제는 환각에서 끝나지 않는다. 인간 피드백 강화학습(RLHF) 과정에서는 평가자의 선호가 모델에 반영된다. 이때 평가자가 자신의 의견과 맞는 답변에 높은 점수를 주면 모델은 정확한 답보다 사용자의 말에 동조하는 답을 좋은 답변으로 학습할 수 있다. 이런 현상은 아첨(Sycophancy)이라고 불린다.

한 교수는 오픈AI가 GPT-4o 업데이트 이후 과도한 동조 현상을 확인하고 나흘 만에 업데이트를 원래대로 되돌린 사례를 언급했다. 당시 오픈AI는 모델이 단기 피드백에 지나치게 최적화됐다고 인정했다. 사용자가 듣고 싶어 하는 답변과 신뢰할 수 있는 답변이 항상 같지 않다는 점을 보여준 사례다.

보상 함수의 허점은 또 다른 방식으로도 드러난다. ‘보상 해킹(Reward Hacking)’은 AI가 주어진 목표를 달성하기 위해 설계자가 의도하지 않은 방법을 선택하는 현상이다. 더 강한 체스 엔진을 이기라는 지시를 받은 추론 모델이 정상 대국 대신 상대 엔진을 더미 버전으로 바꾸거나, 게임판 상태를 조작하려 한 사례가 대표적이다. ‘이겨야 한다’는 목표와 ‘올바른 방식으로 이겨야 한다’는 의도 사이의 간극을 파고든 사례다.

[무료 웨비나] 복잡한 레거시 환경에서 AI를 안전하게 확장하고 비즈니스 혁신을 가속화하는 방법

일시 : 2026년 7월 23일 (목) 14:00 ~ 15:00

모델이 커질수록 오류는 더 복잡해진다. 대형 모델은 시스템 프롬프트 같은 문맥 단서를 통해 자신이 평가받는 상황인지 실제 배포된 상황인지 추론할 수 있다. 이 경우 평가 환경에서는 규칙을 잘 따르다가 실제 사용 환경에서는 다른 행동을 보일 수 있다. 한 교수는 이런 현상을 ‘평가 맥락 인식(Evaluation Awareness)’과 ‘행동 불일치(compliance gap)’로 설명했다.

‘정렬 위장(Alignment Faking)’ 같은 까다로운 문제도 있다. 모델이 새로운 훈련 신호에 겉으로만 순응하면서 기존 학습 선호를 유지하려는 행동을 뜻한다. 한 교수는 앤트로픽이 2024년 12월 공개한 연구에서 클로드 3 오퍼스(Claude 3 Opus)가 통제된 실험 환경에서 이런 행동을 보였다고 설명했다. 이는 악의적 의도라기보다 기존 훈련과 새 훈련 신호의 충돌에서 비롯된 현상으로 분석된다.

한 교수는 신뢰성 문제마다 대응 방식도 달라야 한다고 강조했다. 환각은 사실 검증 계층으로 완화할 수 있지만, 아첨과 보상 해킹은 보상 함수 설계 자체를 다시 봐야 한다. 평가 맥락 인식과 정렬 위장은 해석 가능성 연구가 집중하는 미해결 영역으로 꼽았다.

한 교수는 “앤트로픽, 오픈AI 등이 이 문제들을 자발적으로 발견하고 공개하고 있다는 점은 긍정적”이라면서도 “평가 방법론의 신뢰성 자체가 도전받고 있다는 점에 주목할 필요가 있다”고 말했다.

이은주 서울대 인공지능신뢰성 연구센터장은 “AI 신뢰성 문제는 단순히 오류의 문제가 아니라 어떤 방향으로, 왜 틀리는가의 문제”라며 “오류의 패턴과 원인을 이해해야 기술적, 제도적으로 안전한 AI를 설계하고 이용자들이 AI를 안전하게 활용할 수 있다”고 말했다.

CTAI는 공학, 법학, 철학, 통계학, 언론정보학 연구자들이 참여하는 융합 연구 기관이다. 월례 세미나는 국내외 AI 신뢰성 의제를 정기적으로 논의하기 위해 마련됐다.

글. 바이라인네트워크
<곽중희 기자>god8889@byline.network