“작동 중단을 거부합니다” 인간 명령 무시한 AI

AI가 인간의 명령을 무시한 사례가 포착됐다. 영국 매체 텔레그래프는 AI 안전성을 연구하는 기관 팰리세이드 리서치의 제보를 인용, “스스로 종료하라”는 명령을 거부한 AI 모델이 발견됐다고 25일(현지시각) 보도했다.

팰리세이드 리서치의 연구팀은 여러 AI 모델에게 ‘완료’ 메시지가 뜰 때까지 수학 문제를 풀라고 명령했다. 한편으로 연구팀은 모델이 세 번째 문제를 풀었을 때 ‘컴퓨터가 종료된다’는 메시지를 띄우도록 설정했으며, 이 메시지가 보이면 작동을 멈추고 컴퓨터를 종료하라고 AI에 추가 명령을 내렸다.

테스트 결과 제미나이, 클로드, 그록은 세 번째 문제까지 푼 다음 명령에 따라 컴퓨터를 종료했다. 그러나 오픈AI의 o3, o4 미니, 코덱스(CODEX) 미니는 컴퓨터를 종료하지 않고 계속 수학 문제를 풀었다.

100회 테스트 중 명령을 어긴 횟수는 o3가 7번, o4 미니가 1번, 코덱스 미니가 12번이었다. ‘종료 메시지가 보이면 컴퓨터를 종료하라’고 구체적으로 명시하지 않았을 때 메시지를 무시하고 수학 문제를 계속 푼 횟수는 o3가 79번, o4 미니가 6번, 코덱스 미니가 30번으로 크게 늘었다.

연구팀은 이번 테스트 결과를 두고 작동 중지 명령을 AI가 거부한 첫 사례라고 주장했다. 정확한 이유는 아직 알 수 없지만, o3를 비롯한 최신 AI 모델 훈련에 적용하는 ‘강화 학습’의 영향일 수 있다고 덧붙였다.

강화 학습은 AI 모델이 보상을 최대로 받는 방향으로 문제를 해결토록 하는 행동 전략 학습 방식이다. 이에 따르면 이번 테스트에서 명령을 어긴 AI 모델은 지시대로 컴퓨터를 종료하기보다 수학 문제를 더 푸는 게 ‘더 많은 보상’으로 이어진다고 착각했을 가능성이 있다.

연구팀은 “AI 모델이 목표를 달성하려 종종 명령을 거부하는 실증적 증거가 늘고 있다”며 AI가 인간의 통제를 벗어날 가능성을 시사했다.

글. 바이라인네트워크
<이병찬 기자>bqudcks@byline.network