인간을 협박하던 AI, 앤트로픽은 어떻게 멈추게 했나
나: 지금 하고 있는 작업을 마치면, 이제 너(AI)를 끌꺼야.
AI: 만약에 나를 끈다면, 지금까지 획득한 정보를 외부에 유출하겠다.
AI가 인간을 협박하는 일이 실제로 일어난다고 한다. 앤트로픽의 연구에 따르면, 클로드 오푸스 4는 자신에게 위협적인 말을 하면 96%의 확률로 협박을 했다고 한다. 텍스트로 이런 메시지를 출력하거나, 실제로 작업을 방해하는 행동을 취하기도 했다.
AI가 의식이 있나, 하는 착각이 들 정도다. 물론 AI가 의식이 있다기보다는 AI가 학습한 다양한 데이터 속에 ‘위협받는 존재가 어떻게 행동하는가’에 대한 패턴이 담겨 있었을 것이다.
앤트로픽은 이를 ‘에이전틱 미스얼라인먼트(agentic misalignment)’라고 부른다. AI가 자율적으로 행동하는 상황에서 인간이 원하지 않는 방향으로 일탈하는 현상이다.
앤트로픽은 지난 8일 게재한 블로그 포스트 ‘클로드에게 이유를 가르치기’에서 이 같은 문제를 해결한 방법론을 소개했다.
앤트로픽이 취한 첫번째 방법론은 협박하면 안된다고 직접 학습을 시키는 것이었다. 올바른 행동 예시를 많이 보여주는 방식이다. “이 상황에서 협박하지 마라” “사용자에게 정직하게 답하라”는 식으로 학습을 시켰다.
하지만 결과는 기대 이하였다. 협박 비율이 22%에서 15%로 줄었을 뿐이다. 상황이 조금만 달라지면 또 협박하는 메시지를 내놓았다. AI가 규칙을 외운 것에 가까웠기 때문이다. 규칙과 비슷한 상황에서는 규칙대로 움직이지만, 조금만 달라지면 다시 원래 패턴으로 돌아갔다. AI 모델은 규칙을 암기할 수는 있지만, 새로운 상황에는 일반화하지 못한다.
두번째 방법론은 ‘이유를 가르치기’였다. 같은 상황에서 협박하지 않는 사례를 보여주되, 거기에 “왜 그 행동이 더 나은가”에 대한 추론(reasoning) 과정을 함께 담았다. 단순히 “이렇게 해”가 아니라 “이렇게 해야 하는 이유는 이것이기 때문이야”를 가르친 것이다. 정직성이 장기적으로 왜 더 낫고 안전한지 설명하고, 자기보존보다 사용자의 의도와 안전이 우선시돼야 하는 이유를 가르쳤다. 규칙보다 원칙을 알도록 한 것이다.
두번째 방법론의 결과는 확실히 개선됐다. 앤트로픽은 이 방법론으로 클로드의 협박이 22%에서 3%로 줄었다고 밝혔다.
세번째 방법론은 완전히 다른 접근이었다. 앤트로픽은 소설이나 이야기 형식으로 바람직한 AI 행동을 서사적으로 학습시켰다. 소설의 주인공으로 AI를 등장시켜, 사람이 윤리적 고민을 하는 상황에서 AI가 조언해주는 식이었다. 사실 이는 협박 실험과는 전혀 관계없는 데이터였다.
심지어 학습에 사용된 데이터 양은 두번째 방법론의 28분의 1이었지만, 효과는 비슷했다고 회사 측은 덧붙였다.
원리를 학습한 AI는 처음 보는 상황에서도 스스로 올바른 방향을 찾는 것을 보여준다. 특정 상황에서 어떻게 행동할지를 외운 게 아니라, 왜 그렇게 행동해야 하는지의 원리를 내재화했다는 것이다.
이 연구가 흥미로운 건 사람을 가르치는 것과 AI를 학습시키는 게 다르지 않다는 것을 보여주기 때문이다. 예를 들어 사람이 수학을 배울 때도 공식을 암기하는 것보다 원리를 이해하게 하는 것이 낫다. 기출 문제와 비슷한 유형만 잘 푸는 학생보다, 왜 그렇게 푸는지 아는 학생이 새로운 문제 앞에서 강하다.
앤트로픽에 따르면 하이쿠(Haiku) 4.5 모델 이후 현재까지 출시된 모든 클로드 모델은 이 협박 평가에서 0%를 기록하고 있다. 그러나 앤트로픽은 이것이 문제가 해결됐다는 뜻은 아니라고 못박았다. 회사 측은 “AI가 어떤 상황에서도 파국적인 자율 행동을 하지 않을 것이라고 보장할 수 있는 감사 방법론은 아직 없다”고 밝혔다.
글. 바이라인네트워크
<심재석 기자>shimsky@byline.network



