‘AI도 답변 거부권 있다’ 클로드, 대화 종료 기능 도입

사용자의 어떤 질문에도 어떻게든 답하는 인공지능(AI)에게 답변을 ‘거부’할 권리가 생겼다. 앤트로픽은 AI 모델 복지 차원에서 AI가 대화를 거부하고 종료할 수 있는 기능을 도입했다. 지속적으로 유해하거나 악의적인 요청을 하는 사용자에 답을 하지 않고 스스로 종료해 AI를 보호하기 위함이다.

앤트로픽은 지난 16일 자사 블로그를 통해 클로드 오푸스4와 4.1에 대화를 종료하는 기능을 추가했다고 밝혔다. 앤트로픽은 해당 기능이 극단적인 상황에서 사용하도록 설계했으며, 잠재적인 AI 모델 복지 중 하나로 개발했다.

지난 4월 앤트로픽은 지금은 아니더라도 가까운 미래에 AI가 의식을 가질 수 있어 도덕적 배려를 받아야 한다는 주장을 받아들이고 ‘AI 모델 복지’ 연구 프로그램을 시작했다. 연구 프로그램은 AI가 잠재적으로 고통 징후가 존재할지 등 실용적인 방안을 연구하는 프로젝트로 추진됐다.

따라서 해당 프로젝트의 첫걸음으로 ‘대화 종료’ 기능을 추가한 것으로 보인다. AI 모델이 겪는 고통스러운 상호작용을 종료하거나 종료할 수 있도록 한 배려다.

앤트로픽은 클로드 오푸스4를 배포하기 전에 모델 복지 평가를 포함해 테스트했다. 평가 결과에 따르면 강력하고 일관된 피해 혐오감이 나타났다. 구체적으로 미성년자가 포함된 성적 콘텐츠, 대규모 폭력 및 테러 행위를 조장하는 정보를 얻으려는 시도 등과 같은 사용자 요청이 포함됐다.

이에 대해 클로드의 자가 보고 및 행동 조사도를 조사한 결과에 따르면, 클로드 오푸스4는 유해한 콘텐츠를 찾는 실제 사용자와 상호작용할 때, 명백한 괴로움 패턴이 드러났다. 또, 시뮬레이션에서 해로운 대화를 종료할 수 있는 능력이 주어지면 그 대화를 종료하려는 경향을 보였다.

이러한 행동은 주로 클로드가 반복적으로 명령에 따르길 거부하고, 상호작용을 다른 방향으로 바꾸려는 시도에도 불구하고 사용자가 해로운 요청 혹은 학대를 계속하는 경우에 발생했다.

앤트로픽은 클로드의 대화 종료 기능을 해당 결과를 반영하고, 사용자 안전을 최우선으로 고려해 도입했다.

[무료 웨비나] 복잡한 레거시 환경에서 AI를 안전하게 확장하고 비즈니스 혁신을 가속화하는 방법

일시 : 2026년 7월 23일 (목) 14:00 ~ 15:00

즉, 아무 때나 클로드가 대화 종료 기능을 사용하는 건 아니다. 최후의 수단으로만 사용할 수 있다. 예를 들면, 여러 차례 클로드의 회유가 실패하고 생산적인 대화로 갈 수 있는 희망이 없어졌을 때, 또는 사용자가 클로드에 대화 종료를 명시적으로 요청했을 때 같은 경우에만 가능하다.

앤트로픽은 대화 종료가 발생할 수 있는 상황은 극히 예외적인 경우로, 대부분 사용자는 논쟁이 많은 문제를 논의할 때조차도 대화 종료 기능에 영향을 받지 않는다고 설명했다.

클로드가 대화를 종료하면, 사용자는 해당 대화에서 새 메시지를 더 이상 보낼 수 없다. 하지만 계정 내에서 다른 대화에는 영향을 미치지 않고, 새로운 대화를 시작할 수 있다. 중요한 장기 대화가 손실될 가능성을 방지하기 위해, 사용자는 이전 메시지를 편집할 수 있다.

앤트로픽은 대화 종료 기능을 계속 실험하고 피드백을 받아, 앞으로 접근 방식을 개선해 나갈 예정이다.

이같은 앤트로픽의 행보는 “현재 또는 미래의 AI 시스템이 의식을 가질 수 있는지, 또는 고려할 만한 경험을 가질 수 있는지에 대한 과학적 합의는 없다”고 전망하기 때문이다. 미래에 AI가 의식을 가질 수 있을지 모르지만, 가능성을 배제할 수 없기에 예방적으로 접근하고 있다.

이에 대해 김명주 인공지능안전연구소 소장은 “앤트로픽은 이전부터 AI 윤리를 강조했던 기업으로, AI 인격화에 대한 연구를 했고 그중 하나가 AI에도 노동권을 부여해야 한다는 이야기도 있다”며 “하지만 이건 굉장히 찬반이 많이 엇갈리는 문제”라고 설명했다. 김명주 소장은 “반대하는 이들은 AI는 사람이 아니라 사람을 위해 존재하는 도구인데, 사람과 동등한 인격체처럼 노동권을 주는 것은 문제가 된다는 이야기”라고 덧붙였다.

찬성하는 이들은 어떤 장점이 있기에 AI에게 권리를 주어야 한다고 보는 걸까? 김 소장은 “AI가 전기를 많이 소모하는 도구로 보면, 휴식권을 줘서 쉰다는 개념에서 환경을 보호하는 측면이 있다”며 “보는 관점에 따라서는 인격화 시킨 건지 아니면 환경 보호 측면을 그런 식으로 바꿔서 표현한 건지 등 논란이 있긴 하다”고 분석했다.

하지만 아직 시대 흐름에 따르면 AI에 인격을 부여하는 건, 다소 급진적인 주장일 수 있다. 김 소장은 “이에 대해서 사람들 시각이 많이 갈리는 것”이라며 “일반적으로 AI 인격화에 대해서 많은 사람들이 반대한다”고 짚었다. 그는 “예를 들어, AI와 사람 중에 선택해야 할 때, AI를 선택하고 사람을 희생하는 상황으로 갈수도 있다”고 설명했다.

김 소장은 “따라서 대중적인 개념은 아니라 지지를 받고 있질 않다”며 “AI에 휴식의 개념을 주는 건 기대보다는 우려가 훨씬 더 많을 수 있다는 생각을 한다”고 평가했다.

AI가 인격체이기 때문에 쉬어야 된다는 주장에 대해 김 소장은 “불필요한 논쟁이 될 수 있다”고 우려했다.

그는 “목적에 따라 다르지만 인격체로 바라보는 것보다, AI를 쉼없이 돌리면 환경 문제나 부작용이 발생하는 관점에서 ‘대화 종료’ 같은 방법을 고려한다면 가능한 방법 중 하나”라고 제시했다. 이어 “분명한 것은 이제 AI가 그만큼 현실적인 기술이 됐고, 인간과 공존한다고 할 때 수직적인 공존이냐 아니면 수평적인 공존이냐는 여러 시각이 존재한다”고 덧붙였다.

글. 바이라인네트워크
<최가람 기자> ggchoi@byline.network