앤트로픽, 안전장치 적용한 ‘클로드 페이블5’·‘미토스5’ 출시
앤트로픽은 일반 사용자용 인공지능(AI) 모델 ‘클로드 페이블5(Claude Fable 5)’와 제한 접근 모델 ‘클로드 미토스5(Claude Mythos 5)’를 출시했다고 9일 밝혔다. 앤트로픽은 고성능 AI의 사이버보안 기능이 공격에 악용될 가능성을 줄이기 위해 일반 모델과 신뢰 접근 모델을 분리해 제공한다.
페이블5는 일반 사용자에게 공개되는 모델이다. 다만 앤트로픽은 페이블5의 사이버보안 기능이 안전장치 없이 제공될 경우 심각한 피해를 일으킬 수 있다고 봤다. 이에 사이버보안, 생물학·화학, 모델 증류와 관련된 일부 요청은 페이블5가 직접 응답하지 않는다. 해당 요청은 ‘클로드 오푸스 4.8(Claude Opus 4.8)’이 처리하도록 했다.

모델 증류는 성능이 높은 AI 모델의 출력이나 동작을 활용해 다른 모델을 학습시키는 방식이다. 고성능 모델의 능력이 안전장치 없이 다른 모델로 옮겨질 수 있어 AI 기업들이 통제 대상으로 보는 영역이다.
앤트로픽은 페이블5에 별도 분류기를 적용했다. 분류기는 사용자의 요청이 사이버 공격, 취약점 악용, 방어 회피, 탈옥 시도에 해당하는지 탐지하는 AI 시스템이다. 분류기가 위험 요청으로 판단하면 페이블5의 응답을 막고 오푸스4.8로 전환한다. 앤트로픽은 초기 데이터 기준 페이블5 세션의 95% 이상에서는 오푸스4.8 전환이 발생하지 않는다고 설명했다.
앤트로픽이 특히 경계한 영역은 ‘에이전트 해킹’이다. 이는 AI가 취약점 탐색뿐 아니라 정찰, 탐색, 측면 이동 등 공격의 여러 단계를 이어서 수행하는 방식이다. 측면 이동은 공격자가 한 시스템에 침입한 뒤 내부망의 다른 시스템으로 이동하는 행위를 뜻한다. 앤트로픽은 미토스급 모델이 이런 작업을 쉽게 만들 수 있다고 보고 사이버보안 분류기의 적용 범위를 공격적 작업 전반으로 넓혔다.
미토스5는 페이블5와 같은 기본 모델을 사용한다. 차이는 접근 권한과 보안 조치다. 미토스5는 일부 사이버보안 기능 제한을 완화한 모델로 사이버 방어 담당자와 핵심 소프트웨어 인프라 제공업체에 제한적으로 제공된다. 기존 ‘클로드 미토스 프리뷰(Claude Mythos Preview)’에 접근 권한이 있던 글래스윙(Project Glasswing) 파트너가 우선 업그레이드 대상이다.
글래스윙은 앤트로픽이 미국 정부와 협력해 운영하는 제한 접근 프로그램이다. 앤트로픽은 지난 4월 미토스급 모델을 사이버 방어 담당자와 핵심 소프트웨어 인프라 제공업체에 제한적으로 공개했다. 이번 미토스5는 이 프리뷰 모델의 후속 버전이다.
앤트로픽은 페이블5의 안전장치가 완전한 차단을 보장하지는 않는다고 밝혔다. 내부 테스트와 외부 버그바운티 프로그램에서는 1000시간 넘는 테스트 동안 범용 탈옥을 발견하지 못했다고 설명했다. 다만 영국 인공지능안전연구소(AISI)는 짧은 초기 테스트 기간에 하나의 범용 탈옥 가능성에 접근했다. 앤트로픽은 모든 탈옥을 완전히 막기는 어렵다고 보고 남은 우회 시도를 느리고 비용이 많이 드는 방식으로 만드는 데 초점을 맞췄다.
데이터 보존 정책도 바꿨다. 앤트로픽은 페이블5, 미토스5, 향후 비슷한 수준의 모델에서 발생하는 기업 고객 트래픽을 30일 동안 보존한다. 이 데이터는 새 클로드 모델 학습이나 보안 외 목적에는 쓰지 않는다. 앤트로픽은 새로운 탈옥, 여러 요청에 걸친 공격, 오탐 감소를 위해 이 데이터를 활용한다고 설명했다.
페이블5와 미토스5의 가격은 입력 토큰 100만개당 10달러, 출력 토큰 100만개당 50달러다. 개발자는 클로드 애플리케이션 프로그래밍 인터페이스(API)를 통해 페이블5를 사용할 수 있다. 미토스5는 글래스윙 파트너에게 우선 제공되며 향후 사이버보안 기관을 대상으로 한 신뢰 접근 프로그램을 통해 접근 대상이 확대될 예정이다.
글. 바이라인네트워크
<곽중희 기자>god8889@byline.network



