앤트로픽, 에이전트 성능 강화한 ‘클로드 소넷 5’ 출시

앤트로픽이 향상된 성능과 가성비를 내세운 최신 인공지능(AI) 모델 ′클로드 소넷(Sonnet) 5’를 출시했다. 앤트로픽은 이번 모델을 소넷 시리즈 가운데 ‘가장 에이전틱한 모델’로 소개하며 브라우저나 터미널 등 도구 사용 능력을 강조했다.

1일 앤트로픽에 따르면, 클로드 소넷 5는 이날부터 모든 요금제(플랜)에서 사용할 수 있다. 무료와 프로 요금제에서는 기본 모델로 제공된다.

8월 31일까지는 입력 토큰 100만개당 2달러, 출력 토큰 100만개당 10달러의 할인 가격으로 모든 플랜에 제공된다. 이후에는 입력과 출력 토큰 100만개당 각각 3달러와 15달러로 인상된다.

앤트로픽은 소넷 5가 코딩, 에이전트 활용 등 업무 환경에서 더 저렴한 가격에 상위 모델인 오푸스급 지능(Near-Opus intelligence)을 제공한다고 설명했다. 소넷 시리즈는 앤트로픽 AI 모델 라인업에서 페이블, 오푸스 아래 위치해 있다.

벤치마크 성능은 이전 버전인 소넷 4.6 대비 명확히 개선됐다. SWE-bench Pro와 Terminal-Bench 2.1 에이전틱 코딩 점수가 각각 58.1%에서 63.2%로, 67%에서 80.4%로 향상됐다. 오푸스 4.8에 근접하나 살짝 못 미치는 수치다.

평가 도구인 BrowseComp와 OSWorld-Verified로 측정한 에이전트 검색, 컴퓨터 사용 지표에서도 오푸스 4.8과 비용 대비 성능 격차를 좁혔다. 앤트로픽이 공개한 결과에 따르면, 소넷 5는 정밀한 연산이 요구되는 작업 구간에서 오푸스 4.8과 엇비슷한 성능을 기록했다.

에이전트 검색에서 비용 대비 성능을 나타낸 그래프. 가로축은 작업 당 비용, 세로축은 작업 성공률이다. 점마다 표시된 low, med, high 등은 모델에 요구된 노력 수준이다. 오른쪽 위로 갈수록 모델이 더 많은 토큰을 쓰며 추론하기 때문에 성공률은 높아지지만 비용도 증가한다. 소넷 5(주황색 선)는 high 단계서부터 오푸스 4.8(노란색 선)과 엇비슷한 성능을 기록했다. (출처=앤트로픽)

이전 버전 대비 안전성도 개선됐다. 앤트로픽은 소넷 5 시스템 카드에서 에이전트 환경 내 프롬프트 인젝션(prompt injection)에 저항하는 능력이 소넷 4.6에 비해 비약적으로 향상됐다고 밝혔다. 환각(hallucination)과 아첨(sycophancy) 발생률도 더 낮았다. 다만 시스템 프롬프트 악용이나 프리필(Prefill)을 유도하는 탈옥 공격에 대해서는 미세한 방어력 저하가 관찰됐다고 기술했다.

오용 및 기만 행위 동조 등 비정상 행동 비율도 소넷 4.6보다 낮게 측정됐다. 오푸스 4.8이나 미토스 프리뷰에 비해서는 높았다.