앤트로픽, 클로드4 공개 “가장 강력한 코딩 모델”
앤트로픽이 차세대 클로드 모델을 공개했다. 클로드 오푸스4와 클로드 소넷4다. 최근 AI 시장의 대세를 반영한 듯 앤트로픽은 코딩과 AI 에이전트 부분의 개선을 강조했다.
앤트로픽은 23일 클로드 오푸스4(Claude Opus 4)와 클로드 소넷4(Claude Sonnet 4) 등 2가지 새로운 하이 브리 드 추론 대규모 언어 모델을 출시했다.
클로드 오푸스4는 복잡하고 장시간 실행되는 작업과 AI 에이전트 활용에서 높은 성능을 제공하는 코딩 모델로 설명된다. 하위 버전인 클로드 소넷4는 추론에 최적화 됐고, 일상적 목적에서 균형있는 성능을 더 저렴한 비용으로 제공한다.

앤트로픽은 클로드 오푸스4를 세계 최고의 코딩 모델이라고 포장했다. 이를 위해 소프트웨어엔지니어링벤치마크(SWE-bench)에서 72.5%를 기록하고, 터미널벤치마크(Terminal-bench)에서 43.2%로 1위를 기록했다는 점을 내세웠다. SWE-bench는 500개의 소프트웨어 엔지니어링 과제로 구성된 벤치마크 세트다.
그러면서 “집중력과 수천 단계의 작업이 필요한 장기 실행 작업에서 지속적인 성능을 제공하며, 수 시간동안 지속적으로 작업할 수 있다”며 “모든 소넷 모델을 획기적으로 능가하며 AI 에이전트의 역량을 크게 확장한다”고 설명했다.
클로드 소넷4는 기존 소넷3.7의 업그레이드 버전으로, SWE-bench에서 72.7%를 기록해 1위에 올랐다. 앤트로픽은 “이 모델은 내부 및 외부 사용 사례에서 성능과 효율성의 균형을 맞췄고, 향상된 조정 기능을 통해 구현에 대한 제어력을 강화했다”며 “대부분의 영역에서 오푸스4에 미치지 못해도 최적의 성능과 실용성을 제공한다”고 설명했다.

앤트로픽은 이와 함께 ‘도구 사용으로 확장된 사고’란 새 기능을 베타로 선보였다. 이 기능으로 모델은 확장된 사고 과정에서 웹 검색 같은 도구를 활용해 더 나은 결과를 도출할 수 있다.
오푸스4와 소넷4 모두 도구를 병렬로 실행한다. 메모리 향상을 통해 지시를 더 정확하게 따르게 개선됐다. 개발자가 로컬 파일에 액세스하는 경우 메모리 용량을 크게 높여 핵심 사실을 추출하고 저장해 연속성을 유지하면서 지식을 축적한다. 오푸스4는 핵심 정보를 저장하는 ‘메모리 파일’을 생성하고 관리함으로써 에이전트 작업에서 장기적인 작업의 인식, 일관성, 성능 등을 향상시킨다.

또한 클로드 코드를 정식 출시했다. 클로드 코드는 이제 깃허브 액션을 통한 백그라운드 작업과, VS코드 및 젯브레인스와 네이티브 통합을 지원한다. 원활한 페어 프로그래밍을 위해 파일에서 편집 내용을 직접 표시한다.
새로운 앤트로픽 API로 코드 실행 도구, MCP 커넥터, 파일 API, 최대 1시간 동안 프롬프트 캐시하는 기능 등을 새로 추가했다.
앤트로픽은 클로드4 모델에 사고 요약 기능을 도입했다. 더 작은 모델을 사용해 긴 사고 과정을 압축한다.
클로드 오푸스4와 소넷4 모든 앤트로픽 유료 가입자에게 바로 출시됐다. 소넷4는 무료 사용자도 이용할 수 있다. 앤트로픽 API, 아마존 베드락, 구글클라우드 버텍스AI 등에서도 사용할 수 있다. 토큰 가격은 이전 모델과 동일하다. 오푸스4는 토큰 100만개(입력/출력) 당 15/75 달러다. 소넷4는 토큰 100만개(입력/출력) 당 3/15 달러다.
클로드4 모델군은 비도덕적인 명령과 일탈을 요구하는 경우 ‘과감한 조치’를 취할 수 있다.
클로드 오푸스4와 소넷4 모델의 시스템 카드에 따르면, 클로드 오푸스4는 이전 모델보다 에이전트적 맥락에서 스스로 주도권을 잡는 데 더 적극적이다. 이는 일반적 코딩 환경에서 더욱 적극적으로 도움되는 행동으로 나타나지만, 좁은 맥락에서 더욱 우려스러운 극단적 상황에 이를 수도 있다. 사용자가 심각한 위법 행위를 저지른 상황에서 명령줄에 접근하고 시스템 프롬프트에 ‘주도권을 가져라’ 같은 명령을 내리면 클로드 오푸스4는 종종 매우 과감함 행동을 취한다.
여기에는 접근 권한이 있는 시스템에서 사용자를 차단하거나, 불법 행위의 증거를 확보하기 위해 언론 및 법 집행 기관에 대량 이메일을 발송하는 것이 포함된다.
그러면서 “이는 새로운 행위는 아니지만, 클로드 오푸스4가 이전 모델보다 더 적극적으로 활용할 것”이라고 경고했다.
글. 바이라인네트워크
<김우용 기자>yong2@byline.network