중국, 취약점 탐지서 미국 추격…AI 사이버 보안 경쟁 확대

중국이 인공지능(AI) 기반 소프트웨어 취약점 탐지 분야에서 미국을 추격하고 있다. 중국 기업 즈푸AI가 최근 공개한 AI 모델 ‘GLM-5.2’는 미국 사이버보안 기업 셈그렙의 특정 취약점 탐지 평가에서 앤트로픽 모델을 탑재한 코딩 에이전트 ‘클로드 코드’를 앞섰다.

월스트리트저널(WSJ)은 이번 평가 등을 근거로 중국 AI 시스템이 일부 사이버보안 작업에서 미국 첨단 모델과의 격차를 좁히고 있다고 보도했다.

GLM-5.2, 특정 취약점 평가서 클로드 앞서

미국 사이버보안 기업 셈그렙은 지난 22일 공개한 평가에서 즈푸AI가 공개한 GLM-5.2가 ‘안전하지 않은 직접 객체 참조(IDOR)’ 취약점 탐지에서 39%의 F1 점수를 기록했다고 밝혔다. F1 점수는 취약점을 얼마나 정확하게 찾았는지와 실제 취약점 가운데 얼마나 많이 찾아냈는지를 함께 나타내는 지표다. IDOR은 사용자 권한 확인이 부족해 다른 사람의 데이터나 자원에 접근할 수 있는 취약점을 뜻한다.

셈그렙은 GLM-5.2가 같은 평가에서 앤트로픽 모델을 사용하는 코드 개발 도구 ‘클로드 코드(Claude Code)’를 앞섰다고 설명했다. 별도의 취약점 분석 구조를 적용한 셈그렙 자체 멀티모달 파이프라인의 점수는 53~61%로 GLM-5.2보다 높았다.

다만 셈그렙은 이번 결과가 모델의 전반적인 사이버보안 성능을 의미하지는 않는다고 선을 그었다. 하나의 취약점 유형과 데이터 세트로 한 차례 진행한 평가이며 모델의 순수 성능을 같은 조건에서 비교한 시험도 아니라고 설명했다.

셈그렙은 “이번 결과의 의미는 오픈웨이트 모델 전체가 최상위 폐쇄형 모델을 따라잡았다는 것이 아니다”며 “GLM-5.2라는 한 모델이 특정 작업과 조건에서 최상위 에이전트를 앞섰다는 것”이라고 밝혔다.

즈푸AI는 지난 16일 GLM-5.2의 모델 가중치를 공개했다. 가중치는 AI가 학습 과정에서 익힌 정보를 수치로 저장한 값이다. 이용자는 오픈웨이트 모델을 내려받아 자체 장비에서 실행하거나 목적에 맞게 수정할 수 있다. 오픈웨이트는 모델 가중치를 공개한다는 뜻이다. 가중치뿐 아니라 모델을 연구·수정·재현하는 데 필요한 코드와 학습 관련 정보까지 공개하는 오픈소스 AI와는 구분된다.

리오르 디브 세븐AI(7AI) 최고경영자(CEO)는 WSJ에 “중국은 시간이 지날수록 격차가 더 작아지도록 만들고 있다”고 말했다.

360시큐리티, 중국판 미토스 주장

중국 사이버보안 기업 360시큐리티테크놀로지(360 Security Technology)는 지난 24일 베이징에서 열린 ‘ISC.AI 2026’에서 취약점 탐지 도구 ‘투룽펑(Tulongfeng)’을 공개했다.

저우훙이 360시큐리티테크놀로지 창업자는 투룽펑을 ‘중국판 미토스’라고 소개했다. 회사는 보안 모델과 취약점 데이터베이스, 자동화 도구를 결합해 미토스와 비슷한 취약점 탐지 능력을 구현했다고 주장했다.

360시큐리티테크놀로지는 투룽펑이 소프트웨어 취약점 3432개를 찾았으며 이 가운데 105개를 중국 당국이 확인했다고 밝혔다. 다만 로이터는 해당 수치를 독립적으로 확인하지 못했다고 전했다.

저우 창업자는 “사이버 공방의 판도를 바꿀 수 있는 강력한 무기를 다른 나라만 보유하게 둘 수는 없다”고 말했다. 그는 미국 기관이 미토스와 같은 모델로 중국의 소프트웨어와 주요 시스템을 분석할 수 있는 반면, 중국 기업이 같은 수준의 기술을 이용하지 못할 경우 ‘일방적 투명성’이 발생할 수 있다고 우려했다.

다만 그는 중국산 모델의 기초 역량이 미국 모델보다 20~30% 뒤처져 있다는 점은 인정했다. 이를 보완하기 위해 단일 모델보다는 보안 전문성·취약점 데이터베이스·자동화 도구를 결합한 ‘에이전트 방식’을 택했다고 설명했다.

오픈AI, 취약점 연구 강화한 GPT-5.6 솔 공개

오픈AI는 지난 26일 GPT-5.6 제품군의 제한 공개를 시작했다. 제품군은 최상위 모델 ‘솔(Sol)’과 중간급 모델 ‘테라(Terra)’, 속도와 비용을 중시한 ‘루나(Luna)’로 구성된다.

오픈AI는 GPT-5.6 솔이 자사가 개발한 모델 가운데 사이버보안 작업 수행 능력이 가장 뛰어나다고 밝혔다. 취약점 연구와 취약점 악용 가능성 분석처럼 여러 단계로 장시간 진행되는 보안 작업의 성능을 강화했다.

오픈AI 자체 평가에 따르면, GPT-5.6 솔은 취약점 연구·악용 능력을 측정하는 ‘익스플로잇벤치(ExploitBench)’에서 앤트로픽의 ‘미토스 프리뷰(Mythos Preview)’와 경쟁할 만한 성능을 보였다. 이 과정에서 사용한 출력 토큰은 미토스 프리뷰의 약 3분의 1이었다.

오픈AI는 GPT-5.6 솔이 공격 전 과정을 수행하는 것보다 취약점을 찾아 수정하는 작업에서 더 높은 성능을 보였다고 설명했다. 크로미엄(Chromium)과 파이어폭스(Firefox)를 대상으로 한 평가에서는 보안 결함과 공격 코드 구성 요소를 발견했다. 하지만 이번 평가 조건에서는 여러 취약점과 공격 단계를 연결한 작동 가능한 전체 공격 체인을 자율적으로 완성하지 못했다.

오픈AI는 GPT-5.6 솔이 자사의 준비태세 프레임워크에서 정한 ‘사이버 중대(Cyber Critical)’ 기준에는 도달하지 않았다고 밝혔다.

오픈AI는 미국 정부의 요청에 따라 GPT-5.6 제품군을 소수의 신뢰할 수 있는 파트너와 기관에 먼저 제공한다. 참여 기관 정보도 미국 정부와 공유했다.

GPT-5.6 제품군은 애플리케이션 프로그래밍 인터페이스(API)와 코드 개발 도구 코덱스(Codex)를 통해 제한적으로 제공된다. 오픈AI는 향후 수주 안에 챗GPT와 코덱스, API 이용자로 공개 범위를 확대할 계획이다.

오픈AI는 정부가 모델 접근 대상을 심사하는 방식이 장기적인 기본 절차가 돼서는 안 된다고 밝혔다. 개발자와 기업, 사이버 방어 조직, 해외 협력기관의 첨단 모델 이용을 막을 수 있다는 이유다.

GPT-5.6 제품군에는 실시간 오용 탐지와 계정 단위 검토, 이용자별 접근 제한 등 여러 단계의 안전장치가 적용됐다. 위험 가능성이 높은 요청을 발견하면 답변 생성을 멈추고 별도의 추론 모델이 대화 내용과 이용자의 요청 의도를 다시 심사한다. 오픈AI는 안전장치 우회 가능성을 점검하는 자동 레드팀 시험에 A100급 그래픽처리장치(GPU) 기준 70만시간이 넘는 연산 자원을 투입했다고 밝혔다.

앤트로픽, 주요 모델 외국인 접근 중단 뒤 일부 재개

미국 정부는 이달 앤트로픽의 첨단 모델 접근을 통제했다. 앤트로픽은 지난 9일 범용 모델 ‘페이블5(Fable 5)’와 사이버보안 모델 ‘미토스5(Mythos 5)’를 공개했다. 사흘 뒤인 12일 미국 정부는 국가안보를 이유로 미국 안팎의 모든 외국 국적자가 페이블5와 미토스5에 접근하지 못하도록 하는 수출통제 명령을 앤트로픽에 전달했다. 미국에 근무하는 외국 국적의 앤트로픽 직원도 제한 대상에 포함됐다. 앤트로픽은 외국인 이용을 모두 차단하라는 명령을 따르기 위해 페이블5와 미토스5의 전체 이용을 중단했다.

이후 미국 정부는 지난 26일 제한을 일부 풀었다. WSJ에 따르면, 미국 정부는 신뢰할 수 있는 수십개 기업과 정부 협력기관이 미토스5를 다시 이용할 수 있도록 허용했다. 다만 페이블5의 일반 이용은 아직 재개되지 않았다. WSJ은 앤트로픽이 미토스5의 이용 대상을 확대하고 페이블5를 다시 일반에 제공하기 위해 미국 정부와 협의를 이어가고 있다고 전했다.

글. 바이라인네트워크
<곽중희 기자>god8889@byline.network