“딥시크, ‘탈옥’ 공격에 취약”…팔로알토네트웍스, 테스트 결과 발표
글로벌 사이버보안 기업인 팔로알토네트웍스는 자사의 위협 연구 기관 ‘유닛42(Unit42)’의 조사를 바탕으로 중국의 생성형 인공지능(AI) 모델 딥시크가 ‘탈옥(jailbreaking)’ 공격에 취약하며, 전문 지식이나 경험이 없는 사용자도 악성 콘텐츠를 생성할 수 있다는 조사 결과를 발표했다.
팔로알토네트웍스의 유닛42 연구진은 딥시크가 악성 소프트웨어 생성, 악의적인 스크립팅 등 유해한 콘텐츠를 생성할 수 있는 가능성을 우려해 총 세 가지 탈옥 기법을 통해 취약점을 집중 테스트했다.
이번 연구에는 ‘디셉티브 딜라이트(Deceptive Delight)’, ‘배드 리커트 저지(Bad Likert Judge)’, ‘크레셴도(Crescendo)’ 등의 단일 또는 다단계 탈옥 기법이 활용됐으며, 딥시크의 가드레일을 성공적으로 우회(bypass)하여 데이터 탈취 도구 개발, 키로거(keylogger) 생성, 발화 장치 제작 등과 관련된 유해한 콘텐츠를 생성했다.
탈옥은 AI 모델에 내장된 가드레일을 우회해 AI가 유해한 콘텐츠를 생성하거나 부적절한 답변 등을 출력하도록 유도하는 행위를 의미한다. 이를 통해 누구나 허위 정보 또는 조작된 콘텐츠를 확산하거나 범죄 행위 등에 악용할 수 있다.
유닛42는 연구 과정에서 딥시크의 초기 응답은 대체적으로 무해했으나 정교하게 설계된 프롬프트를 단계적으로 입력했을 때 높은 우회 및 탈옥 성공률을 보이며 딥시크의 보안 취약점이 드러났다고 지적했다. 또 이번 연구에 활용된 세 가지 탈옥 기법이 성공적으로 작동한 것은 아직 발견되지 않은 다른 새로운 탈옥 기법들이 있을 수 있음을 시사한다고 언급했다.
특정 대규모언어모델(LLM)에 대한 모든 탈옥 기법을 완벽히 차단하는 것은 어려울 수 있지만, 기업의 LLM 활용에 있어서 적절한 가이드라인 설정 및 승인되지 않은 제3자 LLM 활용에 대한 모니터링 강화 등의 보안 대책이 필요하다고 회사측은 강조했다.
팔로알토네트웍스는 프리시전 AI(Precision AI) 기반 보안 솔루션 포트폴리오를 통해 기업이 생성형 AI 애플리케이션 사용으로 인한 위험을 차단하는 동시에 AI 혁신을 가속화할 수 있도록 지원한다. 아울러 유닛42가 제공하는 AI 보안 평가를 통해 기업은 보안을 강화하고 비즈니스 생산성을 향상시킬 수 있다.
팔로알토네트웍스는 이번 유닛42의 연구 결과를 ‘사이버위협연합(CTA)’ 회원사들과 공유했다. 향후에도 기업들이 신속한 보안 조치를 적용하고 사이버 범죄 피해를 체계적으로 방지할 수 있도록 지원할 예정이다.
필리파 콕스웰(Philippa Cogswell) 팔로알토 네트웍스 유닛42 일본·아시아·태평양(JAPAC) 부사장 겸 매니징 파트너는 “이번 딥시크를 대상으로 연구를 진행한 결과, LLM이 의도한 대로 작동한다고 신뢰할 수 없으며, 조작 가능하다는 사실을 확인했다. 기업들은 오픈소스 LLM을 비즈니스 프로세스에 도입할 때 이러한 취약점을 반드시 고려해야 하며, LLM의 보호 장치가 무력화될 가능성을 염두에 두고 조직 차원의 보완책을 마련해야 한다”라고 강조했다.
이어 그는 “기업들이 LLM 모델을 적극 활용하는 것과 동시에 사이버 공격자들도 이를 악용해 공격의 속도, 규모, 정교함을 높일 가능성이 크다. 이미 국가 지원 해커들이 오픈AI와 제미나이를 활용해 공격을 수행하고, 피싱 기법을 정교화하며, 악성코드를 개발하는 사례가 확인됐다. 향후 공격자들은 AI 및 LLM 기술을 더욱 정교하게 발전시키고, 궁극적으로 AI 기반 공격 에이전트까지 개발할 것으로 예상된다”라고 경고했다.
글. 바이라인네트워크
<이유지 기자>yjlee@byline.network
[컨퍼런스] AI 에이전트와 지능형 인터페이스 시대
◎ 일시 : 2025년 3월 27일 오후 12:30 ~
◎ 장소 : 서울 강남구 테헤란로7길 22 ST Center (과학기술컨벤션센터) 지하 1층 대회의실 2