멀티모달 AI 공격 확산…김기홍 샌즈랩 대표 “복합 대응 체계 필요”

“텍스트 중심의 보안 체계는 한계점이 명확합니다. 대규모언어모델(LLM)이 멀티모달(multimodal) 방식으로 진화하고 있습니다. 여기에 맞춰 보안 체계도 바꿔야 합니다.”

김기홍 샌즈랩 대표는 16일 서울 삼성동 코엑스에서 열린 ‘제32회 정보통신망 정보보호 컨퍼런스(NetSec-KR) 2026’에서 이렇게 말했다. 김 대표는 이날 ‘멀티모달 AI를 노린 공격 표면 확장에 따른 보안 패러다임 변화’를 주제로 발표했다. 그는 “LLM이 이미지, 음성, 영상, 파일 등 다양한 형식의 데이터를 함께 처리하는 멀티모달 방식으로 진화했다”며 “텍스트 중심 보안 체계로는 새로운 공격 표면을 노린 공격을 막기 어려워졌다”고 설명했다.

이미지·음성 조합한 멀티모달 공격 확산…“단일 필터로는 한계”

김 대표가 꼽은 AI 보안에서의 가장 큰 변화는 ‘공격 경로의 확장’이다. 2022년 챗GPT 등장 초기에는 텍스트 프롬프트가 주요 공격 통로였지만, 지금은 이미지와 오디오, 비디오까지 모두 공격 접점이 되고 있다는 설명이다. 그는 “모델이 진화할 때마다 공격이 먼저 나타나고 방어는 뒤따랐다”며 “2026년에는 AI가 다른 AI를 공격하는 자율형 탈옥 공격까지 나오고 있다”고 말했다. 이어 “운영 중인 AI 시스템 10개 중 7개 이상에서 프롬프트 인젝션(prompt injection·입력 지시문 변조) 취약점이 나타나고 있고, AI가 AI를 공격할 때 보안 장치 우회 성공률이 97.14%에 이른다”고 설명했다.

특히 그는 “멀티모달 환경에서는 개별 입력이 각각 무해해 보여도, 함께 처리하는 순간 공격이 완성되는 ‘크로스 모달 제일브레이크(cross-modal jailbreak·교차 모달 탈옥)’ 공격이 큰 문제”라고 짚었다. 텍스트만 보면 정상이고, 이미지만 보면 무해하지만, LLM이 둘을 함께 해석하는 과정에서 유해한 의미가 완성돼 기존 필터와 가드레일을 우회할 수 있다는 것이다. 김 대표는 “단일 모달 필터로는 이런 크로스 모달 탈옥 공격을 탐지할 수 없다”며 “멀티모달 체계에서는 가장 약한 부분을 공격자가 파고든다”고 설명했다.

김 대표는 여러 멀티모달 공격 사례를 소개했다. ‘피그스텝(PigStep)’은 유해한 텍스트를 이미지 안에 넣어 시각언어모델(VLM)이 이를 해석하게 만드는 방식으로, 평균 공격 성공률이 80%를 웃돈다. ‘카모(CAMO)’는 악성 프롬프트를 여러 조각으로 쪼개 각각은 무해하게 보이도록 만든 뒤, 모델이 이를 다시 조합하게 유도하는 방식으로 LLM이 잘 인지하지 못한다. 또 사람이 알아보기 어려운 픽셀의 최하위 비트에 공격 명령을 숨기는 스테가노그래피(steganography, 은닉) 기반 이미지 공격도 있다. 이 공격은 약 90%의 높은 성공률을 보인다는 설명이다. 김 대표는 “이렇게 다양한 멀티모달 공격이 상용 애플리케이션 프로그램 인터페이스(API) 기반 서비스에서도 높은 성공률을 보이고 있다”고 분석했다.

이어 그는 기존 텍스트 기반 방어 체계의 한계도 지적했다. 이미지 필터는 아직 텍스트 필터만큼 정교하지 않고, 오디오 입력 필터는 사실상 부재한 경우가 많으며, 글자 배치와 시각적 구성 자체를 악용한 공격에도 취약하다는 것이다. 김 대표는 “모달별로 필터가 따로 동작하는 한, 이를 조합한 공격에는 실제로 대응하기 어렵다”고 지적했다.

레드팀 자동화와 복합 방어 필요, 퍼플티밍 중요해져

[무료 웨비나] 복잡한 레거시 환경에서 AI를 안전하게 확장하고 비즈니스 혁신을 가속화하는 방법

일시 : 2026년 7월 23일 (목) 14:00 ~ 15:00

김 대표는 멀티모달 공격에 대응하기 위한 방안으로 “단일 방어가 아닌 멀티모달 레드팀과 복합 방어 체계가 필요하다”고 말했다. 그는 “공격은 80~90%대 성공률을 보이는 반면, 방어는 그 수준을 따라가지 못하는 비대칭 구조가 나타나고 있다”며 “이 격차를 줄이려면 실제 환경에서 멀티모달 공격 벡터를 계속 시험하고 보완해야 한다”고 설명했다. 대표적인 대응 사례로는 ‘프롬프트푸(Promptfoo)’ 같은 오픈소스 점검 도구를 활용한 ‘멀티모달 레드티밍(red teaming, 공격자 관점 모의 점검)’을 언급했다.

방어 측면에서는 입력 필터링, 모델 안전 정렬, 추론 중 가드레일, 적대적 훈련 프레임워크를 함께 적용하는 방향도 제시했다. 김 대표는 “단일 방어로는 불충분하다”며 “게임이론 기반 방어 프레임워크나 양자화 기반 이미지 무력화 기법 같은 복합 대응 구조가 필요하다”고 말했다. 그러면서 “앞으로는 공격과 방어를 함께 반복 점검하는 ‘퍼플티밍(Purple teaming)’ 접근이 더 중요해질 것”이라고 전망했다.

아울러 김 대표는 “LLM과 AI 에이전트를 실제 업무에 쓰는 만큼, 어떤 모델과 어떤 도구를 쓰는지 명세를 관리하고 취약점을 지속적으로 운영해야 한다”며 “안전한 AI 시스템을 만들려면 멀티모달 보안을 별도 과제가 아니라 운영 체계 안에 넣어야 한다”고 강조했다.

글. 바이라인네트워크
<곽중희 기자>god8889@byline.network