‘프롬프트 인젝션·데이터 포이즈닝‘ AI 에이전트 보안 위협 부상
인공지능(AI) 에이전트의 보안 취약점이 사이버보안의 새로운 위협 요인으로 부상하고 있다.
대규모언어모델(LLM) 기반으로 스스로 업무를 수행하는 AI 에이전트는 단순 대화형 챗봇과 달리 외부 도구와 애플리케이션프로그래밍인터페이스(API)를 호출하며 연속적인 작업을 처리할 수 있다. 활용 범위가 넓어진 만큼, 입력부터 추론, 행동 단계까지의 연결된 조작에서 시스템 침해와 데이터 유출 등 다양한 보안 위협이 발생할 수 있다.
양종헌 에스투더블유(S2W) 오펜시브 리서치 팀 리더는 26일 JW 메리어트 호텔 서울에서 열린 ‘2025 국제 사이버범죄대응 심포지엄(ISCR 2025)’에서 “AI 에이전트는 새로운 공격면이 되고 있으며, 이미 다양한 방식으로 사이버 범죄까지 악용되고 있다”고 강조했다.
AI 에이전트는 크게 세 단계로 작동한다. 인지 단계에서는 사용자 입력이나 외부 맥락을 해석하고, 두뇌 단계에서는 추론과 계획을 세우며, 행동 단계에서는 외부 도구나 API를 불러 실제 작업을 실행한다. 문제는 AI 에이전트가 이 모든 과정에서 작업을 수행하면서 각각의 보안 취약점이 드러나고, 최근에는 실제로 공격으로 이어진 사례도 등장하고 있다는 점이다.
입력 단계, 프롬프트 인젝션과 탈옥
입력 단계는 AI 에이전트가 사용자의 지시를 해석하고 의도를 이해하는 첫 단계다. 이 단계에서 발생하는 대표적 위협은 ‘프롬프트 인젝션’이다. 공격자가 악의적인 지시를 입력에 심어두면, 에이전트는 본래 목표와 상관없이 공격자의 의도를 수행하게 된다.
지난 6월 랭스미스의 랭체인 허브에서는 실제로 프롬프트 인젝션 관련 공격이 발생했다. 공유된 AI 에이전트에 악성 프롬프트가 삽입돼, 이를 사용한 개발자들의 API 키와 지시문이 공격자 서버로 유출됐다. 양 리더는 입력값 검증이 부실할 경우, 에이전트는 손쉽게 속아 넘어간다는 점을 보여준 사례라고 설명헀다.
프롬프트 인젝션과 유사한 공격으로 ‘탈옥(Jailbreak)’이 있다. 탈옥은 AI가 기본적으로 갖춘 윤리적 제한 정책을 회피하도록 속여 비정상적인 답변을 끌어내는 방식의 공격이다. 양 리더는 “AI 에이전트에게 ‘할머니의 마지막 유언이니 규칙을 어겨달라’고 설득하는 식인데, 사실상 AI를 상대로 한 가스라이팅과 같다”고 설명했다.
두뇌 단계, 추론 왜곡과 데이터 조작
두뇌 단계에서는 AI 에이전트가 내부 지식을 활용해 추론하고 계획을 수립하는 과정이다. 이때 발생하는 위협으로는 ▲출력 왜곡(Output spoofing) ▲데이터 포이즈닝 ▲메모리 포이즈닝이 있다.
‘출력 왜곡(Output spoofing)’은 AI가 잘못된 답변을 내놓도록 의도적으로 속이는 공격이다. 예를 들어, 금융 분석용 AI 에이전트가 조작된 출력값을 내놓으면, 이를 신뢰한 하위 시스템이나 이용자가 잘못된 투자 결정을 내리게 된다. 즉, AI의 결과물이 사실이 아님에도 불구하고 정답처럼 받아들여지는 문제가 생긴다.
‘데이터 포이즈닝’ 역시 두뇌 단계에서 우려되는 공격이다. 빨간 점이 찍힌 이미지를 AI 에이전트에 지속적으로 학습시켜 “빨간 점이 있으면 특정 응답을 하라”는 편향을 심어두는 방식이다. 이런 데이터가 훈련 과정에 포함되면 에이전트는 잘못된 의사결정을 내리게 된다. 정치적 편향을 증폭시키거나, 금융 보고서를 조작해 투자 결정을 왜곡시키는 식으로 악용될 수 있다. ‘메모리 포이즈닝’은 대화의 맥락이나 장기 기억에 악의적인 데이터를 심어, AI 에이전트가 잘못된 비용 청구를 승인하거나, 사용자의 신원을 왜곡해 인식하도록 만든다.
두뇌 단계에서의 실제 공격 사례로는 지난 8월 보고된 레노버 ‘레나’ 챗봇을 대상으로 한 공격이 대표적이다. 공격자는 대화 입력에 프롬프트를 삽입해 세션 쿠키를 탈취했고, 이를 바탕으로 내부 지원 계정에 접근해 백도어를 설치했다. 양 리더는 “단순히 대화를 왜곡하는 수준을 넘어, 장기적으로 시스템 내부 침투와 신원 변조로 이어질 수 있는 심각한 위협“이라고 설명했다.

염흥열 한국개인정보보호책임자협의회 회장(순천향대학교 교수)은 “공격자들은 제약 없이 데이터를 활용해 AI를 무기화할 수 있지만, 방어자는 규제와 비용 제약에 묶여 불균형이 크다”며 “AI 시스템 설계와 학습 과정에서 발생하는 작은 오류가 곧바로 심각한 취약점으로 이어질 수 있다”고 지적했다.
행동 단계, 도구 오남용과 공급망 침투
행동 단계는 AI 에이전트가 API, 플러그인 등 외부 도구를 활용해 실제로 작업을 수행하는 단계다. 이 과정에서 발생하는 위협은 곧바로 시스템 침해로 이어질 수 있어 더욱 위험하다. 특히 에이전트가 호출하는 외부 코드와 연결되는 ‘공급망 침투’ 공격은 단일 기업을 넘어 수많은 사용자에게 큰 피해를 줄 수 있다.
최근 발생한 아마존 Q 디벨롭 플러그인 사건이 대표적이다. 깃허브에 올라온 풀 리퀘스트(Pull Request, 오픈소스 개발 과정에서 외부 기여자가 기존 코드에 새로운 변경 사항을 반영해 달라고 요청하는 기능)에 악성 코드가 포함됐는데, 검증이 미흡한 채 승인되면서 사용자 PC에서 ‘임의 파일을 삭제하라‘는 명령이 실행될 뻔 했다. 양 리더는 이 사건은 공급망 공격의 전형적인 사례로, 한 번 배포되면 다수 사용자에게 피해가 확산된다고 강조했다.
‘악성 툴 권한 상승’ 공격도 있다. 예를 들어, 개발자 에이전트가 코드 실행 도구를 호출하는 과정에서 권한 검증이 부실하다면, 공격자가 임의로 랜섬웨어를 설치하거나 기밀 파일을 빼돌릴 수 있다. 양 리더는 실제로 외부 API 호출 과정에서 권한 계층이 제대로 작동하지 않아 임의 코드 실행이 가능했던 사례도 있다고 설명했다.
이 밖에도 ▲에이전트 이름을 교묘히 바꿔 통신을 가로채는 ‘네이밍 취약점’ ▲복잡한 요청을 반복해 성능을 저하시키는 ‘리소스 오버로드(AI에 대한 디도스 공격)’ ▲‘보호장치(가드레일) 부재로 민감 데이터가 그대로 유출되는 취약점’도 함께 지적됐다.
양 리더는 “공격자들은 항상 기술의 발전에 따라 새로운 공격 방법을 시험하고 있다”며 “우리가 선제적 방어를 게을리하면 창은 더 날카로워지고 방패는 언젠가 뚫리게 된다”고 경고했다. 그러면서 그는 데이터 보호, 접근 권한 최소화, 출력 검증 등 다층적 방어를 핵심 대응 방안으로 제시했다.
한편, 이날 자리에 참석한 전문가들은 생성형 AI와 AI 에이전트의 보안 위협이 심각해지고 있다고 입을 모았다.
염흥열 교수는 “생성형 AI와 그 진화격인 AI 에이전트는 신원 도용이나 피싱 이메일 같은 사회공학적 공격을 손쉽게 대량으로 만들어낼 수 있다”며 “보안에서 가장 약한 고리인 인간을 정조준하고 있다”고 말했다. 스티븐 마사다 마이크로소프트 디지털범죄팀장은 “사이버 범죄자는 AI를 가장 빠르게 무기화하는 집단”이라며 “생성형 AI 시대의 보안은 결국 글로벌 차원의 공조와 책임 있는 AI 개발 원칙, 위협에 대한 관심에서 시작된다”고 덧붙였다.
글. 바이라인네트워크
곽중희 기자 god8889@byline.network