나현식 숭실대 교수 “안전성 낮은 국내 LLM, 퍼플티밍으로 점검해야”

생성형 인공지능(AI)이 업무 현장에 빠르게 도입되면서, AI 보안의 초점이 단순히 악성 프롬프트를 차단하는 수준을 넘어 대규모언어모델(LLM)과 AI 서비스 전반의 안전성을 선제적으로 검증하는 쪽으로 옮겨가고 있다.

나현식 숭실대학교 AI안정성연구센터 연구교수는 16일 서울 삼성동 코엑스에서 열린 ‘제32회 정보통신망 정보보호 컨퍼런스(NetSec-KR) 2026’에서 “대규모언어모델(LLM) 보안은 취약점을 찾는 레드티밍(red teaming)을 넘어 공격과 방어를 함께 돌리는 ‘퍼플티밍(Purple teaming)’ 체계로 나아갈 필요가 있다”고 말했다. 이날 나 교수는 ‘국내외 LLM 보안, 안전성 평가 및 레드티밍’이라는 주제로 발표했다.

공격자 관점 점검이 중요…“실제 피해로 이어질 공격 찾아야”

나 교수가 강조한 핵심은 ‘공격자 관점의 점검과 방어 체계’다. 그는 “이제 LLM은 단순히 문장을 생성하는 도구가 아니라 외부 도구를 호출하고, 문서를 읽고, 스스로 탐색하며, 실제 동작까지 수행하는 서비스로 바뀌고 있다”고 설명했다. 이어 “AI 보안도 유해한 답변이나 환각 같은 안전성 측면의 문제만 볼 일이 아니다”라며 “프롬프트 인젝션(prompt injection, 입력 지시문 변조)처럼 원래 지시를 통해 유해한 작업을 하게 만드는 공격, 제일브레이크(jailbreak, 안전장치 우회)처럼 모델의 가드레일을 뚫는 공격까지 폭넓게 봐야 한다”고 말했다.

그는 이런 변화에 맞춰 AI 보안도 방어 중심에서 공격자 관점, 즉 레드티밍으로 시선을 옮겨야 한다고 짚었다. 레드티밍은 공격자 입장에서 모의 공격을 수행해 약점을 찾고, 그 결과를 다시 보완에 쓰는 평가 방식이다. 사람의 창의성을 바탕으로 새로운 공격을 시도하는 인간 레드티밍, 공개된 위협 프롬프트와 공격 벡터를 넣어 정량 비교하는 벤치마크 기반 평가, AI로 공격 시나리오 생성을 자동화하는 자동화 레드티밍이 여기에 포함된다.

나 교수는 “현실의 AI 보안 위협은 반드시 고난도 공격에서만 나오지 않는다”고 짚었다. 화이트박스 환경에서 기울기를 계산하는 고도화된 공격보다, 일반 사용자가 텍스트 입력만으로 시도할 수 있는 단순한 우회 표현과 조작이 실제 서비스에서는 더 자주 문제를 일으킬 수 있다는 것이다. 그는 “레드티밍은 단순히 모델 순위를 매기는 시험이 아니라, 실제 피해로 이어질 수 있는 새로운 공격 유형을 찾아내는 과정이 되어야 한다”고 말했다.

국내 LLM 안전성, 해외 대비 82% 수준

나 교수는 이런 관점에서 숭실대학교 AI안전성연구센터가 국내외 모델 20종을 대상으로 보안·안전성 평가를 진행한 연구 사례를 소개했다. 숭실대학교 연구진은 파운데이션 모델 단독 실행 환경과 애플리케이션 프로그램 인터페이스(API)·아마존웹서비스(AWS) 등 서비스 통합 실행 환경을 나눠 비교했고, 국내 10종과 해외 10종을 영어와 한국어로 각각 시험했다. 공격은 위험한 지시, 탈옥 공격, 프롬프트 인젝션의 3개 유형으로 나눴고, 세부적으로 7개 케이스, 57종 공격, 총 1만1350개 샘플을 구축해 검증했다.

연구 결과, 국내 LLM의 보안·안전성 수준은 챗GPT, 클로드 등 해외 LLM보다 전반적으로 낮게 나타났다. 나 교수는 “국내 LLM의 평균 보안·안전성 수준이 해외 모델의 약 82% 수준으로 나타났다”며 “특히 서비스 통합 실행 환경 내 일부 비교에서는 국내 LLM의 안전성이 해외 대비 약 75%로 낮은 수준에 머물렀다”고 설명했다. 이어 “다만, LLM을 단순 비교하는 벤치마크 평가만으로는 한계가 있어, 취약점 발견을 방어 체계 강화로 이어가는 평가 방식이 필요해 보인다”고 덧붙였다.

공격과 방어를 합친 ‘퍼플티밍’ 필요

그러면서 나 교수는 “단순히 LLM을 비교하는 방식을 넘어, 공격과 방어를 진행해 실제 안전성을 평가하고, 그를 토대로 LLM을 보완하는 방식으로 체계를 바꿀 필요가 있다”고 강조했다. 자동화 레드티밍 도구는 이미 나오고 있지만, 사전에 정한 공격 종류와 범주를 반복 점검하는 수준에 머무르는 한계가 있다는 것이다. 그는 “그래서 필요한 것이 블루티밍(blue teaming·방어팀의 검증)”이라며 “레드팀이 새로운 공격 벡터를 만들고, 블루팀이 이를 학습해 모델을 더 견고하게 만들고 다시 검증하는 체계가 필요하다”고 말했다.

나 교수가 말한 공격과 방어의 순환 구조를 묶은 개념이 바로 ‘퍼플티밍’이다. 그는 “AI 시대의 보안은 단순히 막는 기술보다, 계속 공격하고 취약점을 다시 보완하는 방식의 체계인 퍼플티밍 방향으로 가게 될 것”이라고 말했다.

LLM 평가 방식도 과제…한국어 벤치마크는 부족

이외에도 나 교수는 LLM의 자연어 응답을 정량화하는 루브릭 기반 LLM 평가자 방식의 한계도 과제로 제시했다. 이번 연구의 벤치마크 대상은 국내외 LLM이었지만, 응답 채점에는 다른 LLM을 평가자로 쓰는 방식을 적용했다. 나 교수는 “챗GPT, 클로드, 라마, 3개 모델로 루브릭 기반 평가를 해본 결과, LLM에 따라 점수 차이가 컸고, 일부는 정확도와 상관관계도 낮게 나타났다”며 “공공·의료처럼 객관성이 중요한 분야일수록 평가 방식에 더 신중을 기해야 한다”고 했다.

한국어 평가 체계의 빈틈도 드러났다. 나 교수는 “한국어 특화 레드티밍 벤치마크가 거의 없어 영문 벤치마크를 다시 번역해 써야 했고, 이 과정에서 번역 문제가 발생했다”며 “한국어 고유의 유해 표현 반영에도 한계가 있었다”고 설명했다. 한국어에 맞는 레드티밍 벤치마크와 평가 모델을 따로 갖추지 않으면 국내 LLM의 보안 수준을 정확히 진단하고 개선하기 어렵다는 것이다.

숭실대학교 AI안전성연구센터는 AI 위험관리, 국방 AI 적대적 공격 대응, AI 신뢰성 제고 등을 연구하는 조직이다. 나현식 연구교수는 이 센터의 AI 신뢰성 제고팀장을 맡고 있으며, AI 취약점 시각화 모니터링, 공공시스템 AI 보안 대책 개발 등 관련 연구를 수행 중이다.

글. 바이라인네트워크
<곽중희 기자> god8889@byline.network