[미토스 이후, 전문가에게 듣는다③] 박관순 티오리 CISO “AI 해킹, 모델보다 시스템 싸움”
앤트로픽의 새 인공지능(AI) 모델 ‘클로드 미토스’ 등장을 계기로 AI가 사이버보안 분야에 미칠 영향에 대한 논의가 커지고 있다. AI가 취약점을 찾고 공격 경로를 설계하는 능력을 어디까지 갖췄는지, 그리고 이를 방어 체계가 따라갈 수 있는지 등을 두고 우려가 커지고 있다. 바이라인네트워크는 ‘미토스 이후, 전문가에게 듣는다’ 시리즈로 미토스 프리뷰를 접한 전문가들의 견해와 에이전틱 AI 시대의 사이버보안 대응 방향을 살펴본다. 그 세 번째로 오펜시브 보안 기업 티오리(Theori)의 박관순 최고정보보호책임자(CISO)를 인터뷰했다. [편집자주]
[미토스 이후, 전문가에게 듣는다①] 윤인수 카이스트 교수 “AI가 숨은 취약점 다 찾아낼 것”
[미토스 이후, 전문가에게 듣는다②] 이상근 고려대 교수 “사이버보안 전략 무기가 되는 시대”
[미토스 이후, 전문가에게 듣는다③] 박관순 티오리 CISO “AI 해킹, 모델보다 시스템 싸움” (이 번호)

박관순 티오리 CISO는 클로드 미토스 논란을 오펜시브 보안 현장의 관점에서 짚었다. 오펜시브 보안은 공격자의 방식으로 시스템을 점검하고 취약점을 검증하는 보안 영역이다. 박 CISO는 미토스를 단순히 ‘강한 AI 모델’로만 보면 안 된다고 했다. 그는 “취약점을 찾는 모델도 중요하지만, 어떤 코드를 볼지 정하고, 결과가 실제 공격 가능한 취약점인지 검증하고, 오탐을 걸러내는 운영 체계가 함께 있어야 한다”고 강조했다.
티오리는 최근 백서(‘You Don’t Need Mythos. You Need a System’)를 하나 냈다. 백서에서 티오리는 미토스가 보여준 의미를 인정하면서도 “AI 취약점 탐지의 핵심을 모델 하나로 좁히면 문제를 잘못 볼 수 있다”고 지적했다.
티오리는 백서에서 자사의 AI 기반 해킹 자동화 솔루션 ‘진트 코드(Xint Code)’를 앤트로픽이 미토스로 시험한 코드베이스에 적용한 결과도 공개했다. 진트 코드는 표준 스캐닝 파이프라인만으로 미토스가 공개한 주요 취약점 유형을 재현했다. 또 앤트로픽 공개 내역에 포함되지 않은 제로데이 취약점 12건을 같은 코드베이스에서 추가로 탐지했다. 추가 취약점은 오픈BSD(OpenBSD) 네트워킹 스택 5건, FFmpeg 코덱 라이브러리 7건이다.
박 CISO는 “미토스는 분명히 단순한 모델은 아니다. 하지만 더 중요한 건, AI 모델과 함께 다양한 조력 컴포넌트가 있어야 한다는 점”이라며 “AI 취약점 탐지의 핵심은 모델 하나가 아니라 이를 운영할 수 있는 시스템”이라고 강조했다.
미토스가 불붙인 ‘AI 취약점 탐지’ 경쟁
박 CISO는 “AI를 이용한 ‘공통 및 취약점 공개(CVE)’ 발굴이 미토스 이전부터 이미 늘고 있었다”고 했다. CVE는 공개적으로 관리되는 보안 취약점 식별 체계다. 예전에는 취약점 발굴 기업이나 일부 연구자가 정제된 결과를 제보하는 방식이었다. 지금은 AI를 이용해 취약점을 대량으로 찾아내고 제보하는 일이 많아졌다.
그는 “AI를 활용한 CVE 발굴이 많아지면서 취약점 등록과 검증 절차도 과부하를 겪고 있다”며 “사람이 할 수 있는 양의 범위를 벗어나고 있다”고 말했다. 이어 “취약점 제보 경험이 많기 때문에 정제된 내용과 확실한 내용만 제보하려고 한다”고 덧붙였다.
미토스가 불을 붙인 지점은 ‘취약점 탐지’에서 ‘공격 가능성’으로 논의가 넘어간 데 있다. 박 CISO는 “AI가 취약점을 찾는 데 그치지 않고, 개념증명(PoC) 코드나 공격이 가능한 익스플로잇 코드까지 만들 수 있다는 점이 부각됐다”고 말했다. PoC는 취약점이 실제로 동작한다는 점을 보이는 증명 코드를 뜻한다.
박 CISO는 “예전에는 취약점이 아니었던 것들이 현재와 미래의 위협이 되는 상황”이라며 “오래된 리눅스나 마이크로소프트 제품처럼 견고하다고 믿었던 시스템에서도 원격에서 악용 가능한 취약점이 발견될 수 있다”고 강조했다.
AI 해킹, 모델보다 시스템이 중요
박 CISO는 AI 취약점 탐지의 성능을 가르는 요소로 ‘운영 시스템’을 강조했다. 여기서 시스템은 단순히 대규모언어모델(LLM)을 연결하는 것을 넘어, 어떤 코드를 먼저 볼지 정하고, 여러 AI 에이전트를 역할별로 움직이며, 탐지 결과가 실제 공격 가능한 취약점인지 검증하는 전체 구조를 뜻한다. 그는 “좋은 LLM을 붙여 취약점을 찾아달라고 하면 결과가 나오긴 한다. 하지만 그 수준은 큰 차이가 있다”고 말했다.
이 운영 시스템의 성능을 가르는 요소로는 ‘하네스’와 ‘오케스트레이션’을 들었다. 하네스는 AI가 코드를 실제로 실행하고 시험할 수 있게 만든 테스트 환경이다. 오케스트레이션은 여러 AI 에이전트가 정찰, 분석, 검증처럼 역할을 나눠 움직이도록 조율하는 구조다. 이 때문에 같은 LLM을 쓰더라도 취약점 탐지의 깊이와 정확도는 달라질 수 있다.
진트 코드도 이 구조 위에서 움직인다. 박 CISO는 “진트를 한 번 띄우면 8개의 에이전트가 동시에 연결된다”며 “정찰하는 에이전트, 정찰 결과를 분석하는 에이전트처럼 해커가 하는 행동을 시뮬레이션해 역할을 나눠놨다”고 설명했다.
박 CISO는 “AI 취약점 탐지는 모델 하나의 경쟁이 아니라 시스템의 경쟁”이라며 “오펜시브 보안 경험과 제품화된 검증 체계가 결합돼야 현업에서 쓸 수 있다”고 강조했다.
아래는 박 CISO와의 일문일답이다.
Q. 미토스 이슈에서 가장 먼저 봐야 할 변화는 무엇인가.
AI를 이용해서 취약점을 발굴하는 작업은 이미 많이 이뤄지고 있었다. 미토스 전에도 시장에서는 AI가 취약점을 많이 찾았다. 다만 미토스가 최근에 불을 붙였다. 보안 전문가가 아니어도 AI가 취약점을 찾고, 해킹 코드나 익스플로잇 코드까지 만들어낼 수 있다는 점이 주목할 지점이라고 본다.
예전에는 취약점 발굴 기업이나 일부 연구자가 정제된 결과를 제보했다. 지금은 AI를 이용해 취약점을 대량으로 찾아내고 던지는 일이 많아졌다. 취약점 등록과 검증 절차도 과부하를 겪고 있다. 사람이 처리할 수 있는 수준을 넘어섰다.
또 하나 중요한 점은 과거에는 문제가 없다고 여겼던 시스템까지 다시 봐야 한다는 것이다. 오래된 리눅스나 주요 제품에서 ‘원격 코드 실행(RCE)’처럼 위험성이 높은 큰 취약점이 나올 수 있다. RCE는 공격자가 원격에서 시스템 명령이나 코드를 실행할 수 있는 취약점이다. 예전에는 숨어 있어서 위협이 아니었던 문제가 지금은 위협이 될 수 있는 상황이다.
Q. 미토스를 단순한 모델 성능 문제로 보면 안 된다고 한 이유는.
미토스도 단순한 모델은 아니다. 모델과 함께 여러 조력 컴포넌트가 있어야 한다. 어떤 코드를 볼지, 어떤 순서로 볼지, 발견한 결과가 실제 공격 가능한 취약점인지 어떻게 확인할지 정해야 한다.
요즘 하네스라는 말을 많이 쓴다. 하네스가 어떻게 들어가 있는지, 앞단의 에이전트들이 어떤 로직으로 움직이게 오케스트레이션돼 있는지에 따라 결과가 달라진다. 그냥 좋은 LLM을 붙여 취약점을 찾아달라고 하면 결과가 나오기는 한다. 하지만 그 수준은 크게 다르다.
티오리의 진트도 마찬가지다. 8개의 에이전트가 동시에 떠서 정찰하고, 분석하고, 검증한다. 티오리가 10년 동안 해커의 행동을 시뮬레이션하며 쌓은 고급 정보를 모두 적용해 놓았다. 그래서 단순한 LLM과는 다르다. 프롬프트 몇 개를 감싸 제품처럼 내놓는 방식은 대형 모델의 기능 확장에 쉽게 밀릴 수 있다.
Q. 최근 발표한 미토스 관련 백서의 핵심은?
백서의 제목이 ‘유 돈트 니드 미토스. 유 니드 어 시스템’이다. 미토스가 필요 없다는 뜻이라기보다, 모델만 있으면 된다고 생각하면 안 된다는 것이다.
티오리는 앤트로픽이 미토스로 시험한 코드베이스를 진트 코드로 다시 점검했다. 진트 코드는 미토스가 공개한 주요 취약점 유형을 재현했고, 앤트로픽 공개 내역에 포함되지 않은 제로데이 취약점 12건도 같은 코드베이스에서 추가로 탐지했다. 추가 취약점은 오픈BSD 네트워킹 스택 5건, FFmpeg 코덱 라이브러리 7건이다.
중요한 것은 사람이 취약한 함수를 손으로 골라 넣은 게 아니라는 점이다. 특정 취약점 유형을 겨냥한 프롬프트를 쓴 것도 아니다. 정해진 절차에 따라 코드베이스 전체를 훑고, 공격 표면을 고른 뒤, 의심 경로를 분석하고, 실제 악용 가능성을 검증하는 기본 점검 흐름만으로 결과를 냈다. 이는 모델 성능뿐 아니라 공격 표면 식별, 후보 경로 분석, 익스플로잇 가능성 검증, 구조화된 시스템이 함께 작동해야 한다는 점을 보여준다.
Q. 기존 취약점 스캐너와 AI 해커 솔루션은 무엇이 다른가.
기존 도구는 알려진 패턴이나 규칙, 데이터베이스를 기반으로 취약점을 찾는 경우가 많다. 정적 애플리케이션 보안 테스트(SAST)는 실행하지 않은 코드에서 문제를 찾고, 동적 애플리케이션 보안 테스트(DAST)는 서비스를 실제 실행한 상태에서 외부 동작을 점검한다.
AI 기반 점검은 여기서 더 나아간다. 코드의 데이터 흐름과 제어 흐름을 추론하고, 어떤 조건에서 취약점이 발생할 수 있는지 본다. 진트 코드는 단순히 “취약점이 있다”고 알려주는 데서 끝나지 않는다. 취약점이 실제로 동작하는지 확인할 수 있는 PoC 코드까지 만든다. 이 점은 미토스와 비슷한 방향이라고 볼 수 있다.
티오리에는 진트 코드와 진트 웹이 있다. 진트 코드는 코드베이스를 기반으로 취약점을 찾는 쪽에 가깝고, 진트 웹은 외부에서 블랙박스 형태로 공격을 수행하는 쪽이다. 두 영역의 인사이트가 결합되면 파급력이 커진다. 코드에서 찾은 취약점 정보를 웹 점검에 활용할 수 있기 때문이다.
Q. 실제 해커의 작업과 비교하면 어느 정도 수준인가.
사람이 모의해킹을 하면 보통 한 사이트를 분석하고 해킹하는 데 2주일 정도가 걸린다. 애플리케이션이 5개면 10주가 걸릴 수 있다. 사람을 더 투입해 기간을 줄일 수는 있지만 비용이 커진다.
AI 기반 점검은 이 시간을 크게 줄인다. 진트 기준으로는 하나의 점검을 12시간 수준까지 줄일 수 있다. 수준도 계속 올라가고 있다. 지금은 중급 이상, 중상급 해커 수준에 가까워지고 있다.
중요한 점은 지치지 않는다는 것이다. 해커도 사람이기에 피로도가 높아지면 집중력이 떨어진다. 반면 AI는 멈추지 않고 일을 시킬 수 있다. 모델과 데이터가 좋아지면 점검 능력도 계속 올라간다. 기업 입장에서는 많은 앱을 실시간에 가깝게 점검하려는 수요가 커질 수밖에 없다. 미토스도 같은 관점에서 볼 수 있다.
Q. 그럼, 인간 해커는 대체되는 것인가.
전부 대체된다고는 보지 않는다. 다만 시장은 양분될 가능성이 크다. 일반적인 기업이나 중소기업 시장에서는 AI 기반 점검이 빠르게 확산될 수 있다. 비용과 속도 측면에서 사람이 계속 맡기 어려운 영역이기 때문이다.
반면 금융사나 대형 엔터프라이즈처럼 복잡한 환경에서는 인간 해커들로 구성된 레드팀이 계속 필요하다. AI가 반복 점검과 대량 탐색을 맡고, 사람은 리스크 판단과 우선순위 결정, 복잡한 비즈니스 로직 분석을 맡는 구조가 될 가능성이 높다.
보안 서비스 시장도 영향을 받을 수 있다. 단순 점검만 하던 모의해킹 업체는 AI 도구와 경쟁해야 한다. 반대로 오랫동안 공격 표면 분석, 비즈니스 로직 분석, 취약점 검증 경험을 쌓은 기업은 AI를 붙여 더 강해질 수 있다. 결국 노하우가 없는 단순 LLM 래퍼(LLM을 겉으로 감싸서 만든 간단한 서비스나 제품)는 오래가기 어렵다.
Q. 비즈니스 로직 취약점은 왜 찾기 어려운가.
비즈니스 로직은 회사마다 다르다. 예를 들어 전자상거래 서비스라면 할인, 장바구니, 파트너 권한, 일반 사용자 권한 같은 규칙이 있다. 이런 로직은 회사 내부의 비즈니스 구조에서 나온다. 외부 해커가 짧은 시간 안에 모두 이해하기 어렵다.
잘하는 해커는 그동안의 다양한 해킹 경험으로 비즈니스 로직을 예측한다. “이런 종류의 서비스라면 이런 로직이 있을 것”이라고 추론한다. 주니어 해커는 보통 코드나 사이트에 일반적인 문제가 있는지 보는 데 그친다. 인하우스 해커는 회사 내부 로직을 알고 있기에 그 결함을 잘 찾을 수 있다.
AI가 의미를 갖는 지점도 여기에 있다. 코드베이스를 넓게 읽고, 누적된 해킹 경험과 산업별 로직을 함께 활용할 수 있다면 사람이 보던 것과 다른 방식으로 취약점을 찾을 수 있다. 그래서 오펜시브 보안 노하우가 중요하다. 단순히 모델을 붙이는 것만으로는 어려운 영역이다.
Q. 고객사들은 미토스 논란을 어떻게 받아들이고 있나.
금융권이 특히 심각하게 받아들이고 있다. 여러 곳이 모여 대응을 논의하고 있고, 외부 AI 해커 도구나 비슷한 솔루션을 활용해 블랙박스 테스트를 하는 형태도 나오고 있다. 블랙박스 테스트는 내부 코드나 구조를 모르는 상태에서 외부 공격자처럼 시스템을 점검하는 방식이다.
예전에는 기업들이 CVE에 크게 관심을 두지 않는 경우도 많았다. 하지만 취약점이 익스플로잇으로 바뀔 수 있다는 불안감이 생기면서 상황이 달라졌다. 직접 먼저 찾아보고, 미리 대응하려는 움직임이 커지고 있다.
특히 대규모 IT 자산을 가진 기업은 기존 방식으로는 대응이 어렵다는 점을 알고 있다. 앱과 서비스가 많으면 1년에 한두 번 모의해킹하는 방식으로는 부족하다. AI가 취약점을 계속 찾아내는 환경에서는 상시 점검에 가까운 방식이 필요해진다.
Q. 방어자는 AI를 어떻게 써야 하나.
공격자가 AI로 취약점을 찾는다면 방어자도 같은 방식으로 점검해야 한다. 예전에는 모의해킹을 1년에 한 번 받는 방식이 일반적이었다. 하지만 이제는 취약점이 매일 생길 수 있는 환경이다. 정기 건강검진을 1년에 한 번 받던 사람이 매달, 매주 검진해야 하는 상황으로 바뀐 것이다.
모든 취약점이 실제 침해로 이어지는 것은 아니다. 그래서 더 중요한 것은 리스크 관리다. AI가 취약점을 찾아내면, 그중 무엇이 실제로 위험한지 골라내고, 어떤 것부터 고쳐야 하는지 결정해야 한다. 이 부분은 여전히 사람의 몫이다.
대규모 IT 자산을 가진 기업은 주기적인 해킹, 지속적인 검증 체계가 필요하다. 6개월에 한 번 모의해킹을 하는 방식으로는 대응이 어렵다. AI가 취약점을 새로 찾고, 공격자도 이를 활용할 수 있는 환경에서는 점검 주기도 짧아져야 한다.
Q. AI 에이전트 보안과도 연결되는 문제인가.
연결된다. AI 에이전트는 이제 중앙에서 배포하는 도구만이 아니다. 직원이 업무 중 필요한 에이전트를 직접 만들 수도 있다. 자연어 몇 줄로 특정 업무를 수행하는 에이전트를 만들고, 다른 도구와 연결할 수 있다.
문제는 섀도우 AI다. 회사가 모르는 AI 사용이 늘면 데이터가 어디로 나가는지 볼 수 없다. 가장 먼저 해야 할 일은 허용된 AI만 쓰게 하는 것이다. 어떤 애플리케이션을 쓸 수 있는지, 어떤 AI 모델을 쓸 수 있는지 정해야 한다. 화이트리스트 방식으로 접근해야 한다.
기업이 지켜야 할 핵심은 데이터다. 이를 위해 거버넌스와 기술 통제가 함께 필요하다. 국제표준화기구(ISO)의 AI 경영시스템 표준인 ISO 42001처럼 AI 리스크 관리와 영향 평가를 다루는 틀을 참고할 수 있다. 다만 프레임워크만으로 끝나서는 안 된다. 실제 환경에서 허용된 AI와 허용되지 않은 AI를 구분해야 한다.
Q. 기업이 AI 에이전트를 도입할 때 보안 측면에서 가장 중요한 것은 무엇인가.
대형 고객사는 최소한 폐쇄된 공간 안에서 모델을 쓰려 한다. 아마존웹서비스(AWS)의 베드록(Bedrock)이나 구글 클라우드의 버텍스 AI(Vertex AI)처럼 기업 통제 환경에서 모델을 쓰는 식이다. 또 가드레일을 붙여 민감정보가 외부로 나가려 할 때 막는 방식도 쓴다.
권한 관리는 더 어렵다. 어떤 에이전트가 어떤 데이터와 도구에 접근할 수 있는지 세밀하게 나눠야 하기 때문이다. 반면 가드레일은 상대적으로 빨리 적용할 수 있다. 처음에는 모니터링 모드로 몇 주 정도 돌리고, 이후 정책을 만들어 차단 모드로 전환할 수 있다.
기업은 개인용 AI(개인이 구독해서 사용하는 AI 모델) 사용도 통제해야 할 수 있어야 한다. 직원이 개인 계정으로 챗GPT나 다른 AI 도구에 회사의 기밀 데이터를 넣는 게 가장 위험하다. 최소한 기업용 버전이나 비즈니스 버전처럼 데이터가 학습에 쓰이지 않는 형태를 선택해야 한다. 기술적으로는 보안 접근 및 서비스 에지(SASE), 데이터 유출 방지(DLP), 가드레일 제품을 활용하는 걸 고려할 수 있다.
Q. AI 에이전트 보안 프레임워크로는 무엇을 봐야 하나.
AI 에이전트를 기업 내부에 도입하려면 프레임워크가 필요하다. 티오리는 이를 쉽게 설명하기 위해 ‘FIGS’라는 틀을 제안한다. 세밀한 권한 부여(Fine-Grained Authorization), 신원(Identity), 가드레일(Guardrails), 샌드박싱(Sandboxing)을 뜻한다.
세밀한 권한 부여는 에이전트가 필요한 최소 권한만 갖도록 하는 것이다. 신원은 에이전트가 누구에게 권한을 위임받았고, 어떤 시스템에서 어떤 자격으로 행동하는지 식별하는 문제다. 가드레일은 민감정보 유출이나 위험한 행동을 정책으로 막는 장치다. 샌드박싱은 에이전트가 실행되는 환경을 격리해 피해 범위를 줄이는 방식이다.
아무 생각 없이 AI 에이전트를 도입하면 위험하다. 좋은 프레임워크를 찾아 적용하는 것이 가장 빠르다. OWASP(Open Web Application Security Project)도 에이전틱 AI 위험을 별도로 정리하고 있다. 기업은 이런 틀을 참고해 자기 환경에 맞는 통제 기준을 먼저 세워야 한다.
Q. 미토스 이후 국내 보안 체계는 어디에 초점을 둬야 하나.
국가 차원에서도 모델만 볼 것이 아니다. 파운데이션 모델을 만드는 것만큼 중요한 것은 취약점 탐지와 검증, 제보, 패치까지 이어지는 운영 체계다. AI가 취약점을 찾아도 이를 어떻게 확인하고, 누구에게 전달하고, 어떤 순서로 고칠지 정하지 않으면 방어 효과가 떨어진다.
기업도 마찬가지다. “AI를 도입할 것인가”가 아니라 “AI가 만든 속도를 운영 체계가 감당할 수 있는가”를 봐야 한다. 공격자는 이미 더 빠르게 움직이고 있다. 방어자는 상시 점검과 리스크 관리를 기본 전제로 보안 체계를 다시 설계해야 한다.
AI 취약점 탐지는 모델 하나의 문제가 아니다. 모델을 어떻게 쓰게 만들고, 어떻게 검증하고, 어떤 결과를 개발자가 바로 조치할 수 있게 만들지가 중요하다. 공격자에게 AI가 속도와 규모를 준다면, 방어자도 같은 속도를 갖춰야 한다.

박관순 CISO는 티오리에서 AI 기반 보안 운영과 AI 에이전트 보안 체계를 다루고 있다. 티오리 합류 전에는 쿼리파이에서 CISO로 있으며 특권접근관리(PAM)와 방어자 관점의 보안 체계를 맡았다. 현재는 오펜시브 보안 경험을 바탕으로 AI를 활용한 취약점 탐지, 보안 점검 자동화, 에이전트 보안 통제 방안을 연구하고 있다.
글. 바이라인네트워크
<곽중희 기자>god8889@byline.network



