[전문가 기고] 신윤섭 이글루시큐리티 인공지능개발팀장

지난 기고(AI 보안관제 미션: 나쁜 놈은 신속하게, 이상한 놈은 정확하게 찾아라 – 1편)에서 AI 보안과제가 필요한 이유에 대해 다뤘다.

이번 기고에서는 AI 기술을 보안관제에 어떻게 적용할지, 그리고 이를 통해서 어떤 성과를 낼 수 있을지, 그 활용방안에 대해 집중적으로 조명해보고자 한다.

 보안관제 프로세스에 적용된 지도학습 탐지 모델

인공지능(AI) 보안관제에서 나쁜 놈을 신속하게 잡기 위해서는 지도학습 알고리즘을 활용할 수 있다. 지도학습은 마치 오픈 북 테스트처럼 AI 알고리즘에게 앞서 알려준 것을 토대로 문제를 냈을 때 AI 알고리즘이 정답을 얼마나 잘 맞추는지에 초점을 둔다. 잘못된 내용을 학습하면 잘못된 답변을 내놓을 수밖에 없으므로 AI 알고리즘이 공부할 책, 즉 레이블된 학습 데이터를 만드는 사람의 역할이 매우 중요하다.

지도학습 탐지모델 생성 및 검증 절차

이글루시큐리티는 ▲데이터 수집 ▲데이터 샘플링 ▲데이터 라벨링 ▲피처 추출을 통한 데이터셋 생성 ▲사전 학습 ▲탐지모델 평가·검증 ▲탐지모델 배포·운영의 7단계로 지도학습 탐지 모델을 보안관제 프로세스에 적용하고 있다.

먼저 보안정보이벤트관리(SIEM), 침입방지시스템(IPS), 위협관리시스템(TMS), 웹애플리케이션방화벽(WAF) 등을 통해 수집한 이벤트 기반 정보 가운데 탐지 룰셋을 통해 식별·차단된 데이터를 샘플링하고 이벤트의 영향도·심각도를 기준으로 삼아 데이터에 레이블을 붙인다.

다음은 레이블된 데이터에서 공격의 특징을 뽑아낸 피처(feature)를 추출할 차례다. 출발지 IP, 포트 등 단위 보안 장비에서 제공하는 기본 정보만으로는 AI 알고리즘이 의미 있는 분석을 하기 어렵기 때문에 피처를 선정하고 이에 맞게 데이터를 변환하는 과정을 거쳐야만 양질의 학습 데이터를 축적할 수 있다. 다년간의 보안 데이터 분석 경험에 기반한 도메인 지식과 피처 엔지니어링 기술이 반드시 요구된다.

AI 알고리즘은 피처 추출을 통해 전처리된 데이터셋을 학습하는 과정을 기반으로 새로운 데이터를 판단하기 위한 기준을 스스로 만들게 된다. 이 점에서 사람이 정한 특정 조건에 따라 분석을 수행하는 상관 분석과는 분명한 차이가 있다. AI 알고리즘이 만든 탐지 모델에 새로운 데이터를 주입해 나온 결과에 대한 피드백을 주는 과정을 반복함으로써, 탐지 모델의 정확성을 끌어올리게 된다.

AI 보안관제를 위한 지도학습 알고리즘 기술 분석

보안관제 담당자들은 지도학습 탐지모델을 통해 경보 분석의 효율성을 높일 수 있다. AI 알고리즘이 지도학습을 통해 룰 기반 장비에서 탐지한 보안 경보의 정탐과 오탐 여부를 판단하고 우선 대응해야 할 고위험군 이벤트를 선별하여 알려주기 때문이다. 이를 통해 정·오탐 판단 및 사고 이관에 소요되는 시간을 단축시킴으로써, 더 많은 위협 경보를 접수하고 처리할 수 있게 된다.

보안관제 프로세스에 적용된 비지도학습 탐지 모델

이제 이상한 놈을 정확하게 찾기 위한 비지도학습 알고리즘에 대해 짚어볼 차례다. 비지도학습은 질병 진단과 유사하다. 정상적인 건강 상태를 벗어나는 이상 징후를 발견했을 때 이를 파고들어 이것이 심각한 질병인지, 가벼운 질병인지, 일시적인 현상인지 진단을 내리는 것처럼, 기존의 보안 장비로는 판별하기 어려워 놓칠 수 있는 변칙 활동 및 이상 징후를 찾아 이를 분석하는 데 집중한다.

비지도학습 탐지모델 생성 및 검증 절차

비지도학습 탐지 모델은 데이터 수집, 데이터 샘플링, 피처 생성, 사전 학습 과정을 통해 보안관제 프로세스에 적용된다. 지도 학습과는 달리, 방화벽 로그, 웹 로그 등 레이블이 달리지 않은 페이로드 데이터를 학습하여 스스로 행위의 규칙성을 찾는다. AI 알고리즘은 새로운 데이터가 이 기준에서 어느 정도 벗어나는지를 판단해 매우 위험한, 위험한, 위험하지 않은 순으로 이상 행위를 선별하게 된다.

비지도학습 탐지 모델은 정상적인 서비스 범위 내에 존재하지만 평소의 통계적 수치에서 벗어난 이상 행위를 찾아내는 데 유용하게 쓰일 수 있다. 예를 들어 평소 데이터 전송 사이즈가 60MB인 사용자에게서 평소와 다른 위치에서 60MB 이상의 데이터 전송이 주기적으로 발생한다면, 정상적인 서비스 기준에 들어가지만 평소와 다른 비정상적인 요소가 있다고 판단할 수 있다.

AI 보안관제를 위한 비지도학습 알고리즘 기술 분석

보안관제 담당자들은 AI 알고리즘이 비지도학습을 통해 찾아낸 이상 행위를 인지하고 연관된 모든 데이터를 빠르게 확인해 분석함으로써, 위협으로 발전할 수 있는 미탐을 최소화할 수 있게 된다. 지도학습과 마찬가지로 AI 알고리즘이 내놓은 이상 행위 결과에 대한 피드백을 내리고 이를 탐지 모델에 적용하는 과정을 반복함으로써, 비지도 학습 탐지 모델의 정확성을 높일 수 있다.

AI 보안관제 솔루션 도입을 통해 강화된 보안관제 기능

AI 보안관제 구현을 위한 필수 요건

많은 조직이 보안관제의 효율성을 끌어올릴 수 있는 AI 보안관제에 관심을 가지고 있다. 그러나 조직이 원하는 성과를 창출하기 위해 어떤 솔루션을 선택해야 하는지 판단하기는 쉽지 않다. 이에 AI 보안관제 도입에 앞서 검토해야 할 네 가지 요건을 짚어보고자 한다.

 보안 가시성

먼저 불필요한 업무를 야기하는 오탐을 줄이고 위협으로 발전할 수 있는 미탐지를 최소화할 수 있도록 폭넓은 가시성이 확보되어야 한다. ▲모든 보안 이벤트를 빠짐없이 식별하여 분석할 수 있는지 ▲기존 보안장비로는 탐지하기 어려운 신·변종 및 잠복형 위협도 탐지할 수 있는지 ▲모의해킹 등을 통해 기존 룰 기반 보안 장비로는 탐지해낼 수 없었던 위협을 얼마나 찾아냈는지 등을 따져볼 필요가 있다. 세부적으로 아래의 요건 충족이 요구된다.

· 보안 장비에서 생성되는 모든 이벤트를 실시간 자동 선별할 수 있는가?
· 모든 사용자, 웹 서비스, 네트워크 트래픽 개체에 대한 행위 분석이 가능한가?
· AI 알고리즘이 자동 식별한 고위험군 이벤트와 이상행위를 토대로 60여 일 이상의 히스토리 상관분석, 공격 단계별 추적 분석이 가능한가?

 보안관제 효율성

또한 초동 분석 및 위협 경보 처리의 효율성을 따져볼 필요가 있다. 사이트 별로 보안 환경에 차이가 있으므로 특정 솔루션 도입에 따른 효율성을 단일한 수치로 말하기보다는 기존에 비해 ▲고위험군 이벤트를 정확히 선별하여 우선순위화 할 수 있는지 ▲고위험군 이벤트 건 별 분석에 걸리는 시간이 얼마나 단축되었는지 ▲보안관제 요원 1명 당 보안 이벤트 처리 건수가 얼마나 늘어났는지 등을 확인하는 것을 권장한다. 세부적으로 아래의 요건 충족이 요구된다.

· 보안 이벤트의 영향도와 심각도를 기반으로 위험한, 덜 위험한, 위험하지 않은 순으로 보안 경보를 우선순위화 할 수 있는가?
· 대응이 불필요한 오탐을 잘 선별할 수 있도록, 사이트 별 데이터와 보안관제 규칙에 대한 학습이 잘 이뤄지는가(화이트리스트 IP, 내부 작업 및 통신 간에 발생하는 이벤트 등)?
· 경보 중복을 최소화할 수 있도록 발생 경보에 대한 유사도 분석이 이뤄지는가?

 학습모델과 알고리즘 정확성

더불어 학습 모델과 알고리즘의 정확성 역시 매우 중요한 요소다. 예측 모델에서 단 1%의 오차가 발생할 경우에도 보안관제 요원이 처리해야 할 보안 경보 이벤트가 비약적으로 증가할 수 있기 때문이다. 그리고 학습 모델과 알고리즘의 정확성을 높이기 위해서는 해당 사이트에 부합하는 양질의 피처와 학습 데이터가 반드시 요구된다.

이에 AI 보안관제 도입을 검토하고 있는 기업들은 ▲알고리즘의 정확성이 보장되는지 ▲다년간의 보안 경험에 기반해 양질의 피처와 학습 데이터를 개발할 수 있는 데이터 사이언티스트가 있는지 ▲기업 사이트에 최적화된 피처 및 모델 생성, 검증이 잘 이뤄질 수 있는지를 짚어볼 필요가 있다. 세부적으로 아래의 요건 충족이 요구된다.

· 피처와 학습 데이터 적용, 모델 변경 등을 통해 정탐률 99% 이상 수준으로 알고리즘의 정확성을 끌어올릴 수 있는가?
· 오버 피팅 문제를 방지할 수 있도록 기업의 보안 환경에 부합하는 피처와 학습 모델이 제공되는가?
· 공격 진화에 맞서, 피처 생성, 학습 모델 개발 및 검증이 지속적으로 이뤄질 수 있는가?
· 오탐을 집중적으로 발생시키는 탐지 정책 분석을 통해 탐지 정책을 최적화할 수 있는가?
· 기업 보안 환경에 대한 정확한 분석에 기반해 기업 보안 장비에서 생성되는 모든 보안 위협 데이터에 대한 학습이 이뤄지는가?
· 기업의 보안 환경을 정확히 분석하고 알고리즘이 학습할 보안 데이터셋을 만들어낼 수 있는 데이터 사이언티스트들이 있는가? 보안에 최적화된 알고리즘을 생성할 수 있는 인공지능 전문가들이 있는가?

 시큐리티 오케스트레이션

마지막으로 사람과 프로세스, 기술을 연결하고 통합하는 자동화와 효율화 구현에도 초점을 맞출 필요가 있다. 많은 보안관제센터에서 체계적이고 고도화된 분석 및 사고 대응을 통해 보안 성숙도를 올리고 있으나 인력과 전문성, 예산 한계 등의 문제로 어려움을 겪고 있는 것이 사실이다. 이에 보안관제센터의 복잡성을 해소하고 보안관제의 효율성을 높이며 보안 위협 대응 시간을 단축시킬 수 있는 자동화된 분석 및 대응 환경 구축의 필요성이 더욱 부각될 전망이다.

이와 같은 배경에서 ▲이기종의 보안 솔루션·장비들을 일원화된 보안 체계에 따라 직관적으로 인지하고 관리할 수 있는지 ▲솔루션·절차·위협 정보 등을 하나의 과정으로 묶어 업무 프로세스를 간소화할 수 있는지 ▲보안관제 인력의 역할·책임을 정의한 플레이북에 기반해 단순 반복적인 프로세스는 자동화할 수 있는지 등을 확인해 볼 필요가 있다.

글. 신윤섭 이글루시큐리티 인공지능개발팀장