이글루시큐리티, 최신 침해사고 재현한 1억건 넘는 개방형 AI 데이터셋 구축

이글루시큐리티(대표 이득춘)가 최신 침해사고를 재현한 1억2000건의 데이터셋 구축을 완료했다. 2021년 한국인터넷진흥원(KISA)의 ‘사이버보안 인공지능 데이터셋(침해사고 분야)’ 구축 사업에 참여한 결과다.

최신 침해사고를 재현한 인공지능(AI) 데이터셋이 민간에 개방된다. 이에 따라 보다 많은 조직들이 이를 바탕으로 보안 체계를 강화할 수 있게 될 전망이다.

이 사업은 정부의 K-사이버방역 추진 전략 일환으로 악성코드와 침해사고 분야에서 AI 침해 대응에 적용할 수 있는 8억 건 이상의 AI 데이터셋을 구축하는 ‘사이버보안 AI 데이터셋 구축 사업’ 일환이다. 민간 개방된 침해사고 데이터셋을 토대로 국내 보안 조직들이 신·변종 보안 위협에 선제 대응할 수 있는 기반을 마련하는 것이 이 사업 골자다. 2015년부터 AI 알고리즘과 AI 학습 데이터 개발에 공을 들여온 이글루시큐리티는 이 사업에 참여해 최신 침해사건 재현 분야를 담당했다.

회사측은 다년간의 AI 시스템 구축·운영 역량과 대규모 위협 대응 경험을 토대로 국내외 주요 침해사고를 재현한 AI 데이터셋을 구축하고 검증하는 역할을 맡았다. 이에 15건의 엄선된 침해사고 시나리오를 실행해 6개 이기종 보안 장비에서 생성된 원시 데이터를 수집하고, 원시 데이터에서 공격의 특징을 추출·선별해 레이블링 한 뒤 이 레이블링 데이터를 AI 학습을 위한 데이터셋 형태로 가공했다. 이후 AI 보안 모델을 적용한 사이트에 AI 데이터셋을 적용하며 검증도 완료했다.

이글루시큐리티는 국내 보안 조직들이 웹 애플리케이션 취약점을 이용한 공격, 랜섬웨어 감염 등의 다양한 침해사고에 체계적으로 신속 대응할 수 있도록 15건의 침해사고에 대한 ‘플레이북(Playbook)’도 개발했다. 마이터 어택 프레임워크(MITRE ATT&CK Framework)에 따라 공격 단계를 분석하고 공격자 관점의 침투 테스트를 실행하는 과정을 통해, 침해사고 유형별 최적의 표준 절차와 대응 방안을 매뉴얼화한 ‘플레이북’을 마련했다.

이번에 구축된 데이터셋은 KISA 사이버보안빅데이터센터를 통해 민간에 개방될 예정이다. 국내 보안 조직들은 이 데이터셋을 활용해 데이터 수집·가공·검증에 소요되는 시간을 비약적으로 절감하고, AI 기반 침해 대응 지능화에 속도를 붙이게 될 전망이다. 이글루시큐리티는 더 많은 국내 보안 조직들이 AI의 혜택을 누릴 수 있도록 침해사고 분야 데이터셋 구축과 더불어 데이터 바우처 지원 사업 참여 및 데이터 레이블링 툴 개발에도 집중할 방침이다.

이득춘 이글루시큐리티 대표는 “AI의 진정한 가치는 AI 알고리즘과 더불어 AI 알고리즘이 잘 학습할 수 있는 양질의 학습 데이터가 있을 때 비로소 구현될 수 있다. 이에 이글루시큐리티는 보안에 특화된 AI 알고리즘 개발과 함께 AI 알고리즘의 정확성과 신뢰성을 높일 수 있는 AI 학습 데이터 축적에 다년간 힘을 실어왔다. 이와 같은 데이터 중심의 AI 역량을 토대로 올해는 기존의 보안 사업과 더불어 양질의 학습 데이터 제공을 위한 데이터 사업 강화에도 속도를 내겠다”라고 밝혔다.

글. 바이라인네트워크
<이유지 기자>yjlee@byline.network