사이버위협 대응하는 AI 구축 마중물…KISA, 데이터셋 14억건 공개

한국인터넷진흥원(KISA)이 2021년부터 수집한 인공지능(AI) 데이터셋 14억건을 민간에 개방한다. 사이버위협이 갈수록 거세지는 가운데 기업과 기관들이 해당 데이터넷을 AI 모델에 학습시켜 위협에 쉽게 대응할 수 있도록 돕는다는 취지다.

최보민 KISA AI위협데이터 대응팀 선임은 26일 과학기술정보통신부와 KISA가 마련한 ‘사이버보안 AI 데이터셋 우수 활용 성과 공유회’ 세션 발표를 통해 이같이 밝혔다.

행사는 KISA가 2021년 7월부터 추진해왔던 AI 데이터셋 구축을 통한 사이버보안 강화 노력을 조명하고 그간의 성과를 공유하는 자리다. 이날 KISA는 그동안 모아왔던 데이터셋을 개방해 민간의 사이버위협 대응을 돕는 플랫폼인 ‘온라인 사이버보안 빅데이터 센터’의 밑그림을 소개했다.

최보민 선임에 따르면 KISA는 그간 수요조사를 통해 ▲악성코드 ▲침해사고 ▲애플리케이션 보안 ▲위협 프로파일링 ▲능동형 보안 관제 등 5가지 분야로 사이버보안 데이터셋 분야를 나누고 관련 데이터를 수집해왔다.

악성코드와 침해사고 관련 각각 4억건을 비롯해 앱 보안(1억건), 위협프로파일링(3억건), 능동형 보안관제 2억건 등 2년여간 총 14억건의 AI 데이터셋 구축이 완료됐다.

현재의 보안 체계는 이미 확인된 시그니처 기반으로 위협을 탐지해 차단하는 형태가 대다수인 가운데 최근에는 기업 차원에서도 AI 기술을 활용해 이상행위를 탐지하는 사이버 위협 대응 노력이 이뤄지고 있다.

하지만 양질의 데이터셋을 확보하는 데 한계가 있어 고도화한 AI 모델을 구축하는 데 어려움이 따랐다는 게 최 선임의 설명이다.

그는 “민간에서는 비용이나 시간, 인력 등 경제적 문제로 인해 AI 데이터셋 획득에 어려움을 겪고 있었다”며 “정부 차원의 데이터넷 구축사업으로 이러한 어려움 해소를 지원하겠다”고 말했다.

이에 이제까지 수집한 데이터셋을 개방해 민간의 보안 AI 모델 학습을 돕고 사이버 위협 대응을 지원하겠다는 게 KISA의 계획이다. 빠르면 다음달 빅데이터 센터 페이지를 오픈하고 해당 데이터셋을 공유한다. 이제까지 확보했던 14억건의 데이터셋을 비롯해 계속해서 추가로 데이터를 확보해 민간의 보안 AI 모델 개발을 지원할 방침이다.

이날 일부 공개한 빅데이터 센터 예시화면을 보면 데이터셋 검색기능을 비롯해 인기 데이터, 최근 다운로드 정보, 추천 키워드 기능 등이 담길 것으로 보인다.

최 선임은 “또한 위협 프로파일링 분야에서 해킹 조직의 공격 특성을 확인하고 인사이트 도출을 도울 수 있도록 타깃, 국가, 산업군 등 공격 정보를 모은 프로파일 기술서 공개도 준비하고 있다”고 밝혔다.

행사에서는 이밖에도 AI 기반 위협 대응 방안에 대한 발표가 이어졌다. 정좌연 LG CNS 책임은 챗GPT 등 최근의 생성AI 기술이 보안 담당자의 수고를 줄이고 효율을 높여주는 훌륭한 도우미가 될 것으로 바라봤다.

그는 “과거의 AI는 라벨 데이터를 항상 주입해야 해 유지보수 비용이 상당했지만, 이제는 강화학습을 통해 체감할 수 있는 성능 향상을 느낄 수 있는 게 챗GPT의 장점”이라고 말했다.

실제 정좌연 책임이 챗GPT에 보안 위협 케이스를 입력하고 판단을 요구한 결과, 챗GPT는 변조한 인젝션까지 제대로 가려냈다. 이처럼 똑똑한 AI 모델이 보안 전문가의 지식과 결합하면 상황에 따른 위협 판단도 제대로 할 수 있을 거라는 게 정 책임의 기대다.

정 책임은 “최소의 비용으로 양질의 데이터를 확보하고, AI 소프트웨어 개발의 신뢰성이 보장돼야 한다”면서 “성공경험을 통해 (보안 AI 모델을) 단계적으로 도입하는 노력이 필요하다”고 강조했다.

이원태 KISA 원장은 환영사를 통해 “기상예보로 장마에 대응하는 것처럼 (AI로 사이버위협에) 능동적으로 대응해 피해를 최소화하는 노력이 필요하다”며 “수많은 위협을 사전에 예측하기 위해서는 양질의 학습용 데이터셋 확보가 매우 중요하다. 공개하는 AI 데이터셋이 보안을 강화하는 마중물이 되기를 기대한다”고 말했다.

글. 바이라인네트워크
<이진호 기자>jhlee26@byline.network

관련 글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다