크라우드스트라이크가 내놓은 ‘IT 대란’ 원인 “업데이트 콘텐츠 사전 검증 오류”
사이버보안업체 크라우드스트라이크가 지난 19일(현지시간) 전세계를 강타했던 이른바 ‘글로벌 IT 대란’을 유발한 원인 조사 분석 결과와 재발방지 대책을 예비 보고서 형태로 공개했다.
국내에서는 이번 사태에 대한 윈도우 시스템 장애(BSOD) 소식이 외신을 통해 전해지자, 마이크로소프트가 유발한 윈도우 문제, 또는 클라우드 서비스를 문제로 보면서 그에 대한 대책을 지적하는 언급과 보도가 많이 나왔으나 이는 잘못된 분석이다.
당사자인 크라우드스트라이크가 지난 24일(현지시간) 발표한 사고 원인분석 및 대책 중간 보고서(Preliminary Post Incident Review, PIR)에 따르면, 이번 장애는 크라우드스트라이크의 팔콘(Falcon) 플랫폼이 정기적으로 실시하는 동적 보호 메커니즘 일환으로 진행된 긴급 대응 콘텐츠 구성(Rapid Response Content, 이하 RRC) 구성(Configuration) 업데이트 문제로 인해 윈도우 시스템과 충돌이 발생으로 인한 것이다. 업데이트 배포 전에 테스트와 검증이 제대로 이뤄지지 못한 오류가 문제 발생 원인이다. 그 결과 지난 19일 금요일 오전 4시 9분(현지시간, 한국시간 오후 1시 9분)부터 5시27분(한국시간 오후 2시 27분) 사이에 온라인 업데이트를 통해 받은 센서 버전 7.11 이상을 실행하는 윈도우 호스트가 영향을 받았으며, 맥과 리눅스 호스트는 영향을 받지 않았다.
RRC는 센서에 대한 가시성과 탐지 기능을 제공한다. 보안담당자는 원격 측정(Telemetry) 데이터를 수집하고, 공격적 행동 지표를 식별하며, 탐지 및 예방작업을 수행하는 데 사용한다. RRC는 콘텐츠 구성 업데이트 형태로 팔콘 센서에 제공된다.
지난 19일(현지시간), RRC의 콘텐트 구성 시스템(Content Configuration System)를 통해 생성·구성되는 두 개의 프로세스 간 통신(InterProcessCommunication, IPC) 템플릿 인스턴스(Template Instance)가 배포됐다. 배포 전, 콘텐트 구성 시스템에 포함돼 있는 콘텐츠 검증기(Content Validator)를 통해 검증이 이뤄지지만 이 검증기의 버그로 인해 템플릿 인스턴스에 포함돼 있던 문제가 있는 콘텐츠 데이터를 걸러내지 못한 채 유효성 검증을 통과했다. 이후 문제의 인스턴스는 프로덕션에 배포됐다.
회사측은 “템플릿 형식(Type)을 처음 배포(2024년 3월 5일)하기 전 실시한 테스트, 콘텐츠 검증기에서 수행된 검사에 대한 신뢰, 이전의 성공적인 IPC 템플릿 인스턴스 배포 사례를 기반으로 이 인스턴스를 프로덕션에 배포했다”며 “이를 센서에서 수신해 콘텐츠 인터프리터(Content Interpreter)에 로드했을 때, 문제가 있는 콘텐츠로 인해 아웃오브바운드(Out-of-Bound) 메모리 읽기로 인한 예외가 발생했다. 이 예상치 못한 예외를 정상적으로 처리할 수 없어 윈도우 운영체제 충돌(BSOD)이 발생했다”고 장애 발생 경위를 설명했다.
크라우드스트라이크는 재발방지 대책으로 소프트웨어 복원력과 테스트 절차를 개선할 방침이다. ▲로컬 개발자 테스트 ▲콘텐츠 업데이트와 롤백 테스트 ▲스트레스 테스트와 퍼징(fuzzing), 폴트 인젝션(fault injection) ▲안정성 테스트 ▲콘텐츠 인터페이스 테스트를 수행하는 한편, RRC에 대한 콘텐츠 검증기 관련 추가 검증 검사를 수행해 문제 있는 콘텐츠가 배포되지 않도록 새로운 점검 방법을 도입하기 위한 작업을 현재 추진하고 있다. 아울러 콘텐츠 인터프리터에서 기존 오류 처리 기능도 강화할 계획이다.
또한 RRC 콘텐츠에 대한 단계적 배포 전략을 도입하고, RRC 배포 중간에 피드백을 수집해 단계적 롤아웃에 반영해 센서·시스템 성능 모니터링 방식을 개선할 방침이다. 업데이트 배포 시기와 위치를 세분화해 선택할 수 있도록 해, RRC 업데이트 제공에 대한 고객의 통제력도 강화시키는 등 RRC 배포 관련 개선 조치도 시행할 예정이다.
크라우드스트라이크는 이번 중간 보고서 내용을 회사 홈페이지에 공개했다. 이와 함께 영어로 작성한 원본을 제외하고 한국어를 포함해 9개 언어로 된 10가지 버전의 번역본도 함께 게시했다. 회사측은 이번 사고에 대한 모든 조사가 완료된 후 원인 분석 보고서 전문도 공개할 예정이라고 밝혔다.
글. 바이라인네트워크
<이유지 기자>yjlee@byline.network