마이크로소프트 애저 장애 원인은 ‘액티브 디렉토리’

최근 발생한 마이크로소프트의 클라우드 서비스 ‘애저’ 장애의 원인은 보안활동 과정에서 ‘애저 액티브 디렉토리(AAD)’에 이상이 있었던 것으로 나타났다. 앞서 지난 15일(현지 시각) 마이크로소프트 애저 포털을 비롯해 협업 솔루션 팀즈, 오피스365, 익스체인지 등에 14시간 장애가 발생한 바 있다.

회사 측은 자체적으로 원인분석을 한 후 문제가 발생한 원인으로 ‘AAD’를 꼽으며 사과했다. AAD는 마이크로소프트 클라우드 서비스들의 계정을 관리하는 서비스다.

마이크로소프트는 문제의 원인에 대해 “최근 인증 시스템을 변경하는 과정에서 발생한 이슈”라고 설명했다. 회사 측에 따르면, 마이그레이션 과정에서 ‘만료’돼야 하는 인증 키가 ‘유지(retin)’라고 표시된 것이 문제가 됐다. 일정 기간이 지나면 보안 이유로 키를 만료시키고 지우는데, 마이그레이션을 위해 기간이 지난 키를 만료가 아닌 ‘유지’라고 표시했다고 한다.  원래 만료된 키만 지워야 하는데, 기간이 지났음에도 ‘유지’로 표시된 예외적인 상황에 자동화 시스템이 키를 삭제했다고 한다. 결국 이용자들은 애저 포털 등에 로그인을 할 수 없었고 AAD를 통해 연결된 모든 서비스를 이용할 수 없었다. 마이크로소프트 측은 문제를 발견한 후 곧바로 마이그레이션 작업을 중단하고 이전 버전으로 롤백했다고 설명했다.

사실 AAD는 마이크로소프트 클라우드 서비스의 아킬레스건이다. 2020년 9월에도 AAD에서 기인한 장애가 있었고, 2018년에는 텍사사의 AAD 허브가 번개를 맞아 장애가 발생한 적도 있었다.

마이크로소프트는 AAD 서비스를 개선하기 위해 여러 단계의 프로세스를 밟고 있다고 설명했다. 이와 함께 ‘백엔드 안전 배포 프로세스(backend Safe Deployment Process, SDP)’도 만들고 있다고 밝혔다.

회사 측은 “백엔드 안전 배포 프로세스가 마련되면 (새로운 코드 배포하다가 장애가 발생하는) 이런 위험성은 해결될 것”이라고 말했다.

글. 바이라인네트워크
<심재석 기자>shimsky@byline.network

[box type=”download”] IT기술을 활용해 기업의 비즈니스가 혁신해 나가는 소식을 주 1회 [엔터프라이즈 테크레터]에서 전해드립니다.  여기에서 구독을 신청해주세요. 이전에 발행된 엔터프라이즈 테크레터 보기[/box] 

관련 글

첫 댓글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다