마이크로소프트 애저는 추석 연휴에 왜 멈추었나

추석 연휴가 한창이던 지난 15일 IT업계에서는 약간의 이슈가 하나 있었습니다. 마이크로소프트의 클라우드 서비스 애저가 갑자기 멈추어버린 것입니다. 중단된 서비스는 아래와 같습니다.

  • App Service / Web Apps
  • Service Bus
  • Redis Cache
  • Azure Backup
  • Visual Studio Team Services
  • Azure Media Services
  • Azure Search
  • SQL Database
  • HD Insight
  • Application Insight
  • IotHub
  • AzureLog Analytics
  • Azure Automation
  • DataMovement

5f43e6709c5774286bf492ff73cfc6bb특정 리전(지역)만 장애를 겪은 것이 아닙니다. 애저의 글로벌 서비스가 함께 중단됐습니다. 클라우드 서비스의 큰 장점으로 고가용성(HA)이 꼽히는데, 이처럼 복수의 리전이 함께 멈추면 기대했던 고가용성은 제대로 작동되지 않죠.

애저와 같은 글로벌 인프라 서비스가 중단되면 그 피해는 어마어마합니다. 그 위에서 구동되는 무수한 서비스 게임이나 모바일 앱들이 모두 멈추기 때문입니다.

장애는 2시간여만에 복구 됐지만, 한국의 경우 연휴였기 때문에 이번 장애로 많은 관리자들이 적지 않은 고생을 했을 것으로 예상됩니다.

이에 대해 마이크로소프트는 18일 이번 장애의 원인과 개선 방안을 정리해 발표했습니다.

이에 따르면, 이번 장애의 원인은 네트워크 장비의 소프트웨어 버그라고 합니다. 갑자기 네트워크 트래픽이 급증했는데, 네트워크 장비가 소프트웨어 버그로 인해 이를 적절히 관리하지 못했기 때문인 것으로 나타났습니다. 적절한 DNS 요청을 잘못된 것으로 인지하는 오류를 낳았고, 관련된 애저 서비스가 장애를 겪게 됐다고 합니다.

마이크로소프트는 이 네트워크 장비의 비정상적 행동을 무시하도록 구성을 변경해 급한 불을 껐습니다.

하지만 문제가 여기서 끝나지 않았습니다. 대부분의 리전에서는 위의 방식으로 문제가 해결됐는데 미국 중부의 리전에서 제공하는 애저 SQL 데이터베이스와 DW 서비스에 새로운 문제가 생겼습니다. DNS 문제를 완화시키자 다시 연결하기 위한 트래픽이 폭증했습니다.

애저 SQL 서비스는 대용량 리퀘스트에 대응할 수 있다고 자랑해왔지만, 불행히 이번 미국 중부 리전이 경험했던 리퀘스트의 수는 마이크로소프트가 예상했던 수준을 훨씬 넘어서는 것이라고 합니다. 이 때문에 전 세계 애저 서비스가 정상화 된 이후에도 미국 중부의 SQL 데이터베이스, DW 서비스는 한동안 장애가 계속 됐습니다.

medium_PastedGraphic-8한편 이번 장애는 마이크로소프트가 약속한 서비스수준계약(SLA)의 범위를 초과하지는 않는 것으로 전해졌습니다. 마이크로소프트는 이번에 가장 장시간의 장애를 겪은 SQL 데이터베이스, DW 서비스 등이 약속한 가용성의 60%를 소모한 것으로 평가했습니다.

마이크로소프트 애저는 컴퓨팅 서비스의 경우 99.95%의 SLA를 약속하고, 그외의 서비스는 99.9%의 SLA를 약속합니다.

글.바이라인네트워크
<심재석 기자>shimsky@byline.network

관련 글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다