AWS 고객들은 왜 멀티리전 DR을 하지 않았을까

22일 아마존의 클라우드 서비스인 아마존웹서비스(AWS)의 장애는 우리에게 적지 않은 충격을 줬다. 쿠팡, 배달의민족, 업비트, 코인원, 마켓컬리, 푹(POOQ), 야놀자, 다방, 나이키 등 주요 온라인 서비스가 모두 마비됐기 때문이다. 이 서비스들이 중단돼서 입은 피해를 계산하면 천문학적인 금액이 나올 것으로 분석된다.

장애 원인은 ‘DNS 설정 오류’로 알려졌다. AWS코리아 측은 “근본 원인은 설정 업데이트 시 서울 리전의 EC2 DNS 확인 서버군의 최소 정상 호스트를 지정하는 설정을 잘못 제거한 것에 따른 것”이라며 “이로 인해 최소한의 정상 호스트 구성 기본 설정 값이 매우 낮은 것으로 해석돼 정상 서비스 호스트 숫자가 줄어들었다”고 설명했다.

이번 장애로 국내에서 AWS의 위상이 드러났다. 수많은 서비스가 AWS 기반으로 구동되고 있음이 나타났다. 쿠팡의 경우 어떤 클라우드를 이용하고 있는지 영업기밀처럼 지켜왔는데, 만천하에 AWS 고객임이 드러났다. 스타트업의 경우 상당수가 AWS를 이용하고 있음이 알려졌고, 이들이 성장할수록 AWS의 영향력은 커질 것으로 전망된다.

문제는 안정성이다. AWS가 멈추자 한국의 주요 인터넷 서비스가 멈췄다. 7.7 디도스와 같은 대규모 해킹공격보다 더 큰 피해가 발생했다.

이 때문에 재해복구(DR)에 대한 필요성이 크게 대다. DR은 화재, 홍수, 지진 등 천재지변 등 예상치 못한 사태에 데이터센터에 장애가 발생했을 때를 대비해 원거리에 복제 시스템을 두는 것을 말한다.

국내 인터넷 기업은 DR에 소극적인 편이다. DR보다는 고가용성(HA)에 주로 투자한다. HA는 특정 시스템에 장애가 났을 때 다른 시스템이 이를 받아 서비스를 계속 하는 기술이다. HA는 같은 지역 내에서 시스템을 이중화, 삼중화 한다. 이번 AWS 장애처럼 지역 전체 시스템에 문제가 발생했을 때는 HA가 할 수 있는 일이 없다.

많은 전문가들은 이번 AWS 장애 이후 ‘멀티 리전 DR(복수의 리전에 DR 시스템을 두는 것)’의 중요성을 이야기 한다. 한 IT전문가는 “이번 AWS 장애는 한국 리전에서만 벌어졌다. 일본 등 다른 리전을 이용하는 기업은 장애에서 예외였다”면서 “다른 리전을 복수로 이용했다면 이와 같은 큰 피해는 입지 않았을 것”이라고 말했다.

이와 관련 이번에 장애를 겪은 A 업체 관계자는 “멀티 리전 DR이 필요하다는 것은 알지만, 비용이 두 배가 들기 때문에 당장 하기 어렵다”고 말했다.

B 업체 관계자는 DR무용론을 꺼냈다. 이 관계자는 “이번에 한국 리전 전체가 다운됐는데 다른 리전에 DR이 돼 있더라고 하더라도 다른 리전에서 서비스 가동되기까지 시간이 많이 걸린다”면서 “다른 리전에서 서비스를 생성하는 중간에 한국 리전이 복구됐을 가능성이 높다”고 전했다.

C업체는 멀티 리전은 아니지만 AZ( Availability Zone, 가용 영역) 수준의 DR을 하고 있었다. AZ는 한 리전에 속해 있지만 물리적으로 분리된 데이터센터다. 하나의 리전은 복수의 AZ로 구성된다. AWS 서울리전도 두 개의 AZ로 구성돼 있으며 하나는 수도권에, 하나는 비수도권에 존재하는 것으로 알려져있다.

리전과 AZ 개념(출처 : AWS 홈페이지)

C 업체 관계자는 “이런 사태를 대비하기 위해 (서울 리전) 두 개의 AZ에 서비스를 병행해 운영하고 있었다”면서 “그럼에도 불구하고 이번 장애는 서울 리전 전체에 여파를 미쳤기 때문에 어쩔 수 없었다”고 설명했다.

이 관계자는 “다른 리전을 안 쓴 이유는 한국 리전보다 응답시간이 조금 더 오래 걸리는 부분이 있어서, 서비스를 운영하는 시스템 사이에 동기화할 정보들이 많이 있는 경우 시스템 부하 문제가 있을 수 있기 때문”며넛 “이번을 계기로, 일부 비용을 감수하고라도 향후 도쿄 리전을 병행해 이용하는 것을 내부 검토 중”이라고 말했다.

글. 바이라인네트워크
<심재석 기자>shimsky@byline.network

관련 글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다