과천 데이터센터 화재·KT 먹통에도 제대로 배우지 못한 카카오
온 나라를 뒤집어 놓은 이번 카카오 사태는 사전적으로 예방할 기회가 있었다는 평가가 지배적이다. 재해복구(DR)를 비롯해 사전에 대응책이 제대로 마련돼 있지 않았다는 비판이 나온다. 과거에도 비슷한 사례가 발생했던 가운데 교훈을 얻지 못했다는 지적을 피할 수 없을 전망이다.
지난 2014년 4월, 삼성SDS 데이터센터에 화재다가 발생했다. 과천에 있는 센터 10층에 불이 나면서 삼성생명과 삼성카드 등의 홈페이지 접속과 결제 시스템이 먹통이 됐다. 직원들이 직접 드라이아이스를 날라 서버를 식히는 소동까지 있었다. 일주일 남짓 서비스가 영향을 받으며 온라인과 모바일 관련 DR이 제대로 구축되지 않은 것이 사태를 키웠다는 평가가 나왔다.
이번 사태는 데이터센터 지하 3층 전기실의 배터리에서 불이 난 것이 원인으로 추정되고 있다. DR과 화재가 사태의 핵심 요소라는 측면에서 삼성SDS 데이터센터 사례와 크게 다르지 않다.
DR은 천재지변이나 해킹 등 IT 인프라에 장애가 발생했을 때 이를 대체·복구할 수 있는 시스템이다. 크게 4가지 수준으로 나뉜다. 가장 높은 등급의 ‘미러사이트’를 비롯해 ▲핫사이트 ▲웜사이트 ▲콜드사이트 등이다. 미러사이트는 주 업무와 거의 동일한 환경을 복사해놓은 수준이라 복구시간(RTO)이 수 분에 불과하다. 핫사이트는 미러사이트 수준의 설비를 갖췄지만 이를 대기 상태로 두는 것을 말한다. 미러사이트보다 RTO는 오래 걸리지만 그래도 몇 시간 정도면 복구가 가능하다. 웜사이트는 주 컴퓨터 없이 디스크 드라이브 등의 설비를 통한 백업 시스템이고, 콜드사이트는 전산장비 없이 공간만 예비로 마련해둔 경우다.
카카오는 거의 모든 국민이 쓰는 서비스라 미러사이트나 적어도 핫사이트에 준하는 DR 시스템을 갖춰야 했다는 지적이 지배적이다. IT 대기업은 주로 핫사이트급 이상의 시스템을 쓰는 것으로 알려져 있다. 높은 수준의 DR이 제대로 구축돼 있었다면 복구가 이만큼 오래 걸리지 않았어야 했다.
앞서 카카오는 공식 발표를 통해 ‘모든 데이터를 국내 여러 데이터센터에 분할 백업하고 있으며, 외부 상황에 따른 장애 대응을 위한 이원화 시스템을 가지고 있다’고 밝힌 바 있다. 카카오 관계자는 “판교가 아닌 다른 데이터센터에 이중화가 일부 돼 있었다”면서도 “전통적인 DR 시스템은 아니다. 비슷한 역할을 수행하는 것으로 봐 달라”고 밝혔다. 카카오의 설명을 종합하면, 백업과 이중화는 돼 있었다고 하더라도, 서비스 완전 복구에 30시간 이상 오래 걸린 것에 비춰볼 때 물리적인 시스템 이원화를 통한 DR과 비즈니스연속성계획(BCP)이 제대로 구축되지 않았던 것으로 풀이된다.
카카오의 장애 사태는 이번 뿐만이 아니다. 2012년 4월 LG CNS의 가산 데이터센터의 전원 장치 이상으로 카카오톡 등 카카오 서비스가 4시간 가량 불통되는 사고가 있었다. 데이터센터가 아니라는 점에서 결은 다소 다르지만 통신이 먹통이 된 적도 있었다. 되레 파급력 차원에서는 더 비슷하다. KT 아현지사에서 2018년 11월 일어난 화재다. 서울 중구와 용산구, 마포구, 서대문구 등의 KT 통신망이 끊기며 휴대폰은 물론 초고속 인터넷과 카드 단말기 등에 장애가 발생했다. 카카오톡을 비롯해 카카오모빌리티와 카카오뱅크 등 카카오를 기반으로 한 서비스 전반이 영향을 받은 이번 사태와 흡사하다. 국민의 일상과 경제활동이 마비될만큼 사회적으로 크게 이슈화된 사태를 겪었으면서도 대응 시스템 구성에 소홀했다는 지적이 나올 수 밖에 없다.
카카오 관계자는 “모든 서버를 못 쓰는 이례적인 상황이 발생하는 것을 예상치 못했다”며 “이번과 똑같은 수준의 상황이 다시 생기더라도 장애가 발생하지 않도록 재발방지책을 마련하겠다”고 밝혔다.
글. 바이라인네트워크
<이진호 기자>jhlee26@byline.network