[1015장애] 달라질 카카오, ‘이것만큼은 한다’ 확언

‘이프(카카오)데브 2022’ 개발자 행사 기조발표
IT 엔지니어링 전담 조직 신설…별도 상위조직 입지
‘허술한 이중화’ 대폭 개선…삼중화·다중화 전환
안산 데이터센터, 전원장치·배터리실 격벽 분리…3중 진화 작동
엔지니어링 혁신 투자금, 대폭 확대…지난 5년간보다 3배↑

카카오 비상대책위원회 남궁훈 재발방지대책 공동 소위원장

카카오가 7일 온라인으로 개발자 행사 ‘이프(카카오)데브 2022’를 개최해 지난달 판교 데이터센터 화재 당시를 반추하고, 앞으로 변화상을 짚었다. 대부분 내용이 앞서 회사가 발표했거나 언론에 나온 바를 언급했으나, 상세한 기술적 미비점과 개선사항에 대한 확언을 더해 눈길을 끌었다.

남궁훈 카카오 비상대책위원회(비대위) 재발방지대책 공동 소위원장은 이날 행사 기조발표에서 “완벽하지 못했던 이중화를 비롯한 카카오 인프라 개선을 위해  ▲과거의 원인을 분석 ▲현재에 대한 재발방지책 ▲미래에 대한 투자 크게 3가지 관점에서 실천과제를 세웠다”고 말문을 열었다.

남궁 소위원장이 내세운 가장 큰 변화는 ‘인프라 조직의 재구성’이다. 새로 영입한 고우찬 재발방지대책 공동 소위원장을 포함해 IT 엔지니어링 전문가 전담 조직을 만들었다. 남궁 소위원장은 “해당 조직은 기존 개발조직에서 분리돼 별도의 상위조직으로 존재할 것”이라고 강조했다.

그는 “이프(if) 카카오, 만일 카카오가 이랬더라면 이런 불상사가 일어나지 않았을 텐데 생각을 여러 번 했다”며 “하지만 사고는 이미 발생했고 조금은 늦었지만 지금이라도 반성하고 개선해나가려고 한다”고 말했다. 이어서 “카카오의 서비스 안정화가 우리의 최우선과제이며, 사회적 책임이라는 것을 항상 명심하겠다”고 덧붙였다.

이프(카카오)데브 2022 중계 갈무리

판교 데이터센터에 집중된 이중화 조치들

이확영 비대위 원인조사 소위원장(Grepp 대표)은 “일부 시스템이 판교 데이터센터 내에서만 이중화돼 있어서 장애 복구가 늦었다”며 “하나의 데이터센터에서 장애가 발생하면 다른 데이터센터로 자동 전환해주는 시스템이 작동해야 하는데 이 시스템마저 판교 데이터센터에만 설치돼 있었고 수동 전환 작업을 진행하게 돼 복구가 지연됐다”고 분석 결과를 내놨다.

카카오가 앞서 간담회로 밝힌 ‘운영 관리 도구들의 이중화 미비’도 이유로 들었다. 이 소위원장은 “사용자 서비스에 직접적으로 필요한 시스템 외 서비스의 개발과 관리를 위한 운영 관리 도구가 필요한데, 이 도구들의 이중화가 미흡했다”며 “일부 모니터링 도구 등을 화재 여파로 사용할 수 없어 복구에 상당한 시간이 소요됐다”고 회고했다.

‘가용 자원의 부족’도 이유 중 하나다. 이 소위원장은 “판교 데이터센터 전체를 대신할 만큼의 가용 자원이 확보돼 있지 않아 판교 데이터센터에 전원이 들어와 모든 시스템이 정상화되기 전까지 복구를 완료할 수 없었다”며 “개별 부서나 시스템마다 다른 이중화 수준 및 체계, 부족한 상면(설치공간) 등으로 문제가 생기지 않도록, 회사 차원에서 체계적 이중화를 준비했어야 했다”고 지적했다.

윗줄 왼쪽부터 시계방향으로 카카오 비상대책위원회 남궁훈 재발방지대책 공동 소위원장, 이확영 원인조사 소위원장, 고우찬 재발방지대책 공동 소위원장, 이채영 재발방지대책소위원회 부위원장 (사진=카카오)

‘삼중화·다중화’로 간다

이채영 비대위 재발방지대책소위 부위원장은 “데이터센터 간 운영관리 도구 이중화를 완료했고, 향후 삼중화를 계획하고 있다”고 밝혔다. 허술한 이중화를 더욱 개선하고, 서비스 애플리케이션 등을 분산 배치해 장애 복구 조치를 즉각 실행할 수 있는 환경을 구축할 예정이다. 인프라 하드웨어 설비부터 전체 시스템 단에서 대비책을 마련하고 실행한다. 자세한 기술적 내용은 내일(8일) 공개한다.

주요 개선사항으로는 ▲모니터링과 장애 탐지가 잘 작동할 수 있도록 모니터링 시스템 다중화 ▲메인 백본 센터를 현재 두 곳에서 세 곳으로 확대하고 데이터센터 간 늘어날 트래픽에 대응할 수 있도로 설비 투자 진행 ▲대용량 트래픽 전송에 필요한 서비스의 데이터센터 간 별도 전용망 구성 등이 있다.

카카오는 드루이드(Druid)와 하둡(Hadoop)에 대한 추가 다중화가 필요한 상황으로 보고 있다. 클러스터 다중화 작업과 함께 데이터센터 간 노드 분산을 확대 조치하고 모든 형태의 데이터를 다중 복제 구조로 구성한다.

현재 카카오는 플랫폼 도구를 클러스터(연계 작동하는 구조) 형태로 운영 중이다. 이 때문에 많은 서비스가 동시다발적으로 장애를 겪었다. 카카오 클라우드에서 데이터 유실은 없었으나, 데이터 위치를 찾기 어려웠던 문제도 발생했다.

이 부위원장은 “모든 클러스터를 삼중화해 데이터센터의 전면적인 장애에도 서비스 수준을 유지할 수 있는 구조로 운영할 계획”이라며 “각 도구의 사용 목적, 서비스 영향도와 클러스터별 중요도를 정기적으로 파악하는 프로세스를 도입하고, 서버 장애 시 영향을 받는 대상에 대한 공지를 자동화하겠다”고 약속했다.

또 이 부위원장은 “인프라 하드웨어 설비부터 서비스 애플리케이션에 이르는 전체 시스템 다중화를 설계하고 구축하겠다”며 “장애 대비 훈련도 더욱 확대 강화해 카카오의 서비스가 더욱 견고해질 수 있도록 노력하겠다”고 힘줘 말했다.

재해복구위원회 신설…외부 파트너와 비상대응계획

카카오는 2024년 가동을 목표로 총 4600억원을 들여 안산에 데이터센터를 시공하고 있다. 무정전전원장치(UPS)실과 배터리실은 방화 격벽으로 각각 분리 시공하고, 배터리실에서 화재가 발생해도 나머지 시설에 영향을 주지 않게 설계했다. 혹여나 배터리실에서 화재가 발생해도 4개 섹터를 확보해 안정성을 극대화하고 동시에 3중의 진화방식이 단계적 작동하도록 대비책을 갖춘다.

고우찬 비대위 재발방지대책 공동 소위원장은 “IT 엔지니어링 전담 조직 확대 검토 및 대규모 장애 대비 재해복구 위원회를 신설할 예정”이라며 “각종 자연재해와 인위적 사건 사고로 사업이 중단되는 영향을 최소화하기 위해 비상대응계획(BCP) 및 데이터센터 삼중화로 DR(재난복구) 체계를 구축하겠다”고 말했다.

카카오 BCP는 외부 파트너와 협력해 준비한다. DR 체계는 데이터센터 삼중화에 더해 주요 서비스를 멀티 클라우드를 활용해 연속성을 더욱 강화한다. 원격지 DR 데이터센터를 별도 구축하는 방안도 검토한다. 고 소위원장은 “향후 5년간 지난 5년간 투자금액의 3배 이상 규모로 투자를 확대한다”고 공언했다.

글.바이라인네트워크
<이대호 기자> ldhdd@byline.network

 

관련 글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다