‘밧데리’ 불꽃으로 마비된 국가 전산망, 의문점들

지난 26일 국가 전산망을 운영하는 국가정보자원관리원(이하 국정자원) 대전본원에서 화재가 발생해, 정부 업무 시스템이 마비됐다. 전산실 배터리를 전산장비와 분리하는 작업중 일어난 사고로, 정부는 하루만에 화재를 완전진압한 뒤 주말 내내 밤샘 복구 작업을 벌였다. 가동 중단된 정부 업무 시스템 647개는 28일부터 조금씩 복구되고 있지만, 완전 전소된 시스템 96개의 복구 시점은 2~4주 더 걸릴 것으로 전망된다.

화재는 대전 본원 5층 전산실 7-1의 리튬이온배터리에서 발생했다. 서버와 연결된 배터리를 격리할 목적으로 분리해 이동시키려다 케이블을 제거하고 전원을 끄자 불꽃이 튀며 화재로 이어졌다는 설명이다. 10시간만에 초기진압이 완료됐지만 정부는 항온항습기 미작동으로 인한 과열을 우려해 모든 장비의 전원을 차단했다. 이로 인해 국가자원 내 업무시스템 647개의 가동이 중단됐다. 중단됐던 서비스는 복구 절차를 거쳐 순차적으로 정상화되고 있는데, 현재까지 62개 복구됐다.

화재 사고 발생 3일. 이론적으로 고전적 재해복구(DR) 시스템만 제대로 갖추고 있었다면, 대전과 한참 멀리 떨어진 광주와 대구의 제2, 제3 데이터센터를 통해 전산 서비스가 수시간 안에 정상화돼야 한다. 그러나, 직접 피해를 입지 않고 항온항습기 미작동 때문에 일괄 전원 차단했던 시스템조차 오랜 시간 뒤에야 정상화되고 있고, 불타 사라졌다는 시스템의 복구 시점은 묘연하다.

2022년 정부전산망 장애에 강동석 전 행정안전부 국가정보자원관리원장은 장애 발생 시 3시간 이내 복구할 수 있다고 밝혔었다.

두세시간 만에 실시간 복구될 수 있다고 호언장담했던 국가정보자원관리원의 2년전 발표는 허풍으로 전락했다. 이번 화재 사태에서 드는 의문점을 정리했다.

1. 복구목표시간(RTO)은 언제였나

2023년 연이은 정부 전산시스템 장애에 작년 1월 31일 당시 정부는 ‘디지털행정서비스 국민신뢰 제고 대책’을 국무총리 주재 제34회 국정현안관계장관회의에서 확정해 발표했다. 국가 정보시스템의 모든 전산장비에 이중화 체계를 마련하고, 전산 장애에 대한 대응 체제를 정비한다는 내용이었다.

여러 보도에 따르면, 정부는 작년 국정자원 일부 시스템을 시범 선정해 액티브-액티브 DR 체계 도입 검증에 나섰다. 올해 통합운영관리시스템(nTOPS)의 재해복구 시스템을 ‘액티브-액티브’ DR 시범 구현 대상으로 선정하고 시스템을 구축하는 내용의 시범사업을 진행 중인 것으로 알려졌다.

2022년 행안부 발표와 2024년 정부의 발표를 고려하면, 정부는 액티브-스탠바이 형태의 DR 체계를 갖추고, 장애 시 백업 데이터를 바탕으로 빠르게 복구한다는 방침을 갖고 있었다.

하지만 실제로 DR 체계는 가동되지 않았다. 행안부는 27일 브리핑에서 “복구까지 3시간을 목표로 잡은 것은 맞지만, 이번 장애의 경우 화재로 인한 것이라 화재 진압에 오래 걸렸고, 오전까지 열기가 빠지지 않아 복구 작업에 착수못한 것”이라고 해명했다.

또한 광주와 대구 분원의 백업 시스템에 대해 “스토리지나 데이터 백업 전용 형태로만 마련된 경우가 있어 모든 시스템을 즉시 전환하기는 어렵다”고 설명했다.

종합하면, 현 시점의 국정자원 시스템에 대한 RTO는 3시간이다. 만약 장애 직전까지의 데이터가 모두 백업돼 있고, 애플리케이션 소스코드와 네트워킹, 보안 등의 설정을 백업해 놓은 상태에서 유휴 서버와 스토리지만 있었다면 3시간 내 광주나 대구의 데이터센터로 정부 전산 서비스가 돌아가야 했다.

공지의 사실로, 광주와 대구 분원은 적기 페일오버에 실패했다. 대전 본원 647개 시스템 중 25개만 광주센터에 DR을 갖췄다고 하며, 3시간이 아니라 48시간 뒤에야 복구됐다.

보수적인 액티브-스탠바이 DR 체계라면, 본 서비스의 장비와 동일 사양, 동일 용량의 장비가 DR 센터에 위치해야 한다. 그러나 정부가 도입한 액티브-스탠바이 DR 체계는 대부분 네트워크 장비(예: 라우터)만 이중화해 통신 장애이중화만 갖추고, 실제 컴퓨팅 장비의 이중화는 하지 않았던 것으로 보인다.

백업에 대해서도 민간과 공공 간 인식 차이가 엿보인다. 이는 지난 2022년 카카오 데이터센터 화재때도 동일하게 벌어진 장면이었다. 당시 카카오도 이중화와 백업을 했다고 해명했지만 실제는 데이터 소실에 대비한 복제와 소산이었을 뿐 복구에 초점을 두진 않았었다. 정부도 전산시스템의 데이터를 주기적으로 복제해 보관해두는 소실 측면의 대비만 했다.

데이터 백업마저도 최신 데이터를 담지 못했다. 28일 대통령 주재 화재대책회의에서 이재명 대통령이 데이터 백업 주기를 물었고, 관련 규정 상 데이터 백업 주기는 ‘1개월’이었던 것으로 전해졌다. 마지막 데이터 백업 시점은 알려지지 않았지만, 화재 발생으로 데이터 소실이 있을 것으로 예상된다. 애플리케이션 코드 백업 여부는 불확실하다. 애플리케이션을 백업했다고 해도 너무 오래된 백업본이라면 그 사이 보안 및 버그 패치가 적용되지 않은 버전일 수 있어 재가동에 시간이 걸린다.

가장 큰 문제는 종합적인 비즈니스 연속성 계획(BCP)을 갖고 잇었냐다. 행안부의 브리핑에 의하면, 각 시스템마다 DR이 다르게 돼 있어 DR을 발동할 지 원 시스템을 가동할 지 일일이 판단하는 상황이다. 작년 행안부의 종합 대응 체계 구축은 허언이었던 셈이다.

2. 클라우드를 쓰지 않아서 DR에 실패했나

화재 사태로 여러 전문가들이 AI 자동화와 민간의 클라우드를 도입해야 한다고 조언하고 있다. 액티브-액티브 DR 체계는 클라우드 환경이어야 구축 가능하다는 식의 주장도 나온다.

액티브-액티브 DR 체계는 클라우드든 구축형이든 상관없이 구축가능하다. 시스템 이중화를 구현할 때 1대1로 동일한 장비와 시스템을 물리적으로 떨어진 곳에 구축하고, 두 시스템을 모두 가동하는 게 액티브-액티브 DR이다. 가동중인 시스템 두곳 중 하나에 문제가 생기면, 장애 발생 지점으로 흐르는 트래픽을 정상 상태인 다른 한 곳으로 보내 시스템을 유지하는 방식이다. 액티브-스탠바이는 백업용 센터를 PC의 초절전모드처럼 최소한의 전원 상태만 유지하고 있는 것이다.

문제는 데이터 백업 혹은 동기화의 체계다. 액티브-스탠바이 형태라도 데이터 백업 주기만 짧다면 정상화까지 시간을 크게 줄일 수 있다. 백업 주기가 길어지면 데이터베이스 스키마와 애플리케이션 버전의 불일치 발생 가능성이 커지고, 백업센터의 오리진센터로 승격이 실패할 수 있다. 원격지 DR의 경우 통신망 전환 속도가 또 다른 요소기도 하다.

이는 클라우드냐 물리적 장비 구매냐로 불가능과 가능을 판가름하는 문제가 아니다.

1차적인 문제는 비용이다. 클라우드든 서버 구매든, 어떤 형태의 DR 체계든 이중화를 구현하려면 구현하는 시스템 사양 도입 비용의 2~3배를 책정해야 한다. 서버 하나 살 것을 2개를 사야하고, 스토리지 용량도 더 많이 갖춰야 한다. 특히 액티브-스탠바이 DR은 멀쩡한 시스템을 쓰지 않고 낭비하는 것으로 비춰져 재무담당 입장에서 예산 절감의 1순위 대상으로 취급된다.

행안부는 작년 4월 ‘(1,2 등급) 재해복구시스템 구축 투자 금지’ 지침을 내린 것으로 알려졌다. 시범사업을 거쳐 2026년부터 예산을 본격 투입하겠다는 계획이었다고 한다.

국정자원이 올해 예산에 반영한 재해복구 항목 예산은 30억원이었다.

현시점에서 클라우드를 활용해야 하는 이유는 안정성이나 기술적 문제보다 빠른 도입에 있다. 정부가 대구 분원에서 민간 클라우드 자원을 확보해 중단된 서비스를 재구축하겠다고 밝힌 건 이를 반영한 것이다. 정부가 물리적인 전산 자원을 구매하고 재구축하려면 긴급 발주를 하더라도 실제 배포까지 수주일씩 소요된다.

3. 시스템을 구축한 누군가는 지금 있나

이번 화재로 소실된 시스템은 수년전 구축된 게 다수다. 만약 완전 소실돼 재구축하려면 동일 사양의 장비에 동일한 환경 설정을 하고 안정성을 검증해야 한다.

여기서 떠오르는 질문은 복구 대상 시스템의 원본을 구축한 누군가가 지금도 남아 있느냐다. 복구 대상의 원본 아키텍처를 이해하고 있는 사람이 없다면, 시스템 정보의 문서화라도 잘 돼 있어야 한다. 우리나라 공공 IT시스템 구축 사업은 수개월, 수년의 외부 용역으로 진행되고, 하청과 재하청을 거쳐 완성된다. 조각을 이어붙이는 설계도가 남아있지 않고, 당시 담당자도 낭마있지 않으면 재구축에 오래 걸릴 수 있다.

공공 소프트웨어 사업은 시스템 구축 용역 사업과 시스템 유지보수 용역 사업으로 이어진다. 시스템 유지보수 사업과 구축 사업의 주체가 다른 경우가 많다. 유지보수 사업자도 편법 계약 시비를 우려해 정기적으로 바뀐다. 화재로 불타없어진 시스템의 구성을 잘 이해하고 복구에 활용할 수 있는 자료가 잘 보존되고 있길 바랄 뿐이다.

글. 바이라인네트워크
<김우용 기자>yong2@byline.network

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다


The reCAPTCHA verification period has expired. Please reload the page.