“L4가 100%는 아니었다”… ‘정부24’ 마비 진짜 이유는 라우터 장애

‘L4 스위치’에서 ‘라우터’ 오류로 결론
“해킹 징후는 없어, 노후 장비 전수점검”

정부24 시스템 마비의 원인이 당초 지목됐던 L4 스위치가 아닌 네트워크 케이블을 연결하는 장비인 ‘라우터’ 포트 불량 때문인 것으로 드러났다. 여러 상황 시나리오로 검증한 결과 라우터의 불량이 확인됐다는 게 정부의 설명이다. 해킹 징후는 없는 것으로 파악됐다. 정부는 오래된 장비 전수점검에 나서는 한편 장애 처리 매뉴얼 수립과 서비스 중단 매뉴얼 수립 등의 대응책을 내놨다.

행정안전부는 지난 25일 정부서울청사에서 ‘지방행정전산서비스 장애 원인 및 향후 대책 브리핑’을 개최했다. 지난 17일과 18일에 걸쳐 일어났던 정부24 마비 사태와 관련한 두 번째 브리핑이다.

사태 이후 꾸려진 지방행정전산서비스 개편 태스크포스(TF) 조사 결과에 따르면 정부24 시스템 마비 사태는 네트워크 장비인 라우터 불량 때문이다. 고기동 행안부 차관과 함께 TF 공동팀장을 맡은 송상효 숭실대 교수는 “(정부24 시스템 오류) 현상의 원인은 라우터 장비에 케이블을 연결하는 모듈에 있는 포트의 일부가 이상이 있었기 때문”이라고 말했다.

정부는 원인 분석을 위해 다양한 시나리오로  부하 테스트를 진행했다. 구체적으로 ▲통합인증서버로의 트래픽 유입량을 변경하는 경우 ▲L4 스위치를 경유하지 않는 경우 ▲패킷 크기를 변경하는 경우 ▲서비스 사용자 수를 500명 또는 1500명 등으로 다양하게 변경하는 경우 ▲L4 장비를 경유하는 네트워크 대역폭을 변경하는 등 다양한 형태로 네트워크 영역에서의 접속지연 및 이상 유무를 확인했다.

특히 국가정보자원관리원 광주센터와 대전센터의 연결 부분을 상세 분석한 결과 라우터 포트 불량이 발견됐다. 라우터는 서로 다른 네트워크 장비 간 케이블을 연결해 주는 장치를 말한다. 라우터에서 패킷을 전송할 때 용량이 큰 패킷이 유실되는 현상이 관찰됐다. 특히 1500바이트 이상의 패킷은 약 90%가 유실됐다.

구체적으로 패킷이 유실되면서 통합검증서버가 라우터로부터 서비스 제공에 필요한 패킷을 정상적으로 수신할 수 없었고, 지연이 중첩돼 정상 작업이 어려웠다는 설명이다. 다른 포트로 연결하자 지연 현상이 해소됐다. 송 교수는 “이는 로그에서도 확인할 수 있다”고 부연했다.

단 해당 라우터 장비의 노후화 때문은 아니라는 진단이다. 해당 장비는 2016년 도입돼 사용기한이 만료되지 않았다. 브리핑에 동석한 이재용 국가정보자원관리원장은 “물리적인 부품의 손상 원인은 밝혀내기가 상당히 어렵다”며 “평소 시스템 모니터링과 함께 육안 점검을 매일 진행하지만 부품에 예상치 못한 고장이 발생하는 것을 미리 잡아내기는 어렵다”고 말했다.

“다른 원인 찾다 라우터 오류 발견”

앞서 행안부는 장애 직후인 지난 19일 브리핑에서는 L4 스위치를 문제 원인으로 지목한 바 있다. 하지만 해당 장비에 구체적으로 어떤 문제가 일어났는지는 설명하지 못했다. 이에 학계와 업계에서는 L4 스위치 오류치고는 구체적인 원인 규명이 너무 오래 걸린다는 지적이 나왔었다.

장애 전날 L4 스위치 운영체제 업데이트가 있었고, 비정상 로그가 다수 반복된 것이 확인됐다. 이에 우선 L4 스위치를 문제로 봤다는 게 TF의 전언이다. 그러나 업데이트를 롤백해 보니 L4 스위치가 원인이 아니었고 추가 조사를 진행해 원인을 밝혔다는 설명이다.

서보람 행안부 디지털정보실장은 “(장애 원인으로) L4 장비로 추정된다 또는 판단된다는 말씀을 드렸던 것이 100%는 아니었다”며 “다른 원인을 찾는 과정에서 나온 것이 라우터에 있는 모듈이었다”고 말했다.

송 교수도 “결과에 대한 재확신을 가지기 위해 당초 지목됐던 L4 장비와 라우터를 이용해 장애 당시와 유사한 환경을 구현해 검증했다”며 “반복적으로 원인에 대한 재현 가능성을 확인하는 작업을 수행한 결과 검증 환경에서도 동일하게 라우터의 패킷 유실, 즉 장애를 유발할 수 있는 현상이 재현됐다”고 말했다.

그는 “아쉬웠던 것은 장애 발생일 이후 이번 결과를 발표하기까지 기간이 국민께서 생각하신 시간보다 오래 걸렸다는 점”이라며 “종합적으로 검토할 필요가 있었고, 충분한 검증을 통해 신중하게 결과를 설명할 필요가 있었다”고 덧붙였다.

해킹 징후는 없어

송 교수는 해킹에는 선을 그었다. 외부에서의 공격과 내부에 심어 놓은 스파이웨어 등 다양한 상황을 가정해 보안당국과 함께 확인했지만 현재까지는 해킹 징후가 보이지 않았다는 분석이다. 정부24와 별개로 발생했던 ‘나라장터’ 시스템 오류도 재차 점검했다고 설명했다.

정부는 앞으로 이러한 국가 전산망 마비를 재난 및 사고 유형으로 명시하고 예방부터 복구까지 체계적 관리 방안을 마련할 방침이다. 고기동 행안부 차관은 “이번 장애를 반면교사 삼아 다시는 이런 일이 재발하지 않도록 근본적이고 실효성 있는 보완대책을 마련하겠다”고 밝혔다.

우선 이번에 유사한 포트 불량이 있을 수 있는 오래된 장비 전수 점검에 나서는 한편 장애 발생 시의 처리 매뉴얼을 보완하기로 했다. 다양한 수단으로 서비스 복구 상황도 알릴 방침이다. 장애 징후를 빨리 포착할 수 있도록 중요 서비스 시스템과 연관 장비들에 대한 통합 모니터링 체계를 구축하고 상설 장애대응반도 구성할 예정이다.

글. 바이라인네트워크
<이진호 기자>jhlee26@byline.network

[컨퍼런스] AI 에이전트와 지능형 인터페이스 시대

◎ 일시 : 2025년 3월 27일 오후 12:30 ~
◎ 장소 : 서울 강남구 테헤란로7길 22 ST Center (과학기술컨벤션센터) 지하 1층 대회의실 2

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다