클라우디안의 무중단 DR 구성 제안 : GSLB, EC 기반 액티브-액티브 오브젝트 스토리지 이중화

재난·재해 발생시 서비스 중단과 데이터 손실을 막기 위한 재해복구(DR) 시스템 구축을 위한 핵심 기술 방안으로 ‘글로벌 서버 로드밸런싱(GSLB)’과 ‘분산형 이레이저 코딩(Erasure Coding)’이 제시됐다. 일종의 네트워크 부하분산 기술인 GSLB와 빠르고 공간 효율적인 데이터 복제·보호 방식으로 알려진 EC 방식을 활용해 액티브-액티브(Active-Active) 오브젝트 스토리지 이중화를 구성하는 방안이다.

이균범 클라우디안(CLOUDIAN) 상무는 최근 개최한 바이라인플러스 ‘DR의 중요성’ 웨비나에서 ‘무중단 DR을 위한 액티브-액티브 오브젝트 스토리지 방안’을 소개했다. 이 상무는 먼저 화재나 침수, 정전, 지진, 전쟁이나 프로그램 오류와 해킹까지, 각종 물리·사이버 재난·재해 상황에서 데이터센터 서비스 중단을 막기 위해서는 “이중화와 백업 등 재해복구(DR)가 필수적”이라고 강조하면서, DR의 개념과 다양한 구축 방법의 장·단점을 비교해 설명했다.

이 상무에 따르면, 현재 주요 기업 조직들은 대개 데이터센터의 주요 자원을 이중화해 주 센터와 원격지 DR 센터를 두고 장애 발생시 ‘페일오버(Fail-over)’를 통해 서비스 중단을 막을 수 있도록 대비하는 방식을 채택하고 있다. 페일오버는 장애 발생시 자동으로 대체 시스템을 작동시키는 것을 말한다.

실시간 데이터 복구를 위해 주 센터와 가까운 곳에 액티브-액티브 DR 센터를 구성하고, 장거리에는 자연재해 등에 대비한 DR 센터를 운영하는 방식도 함께 고려한다. 스토리지를 사용하게 될 수밖에 없는데, 최근에는 여러 개의 스토리지를 하나의 스토리지처럼 관리하는 액티브-액티브 재해복구 기술이 대두되고 있다.

DR은 주로 인프라 측면에서 재해 발생시 빠른 장애 감지·알림, 발생한 장애 복구, 중단 없는 서비스, 데이터 보호 등을 목표로, 인프라 감시와 알림 체계, 이중화, 데이터 백업 구축이 이뤄진다.

특정 서버에 장애가 발생하더라도 중단 없이 서비스가 연속성 있게 제공될 수 있는 DR 체계를 구축하기 위해서는 이중화 아키텍처를 액티브-스탠바이(Active-Standby)가 아닌 액티브-액티브(Active-Active) 구조를 채택해야 한다.

액티브-스탠바이는 평상시에는 주된 인프라 자원을 이용해 서비스를 제공하다 주 장비에 장애가 발생했을 때 DR 시스템에 있는 보조(스탠바이) 장비가 작동해 대응하는 방식이다. 이 상무는 “상당수의 데이터센터는 주 센터와 DR 센터 간 액티브-스탠바이 형태로 운영하고 있다. 그러나 DR 센터의 백업과 데이터 정합 등의 이슈가 장애 발생시 복구에 많은 시간이 걸리게 한다”라면서 “DR 센터의 서버 운영체계(OS) 업데이트와 보안 패치를 주 센터와 동일하게 진행해 최신 버전으로 유지하는 게 쉽지 않기 때문”이라고 지적했다.

반면에 액티브-액티브 구조는 마스터 형태의 이중화로, 하나의 기능을 병렬로 여러 개 나열해 그 가운데 하나의 기능이 장애가 발생해도 다른 기능이 서비스를 중단 없이 계속 제공할 수 있게 하는 이중화를 구현한다. 이 상무는 “액티브-액티브 구조는 운용비용이 더 많이 들고, 멀리 떨어지지 않은 곳에 DR 센터가 존재해야 한다. 지연 시간 때문에 액티브-액티브 구성이 쉽지 않기 때문”이라며 “이러한 문제를 피할 수는 없지만, 액티브-액티브 구성을 위한 솔루션 측면의 방안을 소개할 수 있다”고 말했다.

가용성·부하분산·빠른 응답·가까운 접속 보장하는 GSLB, 그리고 EC

그는 먼저 GSLB를 특정 서버에 장애가 발생했을 때 서비스가 안정적으로 계속 제공할 수 있도록 유지해주는 이중화 솔루션으로 제안했다. GSLB는 도메인네임시스템(DNS) 서비스와는 달리 가용성과 부하분산, 서비스에 대한 빠른 응답을 보장하고, 지리적으로 가까운 곳으로 접속하게 해 다양한 이점을 얻을 수 있다는 것이다.

서버의 상태를 상시적으로 모니터링하다 트래픽이 증가해 서버의 응답속도가 저하되는 등 정상적인 작동을 하지 않는다고 판단되면, 네트워크 트래픽을 분산하거나 정상 인프라 자원으로 우회해 서비스의 안정성을 확보할 수 있다는 게 이 상무의 설명이다. GSLB를 활용한 네트워크 이중화 방안인 셈이다.

이 상무는 “도메인네임시스템(DNS)은 애플리케이션의 헬스체크, 즉 시스템이 살았는지 죽었는지 알 수가 없어 만약 미국에 있는 사이트가 장애가 난 상태이더라도 이 사이트에 접속하려는 사용자 가운데 50%는 지속적으로 연결을 요청하는 라운드 로빈(Round-Robin) 형태가 나타난다”고 말한 후, “GSLB는 주기적으로 애플리케이션 서버들의 헬스체크를 모니터링 할 수 있어서 다운된 사이트로 사용자가 연결되지 않도록 한다”고 비교했다.

또한 “DNS는 애플리케이션의 서버의 부하 상태를 알 수 없어 특정 사이트의 서버 부하 수치가 임계치 이상으로 올라가도 사용자 중 50%는 과부하 상태에 있는 서버에 연결 요청을 하게 된다. 반면에 GSLB는 가용 세션 수, 네트워크 사용량 등 네트워크와 서버 부하 상태를 주기적으로 체크해 과부하 상태의 서버를 사용자가 연결하지 않도록 한다”고 부각했다.

이밖에도 “GSLB는 로컬 DNS와 GSLB 사이의 왕복지연시간(Round Trip Time, RTT)을 측정해, 마치 사용자와 애플리케이션 사이의 네트워크 구간의 RTT를 측정한 것처럼 응답이 빠른 서버로 사용자를 연결시킨다”면서 “GSLB는 DNS와 달리 사용자의 지리적인 위치를 고려해서 애플리케이션 서버를 선택할 수 있어, 사용자가 가까운 서버에 접속할 수 있게 해준다. 이는 무엇보다 네트워크 장애(Fail)나 병목이 발생할 때 이점을 제공한다”고 덧붙였다.

이 상무는 “GSLB를 통해 네트워크 이중화가 구현되면, 스토리지는 복제(Replication)와 EC 방식을 이용해 데이터센터 간 데이터 복제와 보호를 수행할 수 있다”면서, 이 때 “데이터센터 간 데이터를 스트라이프 즉, 연속된 데이터 형태로 여러 개의 디스크를 더 빠르게 운용하는 방식으로 스토리지를 관리할 수 있다”고 말해, EC 방식에 무게를 실었다.

다만 그는 “관리자는 서비스수준협약(SLA), 그리고 비용 목표를 충족하는 복수 개체 수 또는 삭제 코드 체계 유형을 구성할 수 있다. 스토리지의 정책은 비용 효율성과 보안 수준, 근접성같은 요소가 고려돼야 한다”고 당부했다.

왜 오브젝트 스토리지인가

이 상무는 GSLB와 분산형 EC 방식 이용한 액티브-액티브 오브젝트 스토리지를 구성하게 되면, 데이터센터가 두 개 혹은 세 개 운영하다 한 곳에서 서비스가 불가능해지는 상황이 발생하더라도 중단 없는 서비스가 가능하다고 단언했다. 그는 “GSLB를 통해 액티브-액티브 서비스를 제공하게 되면, 각 GSLB는 라운드 로빈으로 데이터센터를 확인하지 않고 각 데이터센터를 노드로만 볼 수 있게끔 구성하게 된다”고 말을 보탰다. 그리고 “다만 분산형 EC 방식으로 구성할 때는 저지연(Low-Latency) 요구에 따른 ‘사이트 간 10밀리세컨드(ms)’를 충족해야 한다”는 점을 지적했다.

오브젝트 스토리지를 사용하는 이유로는 “확장성이 뛰어나고 관리가 쉬우면서도 비용효율적인 기업 스토리지 구축이 가능하다”는 점을 제시했다. 오브젝트 스토리지는 데이터를 개별 유닛에 저장한 뒤 메타 데이터를 작성해 특정 데이터를 쉽게 검색할 수 있게 해주는 특징이 있기도 하다. 이로 인해 비정형 데이터를 저장하기에, 클라우드 네이티브 환경 지원에도 효과적이라고 평가된다.

클라우디안은 바로 이 오브젝트 스토리지에만 주력하는 전문 기술기업이다. 지난 2011년 미국 캘리포니아에서 설립됐으며, 아마존웹서비스(AWS) S3 오브젝트 스토리지 소프트웨어, 스케일아웃(Scale-out) 파일 서비스 소프트웨어와 하드웨어·애플리케이션 사업을 전개하고 있다. 전세계 700개의 공공·금융·기업 고객사를 확보하며 성장하고 있다.

클라우디안은 최근 사업을 전세계로 확장하고 있다. 국내에서도 지난해 이홍식 지사장을 영입해 올해 본격적으로 조직을 구성하고 요다정보기술 등 파트너들을 확보하며 국내 기업·은행 등 금융권 등을 대상으로 영업을 벌이고 있다.

대표 제품은 온프레미스·S3 호환형 오브젝트 스토리지 ‘하이퍼스토어’이다. 이 제품은 유연한 EC 방식을 이용해 데이터 유형별로 필요에 따라 다양한 디스크와 노드에 걸쳐 스트라이핑을 수행한다. 복제 방식과도 혼합해 효율적인 강력한 데이터 보호를 제공할 수 있다는 점과, 단일 노드 추가 방식으로 쉽게 엑사바이트의 스케일아웃 확장이 가능하다는 점을 차별점으로 제시한다. 특히 99.999999999999%(14 Nines)의 데이터 내구성을 제공한다는 점을 자신감 있게 내세우고 있다

이 상무는 하이퍼스토어의 장점으로 “단순하며 모듈러 방식으로 비용효율성이 높다. 작은 규모로 시작해 엑사바이트까지 확장이 가능하다. 하이브리드와 멀티 클라우드에 대한 신속한 대응을 할 수도 있다. 다양한 백업 솔루션과 호환되고 온프레미스 또는 하이브리드 클라우드로 배포할 수 있다. 랜섬웨어를 차단하는 백업·아카이브 데이터를 위한 빠르고 미래 지향적인 S3 오브젝트 스토리지”라고 했다. 강력한 데이터 보안 기능을 제공한다는 점도 강조하면서 “랜섬웨어로부터 데이터를 보호하기 위해 오브젝트 잠금(rock) 기능으로 데이터 불변성을 확보하며, 다양한 보안 인증과 규정 준수를 인증으로 제공하고 있다”고 밝혔다.

글. 바이라인네트워크
<이유지 기자>yjlee@byline.network

 

관련 글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다