사례로 보는 리테일 IT 서비스 운영과 관리 방안 – 넷스카우트

– 발표자 : 넷스카우트 홍정표 이사 

리테일 비즈니스의 변화

코로나19로 인해 오랫동안 비즈니스가 제대로 되지 않고 있으나, 2022년 상반기 이후 비즈니스가 제자리를 찾을 것이라는 전망이 많다. 반면, 팬데믹 이후 리테일 변화도 많이 일어나기도 했다. 많은 매출이 리테일에서 발생한 바 있으며, 한때 온라인 매출이 오프라인 매출을 앞지른 적도 있다. 지난 11월에는 월 15.1조원의 매출 중 70% 이상이 온라인에서 발생했다. 배달, 의류 등 분야별 차이 없이 고르게 발전했다. 쿠팡, 위메프 등 유통 플랫폼 역시 확대 중이다.

예를 들어 라이브 쇼핑과 페이먼트 서비스가 점차 늘어나고 있다. 또한, SSG나 롯데 온 등 오프라인 주도 사업자들도 온라인에 뛰어들고 있다. 배달 서비스는 기존에 있었지만 더 많은 수요가 생겨났으며, 지그재그, 에이블리, 무신사와 같은 전문 쇼핑 브랜드도 많이 생겨나고 있다. 한국에서만 볼 수 있는 중고나라, 당근마켓, 번개장터, 로켓 직구와 같은 서비스들도 있다. 편의점 사업자 역시 앱으로 온라인 서비스를 운영한다.

이 서비스들의 기반은 IT 서비스다. 기존 오프라인 서비스들이 IT화되면서 디지털 트랜스포메이션을 이뤘지만 반대로 서비스 아키텍처가 더욱 복잡해지고 있다.

복잡해지는 서비스 아키텍처

과거의 서비스 아키텍처는 프론트엔드와 서버, 백엔드로 구성이 단순했다. 현재는 클라우드, 데이터 센터 가상화, 마이크로 서비스 아키텍처 등이 등장했으므로 서비스 구성이 어려워졌다. 특히 모든 기능을 별도로 구현하는 마이크로 서비스가 등장하며 서비스 접점을 나누고 거기서 쌓인 데이터를 별도의 공간에 놓으며 복잡해진 형태다.

서비스들은 현재 쿠버네티스 도커를 사용해 경량화와 확장성을 중요시하게 되었고, 사람이 모든 접점을 제어할 수 없기 때문에 자동화가, 자동화된 서비스를 구동시키기 위해 가용성을 높이는 방식으로 발전하고 있다. 또한, 구글·페이스북 등 로그인을 지원하며 외부 연계가 필수적으로 변하고 있다.

과거에는 데이터는 데이터센터에 있고 꺼내서 활용하는 식이었다면, 현재는 멀티 클라우드를 운영하므로 가시성이 매우 떨어지게 됐다. 이 모든 구조를 클라우드 아키텍처라고 부른다.

특히 최근 유니콘 기업들이나 전통 기업들은 클라우드 아키텍처를 통한 애플리케이션 현대화를 꾀하고 있는데, 그 이유는 급변하는 환경에 따르게 대응하기 위해서다. 생산성도 높고 시장에 바로 출시(Time to Market)할 수 있기도 하다. 예를 들어 넷플릭스의 경우는 버그 수정을 비롯한 하루 빌드량이 1만회 이상이라고 한다. 따라서 모든 IT 서비스들의 생산성이 극적으로 높아지고 있다.

단점은 서비스 아키텍처가 지나치게 복잡해진다는 것이다. 1만회 이상의 빌드가 있다는 것은 그만큼 많은 인력이 투입된다는 것이고, 전체를 파악하기가 어려워지는 문제가 발생한다. 따라서 문제의 원인을 찾기 어렵다. 여러가지의 클라우드와 데이터센터를 쓰므로 문제가 생긴 클라우드 역시 찾기 어렵다. 기술은 경량화돼 있지만 볼 것은 점점 많아진다. 따라서 IT 서비스 안정성에 대한 문제가 생긴다.

IT 서비스 안정성

서비스 안정성은 크게 두가지로 나눌 수 있다. 서비스 운영과 보안이다. 서비스 온영은 데브옵스를 포함한 운영, 성능저하와 오류 케어 등이다. 보안은 복잡해진 서비스에서 취약점이 발생하고, 이 취약점에 대한 공격이 발생하는 것에 대한 대응이다.

IT 서비스는 API 게이트웨이, 오더 시스템, 그 이후 더 많은 데이터가 발생하는 구조로 만들어진다. 이 형태가 점점 복잡해지면 아마존과 넷플릭스의 ‘데스 스타’로 부르는 구조가 되기도 한다.

국내에서는 2018~2019년 기준으로 쿠팡에서도 마이크로 서비스(펑션) 아키텍처가 400개를 넘어갔다고 한다. 400여개는 사람의 눈으로 파악하기 힘든 수준이다. 따라서 가시성이 확보된 모니터링 솔루션이 필요한 것이다.

서비스 안정성에는 성능과 장애를 알 수 있는가가 중요하다. 또한 원인을 파악하고 재발 방지를 할 수있는가도 필요하다. 따라서 분산 인프라 운영 체계를 파악하거나 연관관계를 파악해야 한다. 이것을 빨리 확인할 수 있는 것이 가시성이다. 이 과정에서 결국 남는 건 데이터와 네트워크 보안이다.

문제점은 서비스가 복잡해지며 알 수 없는 영역이 생기고, 전체를 알 수 있는 방법이 없는 경우다. 또한, 기술 발전이 빨라 운영자가 모르는 분야의 기술이 등장하거나 적용될 수 있다.

멀티 클라우드 서비스의 경우 자사 솔루션과 타사 솔루션 연동이 필수이므로, 보안 문제의 주체가 누군지도 애매해지며, 신뢰할 수 있는 정보를 구분할 수 없다.

따라서 등장한 것이 가시성 솔루션들이다. 각 서비스마다 가시성을 확보해주는 솔루션이나, 네트워크 인프라 전부를 보여줄 수 있는 솔루션들이 등장했다. 특히 중요한 것이 서비스 운영의 맵을 그려주는 것이다. 각 서비스와 전체를 한번에 가시화할 수 있기 때문이다. 또한, 실제 사용자의 체감 성능을 파악하는 것도 중요하다. 쿠버네티스를 통해 서비스만 오케스트레이션할 것이 아니라 서비스 운영도 오케스트레이션해야 하는 것이다.

통합 가시성

가시성을 그림으로 나타내면 다음과 같다.

그림상으로는 복잡하지만 소비자가 한가지 기능을 사용하면 전체가 한꺼번에 움직인다. 이 그림에서 가장 중요한 것은 최종 사용자 환경이다. 또한, 관리되지 않은 네트워크를 볼 수 있는가도 영향을 준다. 따라서 데이터와 클라우드 등도 가시화할 수 있어야 한다. SaaS나 퍼블릭 클라우드 애플리케이션, 줌, 웹엑스, 팀즈 등도 환경에 구애받지 않게 가시화할 수 있어야 한다. 전체 통합 가시성이 필요한 이유다.

넷스카우트의 ATLAS(아틀라스)는 전 세계 1/3의 인터넷 트래픽을 모니터링하는 툴이다. 400개의 서비스 제공자들과 협업 중이다. 멀웨어 일 20만개, 1000만개 이상의 위협 등을 파악하고 있다. 보안 위협에 대한 니즈가 없어도 서비스에서 얻을 수 있는 장점이 많다.

넷스카우트의 서비스를 간단하게 표현하자면, 데이터 소스 하나만으로 서비스와 보안 관점 운영을 가시화할 수 있다는 것이다.

하나의 대시보드로 여러 구간을 볼 수 있다. 동일한 서비스를 클라우드, UC/CC 구간, 사무실 등의 구간으로 나눠 서비스 성능을 파악할 수 있다. 특히 기준선을 그려 트렌드를 반복적으로 넘어가는지를 파악할 수 있는 다중구조를 갖추고 있다.

수직(계층형)으로 다중구조를 도식화해 계층형 서비스 모니터링을 만들 수도 있다.

네트워크 구간, 서비스 애플리케이션, 트랜잭션 등을 볼 수 있는 화면이다. 실패, 응답 지연이 발생하는 구간, TCP 정보 등을 볼 수 있고 차트로 만들어준다.

KAFKA의 경우 데이터를 모으고 있는 현황을 볼 수 있다. 사례에서는 데이터 사이즈가 너무 커서 서버제로 현상이 발생하고 있으므로 서버 하드웨어를 늘려야 하는 해답이 제시된다.

보안의 경우 정책의 관점에서 우선 접근할 수 있으며, 디도스 문제, 내부 사이버 위협에 대응할 수 있다.

대시보드 형태로 제공돼 어느 부분에서 감염됐는지를 파악 가능하다. 클릭하고 확장하면 어느 부분까지 감염시킨지를 파악할 수 있다. 워크플로우 형태로 도식화할 수도 있다. 따라서 전파여부를 쉽게 확인하고 차단할 수 있다. 글로벌 맵으로 볼 수 있는 방법도 있다.

침해사고는 성능 저하를 유발하므로, 다양한 관점으로 대시보드를 보여주는 것이다. 서비스 측면에서는 문제를 파악하지 못할 경우 서비스 지연이 이뤄지므로, 어느 영역에서 지연이 발생할지를 알려준다. 성능과 보안은 즉, 동일한 가시성 내에서 확인 가능하다.

맺음말

서비스 성능과 보안은 동일한 데이터, 동일한 사용자를 타깃으로 한다. 최신 보안에 대응하는 것이 운영 효율성을 보장하는 일이다. 보안은 접점만을 고려하기 쉽지만 인프라스트럭쳐가 분산된 상태이므로 내부와 외부 모두를 파악해야 한다. 결국 보안과 성능은 동시에 추구해야 하는 것이 되었다.

글. 바이라인네트워크
<이종철 기자> jude@byline.network

관련 글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다