스노우플레이크가 말하는 ‘좋은 데이터 분석 플랫폼’의 조건
이 기사는 지난 5월 12일 진행된 바이라인플러스 웨비나 <최신 클라우드 데이터베이스 기술과 동향>의 발표 세션을 기사화한 것입니다.
459억달러(약 58조원)의 시가총액에 달하는 소프트웨어 기업 스노우플레이크(Snowflake). 클라우드 기반의 데이터 분석 서비스를 제공하는 업체로, 클라우드 관련 데이터 분석 시장이 성장할 것이라는 전망에 주주들의 기대감을 받아 왔다.
스노우플레이크가 소프트웨어 시장에서 유명해지기 시작한 것은 클라우드 기반의 데이터 웨어하우스 때문이다. 데이터 웨어하우스란 여러 채널에서 주어지는 데이터를 공통된 형식으로 변환한 후, 이를 통합해서 관리하는 방식의 데이터베이스를 말한다. 기존 데이터베이스 운영 방식에 비해 효율성이 높아졌다는 강점을 가지고 있는데, 스노우플레이크의 서비스가 여기에 적용되면서 대중 사이에 이름을 알리게 됐다.
하지만 스노우플레이크가 데이터 웨어하우스에만 국한해서 서비스를 제공하는 것은 아니다. 김황곤 스노우플레이크 시니어 파트너 세일즈 엔지니어(이하 SE)는 ‘최신 클라우드 데이터베이스 기술과 동향’ 웨비나에서 스노우플레이크가 제공하는 데이터 분석 서비스에 대해 소개했다.
“최근에는 여러 형태의 데이터를 한 곳에 저장하고 처리하는 ‘데이터레이크(Datalake)’와 같이 다양한 워크로드를 하나의 플랫폼에서 처리하고자 하는 움직임이 많이 나타나고 있다”며 “스노우플레이크의 솔루션은 데이터 웨어하우스뿐만 아니라 전반적인 데이터 엔지니어링 워크로드에 대한 적절한 지원을 할 수 있을 것”이라고 말했다.
김황곤 SE는 다양해지는 데이터 플랫폼 워크로드 수요를 충족하기 위해서는 세 가지 조건을 만족해야 한다고 말했다. 우선 늘어나는 데이터의 종류와 양만큼 워크로드를 빠르게 처리할 수 있어야 한다. 데이터 웨어하우스 외에도 데이터를 처리하는 워크로드 형태가 다양해지고 있는데, 이를 빠르고 정확하게 처리해야 한다는 것이다.
두 번째로 데이터를 분석한 후 인사이트를 도출할 때 투입되는 리소스를 줄여야 한다. 데이터는 인사이트를 통해 마케팅이나 작업 등의 효율을 높이는 데 사용되는데, 이 때 적은 비용과 인력을 투입해야 기업 차원에서도 이익으로 작용할 수 있기 때문이다.
마지막으로는 데이터 사일로 현상을 극복해야 한다. 데이터 사일로 현상이란 여러 채널을 통해 데이터를 처리하다 보면 각 플랫폼 간 데이터가 일치하지 않는 경우가 있는데, 이를 데이터 사일로 현상이라고 한다. 데이터 사일로 현상이 발생하면 정확한 데이터 처리가 어려우며, 타기팅을 하려고 해도 이를 어렵게 만드는 경우가 있다.
김 SE는 스노우플레이크의 아키텍처가 이 같은 문제를 고민하다가 나온 것이라고 말했다. 기존 데이터 분석 서비스와 달리, 데이터를 하나의 스토리지에 저장하고 이를 워크로드에 맞춰 자동으로 분류하기 때문이다.
김황곤 SE의 설명에 따르면, 스노우플레이크의 서비스 구조는 크게 세 부문으로 나뉜다. 우선 모든 데이터가 통합된 ‘통합 스토리지’가 있다. 여기에는 입력된 모든 데이터가 저장된다. 두 번째로는 버추얼 웨어하우스가 있다.
버추얼 웨어하우스는 각 데이터의 크기와 종류에 맞춰 데이터 처리를 전담하고, 효율성을 높이는 역할을 한다. 마지막으로 클라우드 서비스 클라우드 서비스 레어에서 관리작업을 자동화하고, 매뉴얼 작업 없이 자동으로 관리한다. 이를 통해 전반적인 인프라를 자동으로 관리해 운영 리소스를 줄일 수 있다.
결국 스노우플레이크는 단일 플랫폼 상에서 각각의 워크로드를 분리시키고, 이를 필요에 맞춰 스케일업하거나 스케일 아웃을 통해 데이터 처리 작업을 한다. 어떤 형태, 어느 정도 크기의 데이터든 효율적으로 처리할 수 있으며, 앞서 언급한 사용자의 요구사항을 스노우플레이크 서비스를 통해 해결할 수 있다는 것이 김 SE의 설명이다.
마지막으로 김황곤 SE는 “데이터 플랫폼의 특징을 파악하고 선택하기 전에 먼저 해야 하는 일은 회사가 데이터 처리 과정에서 어떤 문제를 해결해야 하는지 파악하는 것”이라며 “이에 맞춰 클라우드 데이터 플랫폼을 도입하는 것이 필요하다”고 제언했다.
글. 바이라인네트워크
<베유미 기자>youme@byline.network