스노우플레이크 특장점은 ‘즉각적 응답’과 ‘실사용 과금’

스노우플레이크, 데이터 저장·처리·분석 위한 아키텍처 사례 공유

“스노우플레이크는 기본적으로 기본적으로 확보하고 있는 리소스 툴에서 (데이터)웨어하우스를 제공하기 때문에 즉각적인 응답이 가능합니다. 고객이 바로 데이터 분석을 진행할 수 있는 구조입니다. 특정 플랫폼을 배포하거나 새로 노드를 만들 경우, 다른 플랫폼에서는 수분에서 최대 15분이 걸리는 경우가 있지만. 저희는 수초 이내로 제공합니다. 쿼리 한문장으로 바로 스케일업이 가능합니다. 이럴 경우 2초 이내에 바로 새로운 (데이터)웨어하우스가 나온다고 보면 됩니다.”

정영훈 스노우플레이크코리아 이사(파트너 세일즈 엔지니어)는 최근 바이라인네트워크가 주최한 ‘AI·클라우드 시대를 위한 데이터 관리 전략’ 웹세미나에서 이같이 말했다. 정 이사는 최경진 메가존클라우드 CTC 클라우드(Cloud) SA 데이터팀 팀장과 고객사의 클라우드 데이터 플랫폼 활용 방안과 자주 묻는 질문들에 대해 패널 토크를 진행했다.

“일반적으로 라지 사이즈까지 무리 없이 바로 스케일업이 되고요. 포엑스라지(4XL), 식스엑스라지(6XL) 등 이런 아주 큰 사이즈는 고도의 컴퓨팅이 필요하기 때문에 조금 시간이 걸립니다. 그래도 타 플랫폼의 딜레이보다는 훨씬 더 적은 시간에 제공하고 있습니다.”

그는 다양한 SQL과 호환에도 자신감을 보였다. 점유율 1위 오라클과의 호환에 대해선 ‘90% 이상’이라고 언급했다.

“오라클에서 넘어올 때 정말 이점이 많이 있다고 보면 좋습니다. 오라클에서 작성한 쿼리를 가지고 실제로 데이터를 스노우플레이크로 옮긴 다음에 동일한 쿼리를 사용하셔도 동작이 됩니다. 기본 펑션 호환을 하고 있고요. 오라클 디코드 함수를 그대로 사용 가능합니다.”

아마존웹서비스(AWS) 고객들이 원하는 실시간 데이터 배치 등에 대해선 서드파티 솔루션을 활용하거나, AWS DMS를 활용할 경우 S3(아마존 스토리지)에 적재한 뒤 스노우플레이크로 데이터를 구조화할 수 있다고 언급했다. 키네시스 서비스를 통할 경우 S3에 적재하면 스노우 파이프라는 오브젝트를 구성해 데이터 적재 시 마다 인지해 해당 데이터를 그대로 스노우플레이로도 적재하는 기능도 지원한다.

“스노우파이프 스트림의 경우 레이턴시가 5초 미만입니다. 거의 데이터가 실시간 적재된다고 보셔도 될 거 같아요. 일반적으로 온라인분석처리(OLAP) 플랫폼에서 단 건 데이터를 적재하는데 부담이 됩니다. 스노우플레이크에선 저희가 내부에 스테이징을 만들어서 그 데이터를 모아 바로 적재하기 때문에 부담을 줄였고요. 성능도 스노우 파이프 오브젝트를 사용해 S3에서 데이터를 적재하게 되면 1분 내외의 레이턴시를 말씀드립니다.”

과금 체계도 스노우플레이크가 자신하는 부분이다. ‘실사용 과금’이다. 스토리지와 버추얼 웨어하우스, 클라우드 서비스 3개 영역을 나눠 제공한다.

“스토리지는 S3에서 스노우플레이크로 적재할 때, 압축을 지원합니다. 일반적으로 70~80% 지원하고요. 최대 90%까지도 압축을 지원해드리고 있습니다. 4테라바이트 데이터가 실제 사용량은 400~500기가바이트로 8분의 1정도, 이런식으로 사이즈를 줄여 적재가 가능합니다. 한 달 사용량을 평균 내서 과금하고 있습니다.”

“버추얼 웨어하우스는 커리가 수행될 때 사용되는 리소스에 대한 과금이고요. 크레딧 단위로 과금을 하고 있습니다. 티셔츠 사이징이라고 해서 엑스스몰부터 식스엑스라지까지 지원할 예정이고요. 엑스스몰이 1이라면 스몰은 2, 미디움 4 이런 식으로 리소스가 더블로 증가합니다. 크레딧 비용도 더블로 증가하고요. 초당 과금을 하고 있습니다. 쿼리가 몇 번 수행되더라도 실질적으로 사용한 시간에 대해선만 과금합니다.”

“크레딧 단위는 스노우플레이 에디션마다 차이가 있습니다. 스탠다드, 엔터프라이즈, 비즈니스 크리티컬, 버추얼 프라이빗 스노우플레이크(VPS)가 있고요. 보안 관점이나 여러 기능을 위해 단계를 올릴 수 있습니다. 기본적으로 스탠다드로 적재한 뒤, 기능이 필요할 때 에디션을 바로 변경할 수 있습니다. 변경에 대한 부담을 가질 필요가 없습니다.”

고객사는 크레딧에 대한 쿼터(제한)를 설정할 수 있다. 사용량을 추적하고 알람 등 액션을 생성해 리소스 모니터링이 가능하다.

“과도한 사용이 발생할 수 있는 웨어하우스는 알람을 받거나 서스펜드도 가능합니다. 여러 부서에서 스노우플레이크를 사용하시면, 생성에 대해서는 과금하지 않기 때문에 여러 개를 생성한 뒤에 부서별 쿼터를 설정할 수도 있습니다.”

스노우플레이크 캐시 서비스도 짚었다. 메타데이터, 데이터, 쿼리 결과 캐시 3개로 나뉜다. 정 이사 설명에 최경진 팀장은 비용을 줄일 수 있는 포인트로 ‘쿼리 결과 캐시’를 주목했다.

“한번 수행한 쿼리 결과값은 클라우드 서비스 영역 쿼리 캐시에 저장을 하고 있습니다. 24시간 동안 저장하고요. 그래서 동일한 쿼리가 수행되면 바로 결과값을 클라우드 서비스 영역에서 리턴해드립니다. 그렇기 때문에 버추얼 웨어하우스 사용이 필요가 없고, 과금도 없는 것이죠.”

최 팀장은 온프레미스 데이터를 퍼블릭 클라우드에 올리고, 실시간 들어오는 트래픽 데이터를 통합하려는 현업 니즈를 언급했다.

“(스노우플레이크 PoC에 대해) 허브 클러스터 구성을 할 때 스노우플레이를 활용한 아키텍처가 있습니다. 데이터 셰어링 기능으로 실제 데이터를 이동시키지 않고 허브가 되는 어카운트에 제공할 수 있는데요. 비용도 굉장히 효율적인 시스템을 구축할 수 있는 아키텍처라고 보면 됩니다. AWS나 구글 등에서 데이터를 모아서 그 중에 필요한 데이터만 클러스터에 공유하고, 이 공유되는 클러스터 내 데이터를 서드파티를 활용해 어도비 캠페인 등을 통해 제공할 수 있고요. 세이지메이커나 주피터 노트북 같은 ML 서비스를 통해서도 제공 가능합니다. 고객사 수요가 있지 않을까 싶습니다. 멀티 어카운트 권한 제한이나 허브 구성을 진행한 적이 있는데요. AWS만 가지고선 허들이 있는 부분이 있는데, DB에 익숙하시면 스노우플레이크는 오라클과 비슷한 부분이 많아 쉽게 익힐수 있습니다.”

정 이사와 최 팀장은 마지막으로 “데이터 관련해 고민이 있다면 연락달라”며 “빠르게 데이터 분석 환경이 구축이 필요하다, 온프레미스에 DW 환경을 구성해놓은 고객들이 데이터 통합이 필요하다는 기업에선 연락을 주시면 좋을 것”이라고 힘줘 말했다.

글. 바이라인네트워크
<이대호 기자>ldhdd@byline.network

관련 글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다