결투 치열해지는 ‘스노우플레이크’와 ‘데이터브릭스’
대표적인 클라우드 기반의 데이터 플랫폼 업체 ‘스노우플레이크’와 ‘데이터브릭스’가 아파치 아이스버그를 두고 승부를 벌이고 있다. 두 회사 모두 최근 아이스버그를 품에 안고, 데이터의 위치에 관계 없이 테이블을 만들고 관리할 수 있도록 노력하고 있다.
스노우플레이크는 19일 서울 삼성동 인터컨티넨탈 서울 코엑스에서 ‘데이터 클라우드 서밋24’를 열고 “아파치 아이스버그 테이블을 네이티브 포맷으로 채택했다”고 밝혔다. 이와 함께 아이스버그 테이블을 위한 데이터 카탈로그인 ‘폴라리스’도 발표했다.
스노우플레이크의 최대 경쟁사라고 볼 수 있는 데이터브릭스 역시 아이스버그에 지대한 관심을 보이는 중이다. 데이터브릭스는 최근 아이스버그 전문기업인 타뷸라를 인수한다고 발표했다. 타뷸라는 넷플릭스에서 아이스버그를 개발한 이들이 독립해 설립한 아이스버그 전문기업이다.
아이스버그가 뭐길래
아이스버그는 대용량 분산 데이터를 쉽게 관리하기 위해 등장한 개방형 데이터 테이블 포맷이다. 비정형 빅데이터를 관리하는 하둡과 하이브 등이 가진 문제를 해결하기 위해 등장했다. 전통적인 DB의 테이블 방식으로 빅데이터를 관리하는 것이 특징이다.
아이스버그는 넷플릭스에서 처음 개발해 아파치재단에 기증한 오픈소스다. 개발자들에게 익숙한 SQL 명령을 지원하기 때문에 손쉽게 데이터를 삭제하거나 업데이트 및 병합을 할 수 있다.
아이스버그가 주는 가장 큰 장점은 데이터를 복제할 필요가 없게 된다는 점이다. 예를 들어 스노우플레이크를 이용해 데이터를 관리하기 위해서는 기업의 자체 서버에 있는 데이터를 스노우플레이크 클라우드 서버로 복제해야 했다. 같은 데이터가 이중, 삼중으로 복제되는 것은 시간과 비용 면에서 낭비를 초래하고, 보안 면에서 리스크를 키우는 일이다. 하지만 아이스버그를 이용하면 기업 자체의 데이터센터에 있는 데이터나 다른 클라우드 데이터 저장소에 있는 데이터도 스노우플레이크로 통합 관리할 수 있게 된다. 데이터 종속성이 사라지는 것이다.
데이터브릭스는 아예 아이스버그 전문기업을 인수한 것은 아이스브릭스의 위상이 커지고 있음을 증명한다. 데이터브릭스가 리눅스 재단의 오픈 테이블 포맷 소프트웨어인 ‘델타 레이크’의 주요 후원자라는 점에서 더욱 그렇다.
델라 레이크와 아이스버그는 유사한 역할을 하는 오픈소스다. 오픈 데이터 포맷 분야는 리눅스재단의 델타 레이크, 아파치 아이스버그, 아파치 후디 등 3개의 오픈소스가 경쟁을 펼쳐왔는데, 델타 레이크 진영의 대표 데이터브릭스가 아이스버그 진영의 대표를 인수한 것이다.
중요해지는 데이터 카탈로그
스노우플레이크는 아이스버그 지원을 발표하면서 ‘폴라리스 카탈로그’를 오픈소스로 공개한다고 밝혔다. 회사 측에 따르면, 폴라리스는 아파치 아이스버그용 통합 카탈로그 시스템이다.
데이터 카탈로그란 여러 데이터 소스의 메타데이터를 통합 관리하는 것을 말한다. 예를 들어 과거에 도서관에 가면 책의 종류와 제목, 위치 등이 적혀 있는 카드를 모아 놓은 곳이 있다. 책을 찾을 때는 이곳에서 원하는 책의 카드를 찾고 그 카드에 적힌 위치를 따라가면 실제 책이 있다.
데이터 카탈로그는 이처럼 실제 데이터를 설명하는 데이터(메타데이터)를 모아놓는 서비스다. 데이터 카탈로그를 이용하면 여러 데이터소스의 데이터를 한 곳에서 관리할 수 있다.
스노우플레이크가 아이스버그를 통해 데이터 카탈로그 서비스를 출시하면서 데이터브릭스와의 경쟁이 더욱 치열해질 전망이다. 데이터 카탈로그는 데이터브릭스가 강점을 가진 분야이기 때문이다.
데이터브릭스는 스노우플레이크와 달리 데이터를 직접 자사 서버에 저장하지 않는다. 대신 AWS나 마이크로소프트 애저 등 다른 클라우드에 있는 데이트를 관리할 수 있는 기능을 제공해왔다. 이를 위해 중요했던 것이 데이터 카탈로그고, 이는 데이터브릭스의 강점이었다.
데이터브릭스는 자사 카탈로그는 아이스버그에 한정되지 않는다는 점을 강점으로 설명한다. 스노우플레이크의 폴라리스는 아이스버그를 위한 카탈로그지만, 데이터브릭스의 카탈로그는 아이스버그뿐 아니라 텔타 레이크의 데이터도 통합하기 때문이다.
데이터 카탈로그는 오래된 개념이지만, AI 시대를 맞아 데이터 통합 관리가 중요지면서 다시 각광을 받고 있다. 기업이 자체 서버를 비롯해 다양한 클라우드에 데이터를 나눠서 저장하고 있기 때문이다. 향후 두 클라우드 기반 데이터 플랫폼 기업의 치열한 혈투가 벌어질 것으로 전망되는 이유다.
글. 바이라인네트워크
<심재석 기자>shimsky@byline.network
[컨퍼런스 안내]
◈ 2025 이커머스 비즈니스 인사이트 : 생존을 넘어 성장으로
일시 : 2025년 2월 18일 오후 12:30~17:30
장소 : 서울 강남구 테헤란로7길 22 ST Center (과학기술컨벤션센터) 지하 1층 대회의실 1