[뜨는 실리콘밸리 테크 기업] 빅데이터 시대를 주도하는 데이터 분석 플랫폼데이터브릭스

최근 실리콘밸리 소프트웨어 업계에서는대형투자 소식이 흘러나왔다. 10억달러( 1 1200억원) 규모의 투자를 받은 스타트업이 등장했는데, 데이터 분석 플랫폼데이터브릭스(Databricks)’가 주인공이다.

데이터브릭스는 오픈소스인아파치 스파크를 기반으로 한 데이터 분석 플랫폼이다. 아파치 스파크는 현재 가장 인기 있는 데이터 처리 엔진으로, 편리한 사용법과 속도 때문에 빅데이터 업계 내 대규모 수요를 만들어 왔다. 데이터브릭스는 데이터 수집부터 분석이 가능한 통합 솔루션이다.

업계는 데이터브릭스가 올해 안에 기업공개(IPO)에 나설 것으로 보고 있다. 이번 자금 조달도 IPO를 앞두고 기업가치를 끌어올리려는 시도로 보이는 가운데, 이로써 데이터브릭스의 기업가치는 290억달러( 32 4600억원)를 넘어서게 됐다. 이는 62억달러( 6 9300억원)였던 지난 2019년 당시의 기업가치보다 약 5배나 높은 수준이다.

월가는 데이터브릭스의 상장 신호에 벌써부터 들뜬 모양새다. 복수의 현지 매체에서는 라이벌 관계인 스노우플레이크의 기업공개(IPO)와 비교하는 보도가 잇따르고 있다. 데이터브릭스는 과연 어떤 기업이기에 업계의 관심을 한 몸에 받는 걸까.


스파크에 특화된 빅데이터 분석 플랫폼, 빅데이터 삼총사의 협업 공간 되다


데이터브릭스는 빅데이터 분석 소프트웨어 가운데 가장 빠르다고 알려진아파치 스파크를 기반으로 한 데이터 분석 플랫폼이다. 스파크를 실행하면서 빅데이터 분석 플랫폼을 제공하는 셈인데, 데이터브릭스를본체’, 스파크를엔진으로 생각하면 이해가 쉽다. 


스파크는 빅데이터 업계에서 표준으로 자리매김했다. 빅데이터 기반 기술인 하둡(Hadoop)의 맵리듀스 기법을 한 단계 발전시켰기 때문이다. 하둡은 대용량 데이터를 분산 처리하고 분석하는 프레임워크로 빅데이터 분석과 인공지능 위한 기반 기술이 되어 왔다. 다만, 작업 방식이 복잡하고 전체 과정이 딜레이 된다는 문제가 있었다. 이에 메모리 기반으로 작동하는 아파치 스파크가 대안으로 자리잡았다.

스파크는 메모리 상에서 작동하기 때문에 컴퓨팅 속도가 빠르다데이터브릭스 측은  스파크에 최적화된 플랫폼을 구축했기 때문에 어떤 환경에서보다 더욱 빠르고 안정적인 데이터 분석이 가능하다고 설명한다.

데이터브릭스가 업계 전반에서 눈길을 끌고 있지만 그 이유가 오직 스파크 때문만은 아니다. 직종 간의 협업 구조가 하나의 공간에서 구현됐다고 보기 때문이다. 빅데이터 시대에서는 협업이 중요한 사안으로 떠오를 가능성이 높다. 데이터 관련 업무가 포괄적이고 직종 사이에 명확한 구분을 짓기 힘들기 때문이다. 이에 데이터브릭스는 데이터 과학자와 데이터 분석가, 데이터 엔지니어가 손쉽게 인사이트를 교환할 수 있는 단일화된 분석 플랫폼을 표방하며 사업을 전개해왔다. 자신이 원하는 데이터를 얻어내고 손쉽게 분석 결과를 비교, 인사이트에 강점을 보이는 업무 환경을 구상했다는 취지다.

이런 이유로 협업에 필요한 다양한 기술들을 플랫폼에 구비해 놓고 있다. 특히 노트북과 대시보드가 대표적이다. 노트북은 다양한 언어(R, Python, SQL Scala)와 실시간 공동 작성, 주석 달기, 자동 버전 관리 등의 기능을 제공하며 대시보드를 통한 데이터 시각화도 가능하다.  회사 측은 굳이 코딩을 할 이유가 없는 비즈니스 애널리스트들도 데이터브릭스에서 시각화 기능으로 업무 범위를 넓힐 수 있다고 강조했다. 

아울러 비즈니스인텔리전스(BI) 툴과 연계된다는 점도 직종 간 업무량 분산에 도움을 준다는 평가다.  태블로나 클릭센스 같은 툴과 연동된다.



이제는 데이터 ‘레이크 하우스’ 시대…데이터브릭스가 선도


최근 들어 업계는 데이터브릭스가 기존의 기업들과는 전혀 다른 방식으로 데이터 분석 기술에 접근하고 있다는 점에 주목한다. 데이터브릭스가데이터 웨어하우스(Data Warehouse, 이하 DW)’데이터 레이크(Data Lake)’가 아닌 새로운 기술, 즉 ‘레이크하우스(Lakehouse)’로 영역을 확장하고 있다는 얘기다. 

전통적인 엔터프라이즈 IT 환경에서는 DW가 데이터저장소역할을 했다. 그러나 빅데이터 시대가 도래하면서 사물인터넷이나 소셜미디어, VoC(Voice of Customer), 웹사이트 클릭스트림 같은 비구조화된 데이터가 필요하게 됐는데, 이같은 대상은 DW에 저장될 수 없는 형식이었다. 때문에 모든 데이터를 저장할 수 있는 데이터 레이크 개념이 등장하게 됐고 한동안 IT 트렌드를 주도해왔다.

그러나 장점만 있는 것은 아니었다. 초창기 데이터 레이크는 비즈니스 환경에 적합하고 데이터 변환에 강하다는 평가를 받은 바 있다. 하지만 사용자가 데이터를 관리할 수 있는 솔루션이 부재했고 데이터 엔지니어링 프로세스와 거버넌스 기능 등에서도 약점을 드러냈다. 이는 일반 사용자와 소규모 업체에 쉽게 적용될 수 없다는 치명적인 결함이기도 했다.

레이크 하우스 구조도 (출처 = 데이터브릭스)

이런 이유로 데이터브릭스는 DW와 데이터 레이크의 단점을 보완한 제3의 플랫폼을 고안했다. 실제로 자사 홈페이지에서는레이크하우스’ 플랫폼이라고 소개하는데, DW와 데이터 레이크의 강점만을 합친 개념으로 이해할 수 있다. DW를 분석 데이터베이스와 함께 배치해 기업이 필요할때 마다 데이터 레이크로 확장 적용한다는 취지인데, DW의 분석 기술과 데이터 레이크의 저비용고효율 저장 기술이 만나게 된 셈이다.


최근까지 데이터브릭스는 레이크하우스를 완성하기 위한 기술을 계속해서 내놓고 있다. 2019년 도입한델타 레이크(Delta Lake)’가 대표적이다. 델타 레이크는 스파크에 특화된 오픈소스 스토리지 계층으로, ACID 트랜잭션과 데이터 관리 기능을 머신러닝과 기타 빅데이터 작업 환경에 적용했다델타 레이크로 주입된 데이터는 사용자가 선택한 클라우드 스토리지 서비스에 파케이(Parquet) 형식으로 저장된다. 파케이는 하둡 생태계의 모든 프로젝트에 사용할 수 있다는 특징이 있는데, 개발자는 다양한 언어로 델타 레이크 API를 통해 접근하면 된다. 

이와 더불어 지난 7월에는 쿼리 가속을 위한 보완적 고성능 엔진인델타 엔진(Delta Engine)’을 선보였다. 레이크하우스의 포트폴리오를 강화한다는 취지로 풀이된다. 최근에는 SQL 분석기능을 델타 레이크와 대시보드를 제공하는 레드애시 위에 구축하기도 했다. 


IPO 앞둔 데이터브릭스, ‘성장은 계속될까


데이터브릭스가 스파크와안성맞춤인 또 다른 이유는 동일한 창업자를 두고 있기 때문이다. 스파크는 지난 2009년 버클리 캘리포니아대학(UC버클리) AMPLab의 하둡 서브 프로젝트 개발 가운데 하나로 시작했다. 성공과 함께 아파치 소프트웨어 재단에 기부되며 지금의아파치 스파크가 됐는데, 이를 주도한 알리 가드시(Ali Ghodsi) 외에 6명이 데이터브릭스 창업자다. 스파크와 같은 뿌리를 둔다는 얘기다. 

알리 가드시 데이터브릭스 최고경영자(CEO), 현재 UC버클리 겸임교수이기도 하다 (출처 = 유튜브 인터뷰 영상 캡쳐)

성장은 꾸준히 이뤄져왔다. 위에서 설명했듯이 데이터브릭스는 가장 인기 있는 스파크에 최적화된 분석 플랫폼이다. 오픈소스인 탓에 구체적인 점유율을 계산하는 데 다소 무리가 있지만 대체로 빅테이터 업계 전반에 적용되고 있다는 평가다. 스파크에 특화됐기 때문에 많은 사용자를 확보할 수 있었던 셈이다. 나아가 같은 스파크이면서도 클라우드 환경에서도 쉽게 쓰여 편리한 사용면에서도 강점을 보인다는 분석이 나온다. 

데이터브릭스는 사업 확장에도 가속 페달을 밟고 있다. 지난 2017, 마이크로소프트와 함께애저 데이터브릭스(Azure Databricks)’를 선보인 바 있다. 클라우드 서비스인 MS 애저 위에서 작동하는 구조로, 데이터 분석을 솔루션화 시켜 납품한 경우다. ‘아마존웹서비스(AWS)’로의 확장도 있었다. 유명 클라우드와의 협업으로 자사의 수요를 더욱 키우겠다는 취지로 보인다. 최고경영자(CEO)인 알리 가드시는고객 수요가 늘어날 경우 다른 클라우드에도 적용시킬 것이라고 말했다.

투자 전문매체 인베스터플레이스에 따르면 데이터브릭스는 지금까지 5000곳이 넘는 기업을 고객사로 확보해왔다. 미국의 편의점 체인인 CVS와 제약회사 리제네론이 대표적이다. 펀딩 규모도 준수하다. 2019 8, 안데르센 호로위츠 등으로부터 4억달러( 4400억원)를 조달하며 기업가치를 인정받았다. 이어 최근에는 20억달러( 22400억원)의 펀딩 체결 소식이 전해지며 월가의 기대감을 불러오고 있다. 

한편 업계에서는 데이터브릭스가 올해 안에 IPO에 나설 것으로 점치고 있다. 경쟁사인 스노우플레이크가 지난해상장 대박을 터뜨리면서 기업공개(IPO) 성공 사례로 분류된 상황이다. 이에 데이터브릭스도 IPO를 통해 추가적인 자금을 확보, 경쟁력 강화에 본격적인 시동을 건다는 전망이 나온다. 

IT 전문 매체 프로토콜의 이번 달 보도를 살펴보면, 데이터브릭스는 현재 IPO 계획을 함구하고 있지만 내부적으로는 준비 단계를 밟고 있다고 보인다. 알리 가드시 최고경영자(CEO)는 인터뷰에서지금은 IPO에 좋은 환경이며, 우리는 그 준비를 다할 것이라고 말했다.

글.바이라인네트워크
<이호준 인턴 기자> nadahojun@byline.network


[바이라인플러스 7월 무료 웨비나 ]
  • 진화된 클라우드 보안 방안과 제로트러스트 업무환경 구현
    날짜 : 2022년 7월 6일 (수)
    시간 : 13:10 ~ 17:30
    자세히보기