알리 고드시 공동 창업자 “한국 기업의 데이터 분석·AI 여정 성공 지원”

‘오픈소스계의 슈퍼스타’라고 불리우며 크게 주목 받아온 데이터 분석 기업 ‘데이터브릭스’가 서울 삼성동에 지사를 설립하고 한국 시장에 공식 진출했다.

데이터브릭스는 20일 이를 알리는 기자간담회와 한국 런칭 이벤트를 온라인으로 개최했다. 알리 고드시(Ali Ghodsi) 데이터브릭스 공동 창업자 겸 최고경영자(CEO)는 “높은 시장 잠재력을 갖고 있는 한국에서 투자를 가속화해 한국 시장에서 사업 진출과 모멘텀을 높이고자 한다. 올해 한국팀 규모를 두배로 늘릴 계획”이라며 “한국팀을 주축으로 데이터브릭스는 한국 기업의 데이터 분석과 인공지능(AI) 여정의 성공을 지원할 예정”이라고 밝혔다.

고드시 CEO는 “데이터브릭스는 코로나19 팬데믹 이후 시대의 디지털 미래 새롭게 구상하고 한국 경제의 모든 부문에서 비즈니스 혁신을 돕는 중요한 역할을 수행할 것”이라며 “데이터와 AI 기업으로 데이터 분석과 AI를 통해 데이터팀이 데이터브릭스 레이크하우스로 기업 당면 가장 어려운 문제 해결할 수 있도록 지원할 것”이라고 강조했다.

데이터브릭스는 어떤 회사인가

데이터브릭스는 오픈소스 데이터 분석 기술인 아파치 스파크 개발자인 알리 고드시와 메테이 자하리아(Mate Zaharia), 레이놀드 신(Reynold Xin) 등이 지난 2013년 공동 창업했다. 이들은 아파치 스파크뿐 아니라 델타 레이크(Delta Lake), ML플로우(MLflow) 등 인기 오픈소스 소프트웨어 프로젝트 창시자들이다.

창업자들은 미국 UC버클리대학 앰프(AMP)랩의 핵심 멤버 7명이 빠른 속도가 큰 장점인 아파치 스파크(Apache Spark)를 고도화해 퍼블릭 클라우드 서비스로 제공했다. 이들은 당시 빅데이터 분야에서 두각을 나타내던 기술이긴 했지만 생산성과 성능에 한계가 있었던 하둡(Hadoop)을 대체할 수 있도록 아파치 스파크를 고도화했고, 이후 데이터웨어하우스(DW)와 데이터레이크로 분산돼 있어 노출되는 데이터 분석관리 문제를 해결하기 위해 하나의 플랫폼으로 통합한 데이터 ‘레이크하우스(Lakehouse)’를 만들었다.

데이터브릭스의 조직 규모와 성장률은 

데이터브릭스의 본사는 미국 샌프란시스코이다. 한국, 호주, 싱가포르, 일본, 인도 등 아시아태평양지역을 포함해 전세계 각지에 사무소를 두고 있다. 전체 직원 수는 3500여명이다. 현재 적극적인 글로벌 사업 확장 전략을 펼치고 있다.
현재 전세계 7000개 이상의 기업과 기관이 데이터브릭스 레이크하우스 플랫폼을 활용해 데이터, 분석, AI를 통합하고 있다. 주요 고객사로는 컴캐스트(Comcast), 콘데나스트(Conde Nast), H&M을 비롯해 포춘 500대 기업의 40%에 달한다. 한국 고객사로는 위버스컴퍼니(Weverse Company), 베이글코드(Bagelcode), 데브시스터(DEVSISTER) 등이 있다. 데이터브릭스는 회계년도 2022년 기준 연간리커링매출(ARR) 8억달러로 전년대비 80%의 성장률을 기록했다.
이 회사는 지금까지 약 36억달러의 누적 투자를 유치했다. 기업 가치는 380억달러에 달한다. 지난해 시리즈 H 펀딩에는 아마존웹서비스(AWS), 캐피털지(CapitalG), 마이크로소프트 등이 참여했다.

한국 지사 운영은 어떻게

한국 지사는 최근 설립했다. 현재 솔루션 아키텍트, 세일즈, 어카운트 관리, 파트너 및 얼라이언스, 마케팅, 엔지니어링 담당인력을 구성했다. 클라우드 업계에서 오랜기간 몸담은 지아 오웨이 링(Jia Woei Ling) 데이터브릭스 북아시아 지역 매니징 디렉터가 한국 시장진입 전략을 이끈다. 지난해 데이터브릭스에 합류한 지아 오웨이 매니징 디렉터는 마이크로소프트(MS), 아마존웹서비스(AWS)에서 임원을 역임하며 업계에서 20년간 경험을 쌓았다.
데이터브릭스는 한국 진출이 현재 고객사인 베이글코드, 위버스컴퍼니 같은 데이터 중심 고객과 협력 위에 한국에서 경험하고 있는 모멘텀과 수요를 기반으로 한다고 밝혔다. 현재 한국 파트너사는 클루커스(대표 홍성완), 메가존클라우드(대표 조원우)이 있고, 앞으로 계속해서 국내에서 파트너 생태계 확장에 주력할 계획이다.

데이터브릭스의 레이크하우스란

데이터브릭스는 데이터웨어하우스와 데이터레이크의 장점을 통합한 단일 데이터 플랫폼인 데이터 플랫폼인 레이크하우스로 고객들이 데이터 분석과 AI로 혁신할 수 있도록 지원한다. 레이크하우스는 정형·비정형 데이터 형식에 관계없이 모든 데이터를 하나의 저장소에 보관할 수 있도록 지원한다. 오픈소스 데이터레이크 기술상에서 데이터웨어하우스 워크로드를 즉시, 빠르게 수행할 수 있다. 장경훈 데이터브릭스 솔루션즈 아키텍트 팀장은 “s3나 오브젝트 스토리지 같은 종류의 저가의 스토리지에 데이터를 집어넣어도 그 상태로 놓고 데이터 웨어하우스 워크로드를 곧바로 수행할 수 있다는 의미”라면서 “고가의 스토리지나 서버가 필요 없다”고 설명했다.
레이크하우스는 유니티 카탈로그로 전체 데이터에 대한 일관된 데이터 거버넌스 모델을 제공해, 모든 데이터 사용자들이 서로 협업할 수 있는 통합된 분석 환경을 제공한다.

레이크하우스가 제공하는 이점은

데이터브릭스는 레이크하우스 기반 데이터 통합 분석 플랫폼의 잇점으로 먼저 기업의 데이터 아키텍처가 획기적으로 단순화된다는 점을 꼽았다. 장 팀장은 “기존에는 데이터웨어하우스, 데이터 사이언티스트와 머신러닝, 데이터 엔지니언팀, 데이터 스트리밍까지 이 모든 것들이 다 분산돼 있었다. 이 모두를 하나의 아키텍처로 통합할 수 있다”고 설명했다.
두번째 장점으로는 전체 플랫폼이 오픈소스와 오픈 스탠더드로 구현돼 자율성을 확보하고 벤더종속성을 피하면서도 오픈소스 커뮤니티를 통한 많은 전문가들과 소통할 수 있다고 제시했다.
아울러 어떠한 퍼블릭 클라우드를 선택하더라도 일관된 분석 사용자 경험을 유지할 수 있다고 부각했다. 장 팀장은 “추후에 클라우드 제공자를 변경하거나 멀티클라우드 전략을 도입하시더라도 이전에 데이터와 AI에 쏟아온 그동안의 노력이 일관되게 유지되고, 또 발전시켜 나갈 수가 있다”고 지적했다.

데이터브릭스는 데이터 수집, 정제, 거버넌스, 비즈니스 인텔리전스(BI), 머신러닝 등의 분야 다양한 솔루션들과 쉽게 연동할 수 있도록 파트너 커넥트를 제공한다.

글. 바이라인네트워크
<이유지 기자>yjlee@byline.network