데이터브릭스가 본, AI 시대 기업의 데이터 전략 트렌드와 투자 고민

오픈AI의 챗GPT와 GPT-4의 등장으로 이른바 ‘생성AI 임팩트(impact)’가 테크 산업을 거세게 강타하고 있다. 매우 짧은 시간 내에 수많은 생성AI 서비스가 등장하고 비즈니스 환경을 비롯해 다양한 영역에서 활용돼 큰 변화를 불러올 것으로 예상되는 상황이다.

장정욱 데이터브릭스코리아 대표는 29일 기자들과 만난 자리에서 “그동안에는 IT와 금융 분야를 주축으로 AI 기술이 도입돼 왔으나 최근 시장이 더욱 크게 확산되고 있다. 앞으로는 기업 내에서도 조직과 프로세스, 기술, 인력 등 기업 내 다양한 영역과 부문에서 데이터와 AI 기반 계획이 마련되고 실행될 것”이라고 내다봤다.

생성AI 열풍 힘입어 폭발적인 AI 시장 성장 전망

이에 따라 유명 시장분석 업체들이 했던 AI 시장 전망 수치도 크게 달라질 것이란 게 장 대표의 전망이다. 이와 관련해 그는 이렇게 말했다.

“IDC는 글로벌 인공지능(AI) 시장이 오는 2026년까지 9000억달러 이상으로 성장해나갈 것이라고 분석했다. 포레스터리서치는 전체 AI 시장 내에서 AI 소프트웨어만 370억달러까지 성장해나갈 것이란 전망 자료를 내놨다. 하지만 이러한 성장은 작년 11월 이후 나온 생성AI 임팩트를 고려하면, 그 규모 대비 3배 이상 성장이 가팔라질 것이란 자료도 최근에 봤다. 이같은 글로벌 성장은 국내 시장에도 유효하게 적용된다.”

그는 “한가지 짚어볼 점은, 이러한 AI의 성장은 더 효과적으로 빠르게 혁신을 이뤄갈 수 있도록 해주는 퍼블릭 클라우드가 근간이 된다는 것이다. 퍼블릭 클라우드의 성장 역시 오는 2026년까지 매년 평균 15.5%로 꾸준한 성장을 이뤄갈 것이란 예상이 있다”고 덧붙였다.

비즈니스 성과 창출하는 데이터와 AI 모델 전략 필요

기업들이 AI 기술을 활용하고 발전시키기 위해서는 그에 맞는 데이터 전략이 잘 수립돼 있어야 한다고 장 대표는 강조했다. 이와 관련해 이미 많은 기업들에서 고민하고 있다는 것이다.

그에 따르면, 고민 첫 번째는 기술적인 혁신뿐만 아니라 실질적인 비즈니스의 결과를 만들어낼 수 있는 데이터와 머신러닝(ML) 모델을 만들어내야 한다는 점이다. 실제 비즈니스 성과와 연결된 AI와 ML이 될 수 있도록 하기 위한 투자 우선순위를 잡는 것에 대한 고민이 많다.

두 번째는 지속적인 데이터의 품질과 신뢰 확보에 대한 고민이다. 기업에서 AI로 인한 성과를 확보하기 위해서는 무엇보다 데이터의 품질과 신뢰가 중요하다는 것을 점차 인지함에 따라 전체 관리체계와 보안, 통제 등에 이르는 다양한 영역에 대한 투자 고려가 확대되고 있는 상황이다.

이와 함께 최근 데이터가 폭증하고 있다는 점에서 향상된 데이터 프로세싱 속도와 AI 모델 대상 양질의 데이터 공급, 데이터 계보, 기업 내부 뿐 아니라 외부 데이터 연계와 공유, 통합 과정에서 필요한 관리와 가시성 확보 등이 핵심 화두가 되고 있다.

데이터 관련 투자 우선순위는 보안, 통제, 플랫폼, 데이터 소스

실제로 기업에서 데이터 전략을 강화하기 위해 가장 우선순위로 투자하는 분야로 장 대표는 보안, 통제(거버넌스), 플랫폼, 데이터 소스를 지목했다.

장 대표는 그 중에서도 플랫폼 투자와 관련해 나타나는 두드러지는 특징으로 “첫번째는 오랫동안 지속 성장해 온 비즈니스 인텔리전스(BI), 정형 데이터를 기반으로 발전되어 온 데이터 웨어하우스 기반 플랫폼과 미래지향적으로 새로운 인사이트를 추출해내는 AI와 ML을 구축하는 데이터 레이크를 기반으로 한 기술 스펙들이 점점 통합돼 가는 트렌드를 볼 수 있다. 실제로 이 두 시스템이 유기적으로 결합될 때 고객이 원하는 인사이트를 추출해 낼 수 있다는 점에서 단일 플랫폼이 필요하다는 생각을 하고 있다”고 제시했다.

이어 “플랫폼 차원에서 나타나는 중요 트렌드로는 클라우드 기반으로 모든 데이터가 수집되고 관리되고 활용되는 것이다. 하지만 단일 클라우드 플랫폼이 아니라 멀티 클라우드 플랫폼으로 데이터 플랫폼이 구성돼 이동성이 확보되고 벤더 종속성이 줄어드는 것 역시 굉장히 중요한 추이이고 결정 사항이다”라며 “더불어 플랫폼을 오픈소스 기반으로 구축해 혁신이 더욱더 가속화될 수 있는 개방형 시스템을 만들어가겠다는 목표로 오픈 표준을 채택하는 것도 두드러지는 추세”라고 설명했다.

그가 말한 이같은 데이터 플랫폼 채택에서 나타나는 트렌드는 사실 데이터브릭스가 제공하는 방식이다.

데이터브릭스의 접근법, 개방형 통합 데이터레이크하우스 플랫폼

데이터브릭스는 데이터 레이크하우스 분야를 개척한 기업이다. 데이터 레이크하우스는 데이터 레이크의 유연성, 비용 효율성과 확장성을 데이터 웨어하우스의 데이터 관리 기능과 결합해 모든 데이터에 대한 엔지니어링, 비즈니스 인텔리전스(BI) 및 AI와 ML을 모두 지원하는 개방형 통합 데이터 플랫폼이다.

장 대표는 “데이터브릭스는 레이크하우스 기업”이라며 “레이크 하우스라는 기존에 존재해왔던 데이터 웨어하우스와 데이터 레이크의 장점들을 뽑아서 데이터와 분석과 AI를 통합해 하나의 개방형 아키텍처 기반 플랫폼을 제공하는 기업”이라고 설명했다.

데이터브릭스는 배치 또는 스트리밍 형태로 수집되는 대량의 정형 및 비정형 데이터를 처리하기 위한 기존의 복잡한 아키텍처를 단순화시킨다. 오픈소스 및 개방형 표준을 기반으로 구축돼 벤더에 종속되는 위험요소를 피하고 유연성을 확보할 수 있다. 더불어 BI 애널리스트와 AI·ML을 다루는 데이터 사이언티스트들이 통합된 거버넌스 프레임워크에서 데이터 액세스를 관리할 수 있도록 지원하고, 데이터 엔지니어들이 통합된 환경을 통해 업무 효율을 향상시키도록 돕는다.

실제로 전세계 수많은 데이터 선도 기업들은 이미 레이크하우스 플랫폼을 통해 데이터의 가치를 극대화하고, AI를 적용해 비즈니스 운영을 최적화함으로써 혁신을 추진하고 있다.

포춘 500대 기업의 50% 이상의 고객을 포함해 전세계 9000개 넘는 기업이 데이터브릭스 레이크하우스를 도입하고 있다.

국내에서도 아모레퍼시픽, 무신사, 데브시스터즈, G마켓, 핀다, 이마트24, 디지털 마케팅 솔루션 기업 메조미디어 등 유수의 기업들이 레이크하우스 플랫폼을 통해 혁신과 비용 최적화를 이루고 있다.

데이터브릭스는 유명한 오픈소스 기업이기도 하다. 오픈소스 커뮤니티를 통해 무료 버전의 기능이 제약된 레이크하우스 제품을 15만곳 이상의 기업들이 사용하고 있다. 또 2000명 이상의 컨트리뷰터가 함께 하며 제품 기술 혁신을 지원하고 있다.

‘데이터 중심 기업(Data-Forward Enterprise)’이란

장 대표는 이날 최근 새롭게 주목할 트렌드로 ‘데이터 중심 기업(Data-Forward Enterprise)’이라는 개념도 소개했다. 이는 AI와 데이터를 기업의 모든 영역에서 활용해서 계획과 실행해 나가는 기업이라는 의미다.

그에 따르면, 데이터 중심 기업은 전체 운영관리에 있어 데이터와 AI를 적극 활용해 비전을 달성해나가는 기업이다. 이같은 기업은 데이터 인사이트를 바탕으로 실시간 최적의 개인화된 콘텐츠와 최고의 고객 경험을 제시한다. 제품 개발 전략 측면에서도 더욱 명확하고 가시성이 있는 계획을 바탕으로 제품을 적시에(타임투마켓) 출시할 수 있도록 데이터를 활용하고, 조직 관리하고 업무 생산성을 높이는데 있어서도 데이터와 AI를 기반으로 자동화와 셀프서비스를 만들어낼 수 있다. 특히 기업의 재무적 관점에서 선제적으로 현황을 파악해 운영 효율성을 더욱 높일 수 있는 조치를 취하고, 기업 내부를 넘어 외부까지 전체 공급망 안에 있는 기업들까지 데이터를 적극 활용할 수 있도록 지원하는 기업이다.

데이터 중심 기업이 갖춰야 하는 요건으로 장 대표는 ▲모든 비즈니스를 위한 최적의 분석 역량 툴을 활용해 유연성과 확장성을 확보할 수 있어야 하고 ▲단일화된 데이터 소스를 가지고 모든 구성원들이 데이터를 사용하고 활용할 수 있어야 하며 ▲데이터 활용 측면에서 필요한 시점에 정확한 데이터를 승인(허용)된 사용자에게 전달할 수 있어야 한다는 점을 꼽았다.

그는 “모든 회사들이 이러한 목적을 달성하기 위한 데이터 여정을 진행하고 있지만, 현재는 데이터 발전 단계에서 데이터 사일로 단계를 넘어 중간에 있는 데이터 혼재의 단계에 머물면서 굉장히 많은 어려움을 겪고 있다”라면서 “핵심 이유는 기업 내 데이터 웨어하우스, 데이터 레이크, 오케스트레이션, BI, 데이터 스트리밍 처리 시스템, ML과 데이터 사이언스 처리 시스템, 거버넌스를 위한 레이어 등 매우 다양한 데이터 관련 시스템이 존재하고 있다는 것이다. 또 이같은 데이터 관리 시스템 간에 사일로가 존재해 데이터가 이동되고 중복 관리되면서 발생하는 여러 가지 높은 운영비 비효율성이 발생한다는 문제점이 있다”고 지적했다.

관리 측면의 문제도 지적했다. 그는 “일관성 없는 관리 정책으로 인해서 사용이 어려울 뿐만 아니라 데이터에 대한 신뢰 자체를 조직 내에서 떨어뜨린다는 문제점이 있다”며 “사용자 측면에서 보더라도 다른 툴들을 사용하고 다른 언어를 사용하면서 커뮤니케이션 비용이 발생하고, 실제 협업 생산성도 저해된다. 이같은 세가지 문제가 기업이 데이터 여정을 진행하는데 있어 큰 걸림돌로 작용한다. 불필요한 비용과 복잡성이 크게 가중된다”고 했다.

아울러 “이 문제를 해결할 수 있도록 고객을 돕기 위해 나온 새로운 데이터 아키텍처 접근법인 데이터 레이크하우스”라며 “데이터브릭스는 많은 고객들이 다양한 정형·비정형·반정형 데이터를 이미 클라우드에 저장하고 있다는 점에서 이 저장소를 그대로 활용해 이동과 중복는 배제하는 접근법을 활용한다. 이를 기반으로 데이터를 개방된 형식으로 안정성과 성능이 더욱 보장된 형태로 관리할 수 있도록 단일 플랫폼을 제공하며, 하나의 일관된 관리 정책과 거버넌스 프레임을 제시하고 있다. 실제 기업 내 존재하는 워크로드에 대한 다양한 사용사례도 단일 플랫폼 내에서 지원한다”고 부각했다.

데이터 레이크하우스로 데이터 발전 여정 지원…한국 시장 투자 확대  

데이터브릭스는 지난해 한국 시장에 본격 진출했다. 지난해 4월 한국지사를 설립한 데 이어 올해 1월 장 대표를 초대 지사장으로 선임하면서 한국 시장에서 본격 사업을 강화하고 있다.

<관련기사> 오픈소스계 슈퍼스타 ‘데이터브릭스’, 한국 시장 공식 진출

그동안 지사 인력을 80% 확장하고 파트너사도 크게 늘렸다. 주요 파트너사로는 클루커스, 메가존클라우드, LG CNS, 데이터다이나믹스, 엠클라우드브리지, 한화시스템 등이 있다.

데이터브릭스는 올해 한국 시장에 대한 투자를 더욱 확대할 방침이다. 국내에서 레이크하우스 도입이 증가하고 있는 가운데, 데이터브릭스는 기술 전문가, 영업, 서포트 엔지니어 등의 고객 지원 및 사업 확장을 위한 인력을 확충해 한국 비즈니스 성장을 가속하고 고객의 성공을 견인해 갈 계획이라고 밝혔다.

장 대표는 “한국의 비즈니스 리더들이 데이터와 AI가 가진 가치를 인식하고, 이를 활용해 비즈니스 혁신을 추진하고 있는 중요한 시점에 데이터브릭스의 한국 비즈니스를 이끌게 되어 영광”이라며 “2023년에는 더 많은 조직들이 데이터 사일로와 비효율성을 제거하고 데이터와 차세대 AI 기술이 지닌 잠재력을 최대한 발현할 수 있는 통합 데이터 플랫폼으로 전환하게 될 것”이라고 내다봤다.

데이터브릭스코리아는 올해 활발한 영업과 마케팅은 물론, 교육 프로그램도 진행한다. 국내에서 최초로 여는 오프라인 고객 행사인 오는 4월 25일 Data+AI 월드 투어(World Tour)를 개최한다. 이 행사에는 G마켓, 이마트24, 데브시스터즈, 한화, 메조미디어, 잡코리아, 핀다, 위버스 컴퍼니, 무신사 등을 포함한 기업들이 연사로 나서 데이터 혁신의 여정을 공유할 예정이다. 이와 함께 데이터와 AI를 활용해 업계를 혁신하고 선도하는 데이터 팀을 선정하는 ‘제1회 데이터브릭스 코리아 고객 어워즈’도 진행한다.

글. 바이라인네트워크
<이유지 기자>yjlee@byline.network

관련 글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다