(출처=데이터브릭스)

데이터브릭스, 실시간 분석 레이크하우스 출시

데이터브릭스는 레이크하우스의 실시간 진화 버전인 ‘레이크하우스//RT(리얼타임)’을 18일 발표했다.

레이크하우스//RT를 통해 기업은 거버넌스가 확보된 델타 레이크 및 아파치 아이스버그 데이터에서 실시간 분석을 직접 수행할 수 있게 됐다. 밀리초 단위의 성능을 확보하기 위해 별도의 서빙 시스템을 구축해야 했던 번거로움을 완전히 해소할 수 있게 됐다. 현대적인 에이전트 중심 기업의 높은 동시성과 낮은 대기 시간 요구사항을 충족하도록 설계된 새로운 컴퓨팅 엔진 ‘레이든(Reyden)’을 기반으로 하는 레이크하우스//RT는 현재 베타 버전으로 제공된다.

그동안 높은 동시성 환경에서 낮은 대기 시간을 필요로 하는 기업들은 레이크하우스와 병행해 별도의 실시간 서빙 레이어를 구축하는 것 외에 대안이 없었다. 그러나 이러한 서빙 레이어는 특정 벤더에 대한 종속성을 유발하고, 인프라 비용을 증가시키며, 거버넌스를 파편화할 뿐 아니라, 데이터가 늘 복사본 형태로 존재하기 때문에 진정한 의미의 실시간을 실현하지 못한다는 한계가 있었다. 결과적으로 기업은 대기 시간을 감수하거나 데이터 스택의 파편화를 수용해야 하는 강제적인 타협을 해야만 했다. 이는 사용자에게도 큰 번거로움이지만, AI 에이전트 환경에서 치명적인 걸림돌이 된다. 항상 가동되며 루프 내에서 추론을 수행하는 AI 에이전트의 행동 능력은 기업의 복잡한 데이터를 얼마나 신속하게 쿼리할 수 있는지에 전적으로 달려있기 때문이다.

레이크하우스//RT는 이러한 타협의 필요성을 없애기 위해 개발됐다. 거버넌스가 확보된 레이크하우스 내에서 델타 및 아이스버그 테이블을 직접 쿼리하므로, AI 에이전트와 사용자는 데이터를 복사하거나 이동하지 않고도 최신의 완전하고 신뢰할 수 있는 데이터에 접근할 수 있다.

레이크하우스//RT의 실행 엔진은 일관된 저지연 성능을 유지하면서도 수만 명의 동시 사용자 및 에이전트를 지원하도록 설계됐다. 표준 분석 벤치마크 기준으로 레이크하우스//RT는 초당 1만2000 쿼리 처리 시에도 100ms 미만의 지연 시간을 기록했으며, 고객들은 기존 실시간 서빙 스택 대비 최대 16배 향상된 성능을 확인했다. 레이크하우스//RT는 별도의 서빙 레이어를 둘 필요가 없어지기 때문에, 이에 수반되는 유지비용, CDC 및 동기화 파이프라인, 거버넌스 공백, 고유 포맷으로 인한 벤더 종속성 문제까지 모두 해결할 수 있다.

데이터브릭스 공동창립자 겸 CEO 알리 고드시는 “지난 10년 동안 우리는 스파크를 통한 데이터 엔지니어링 및 데이터 사이언스, 그리고 포톤과 레이크하우스를 통한 데이터 웨어하우징에 이르기까지 현대 데이터 스택의 주요 워크로드를 단일 개방형 기반 위에 통합해 왔다”며 “레이크하우스//RT는 엔진의 전체 스펙트럼을 완성하여 사람들이 원하고 에이전트가 필요로 하는 밀리초 단위의 속도 레이어를 제공한다”고 밝혔다.

글. 바이라인네트워크
<김우용 기자>yong2@byline.network

일간 바이라인 구독하기

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다


The reCAPTCHA verification period has expired. Please reload the page.