스노우플레이크, 모든 데이터를 가져오는 ‘오픈플로우’ 공개

스노우플레이크는 지난 3일 미국 샌프란시스코에서 개최한 ‘스노우플레이크 서밋 2025’에서 새로운 데이터 이동 서비스 ‘스노우플레이크 오픈플로우(Snowflake Openflow)’를 공개했다.

스노우플레이크 오픈플로우는 멀티모달 데이터를 스트리밍 방식으로 전송하는 ‘인제스천(ingestion)’ 서비스로 상호운용성을 지원하며 데이터들을 쉽게 통합하고 연결한다. 사전 구축된 확장 가능한 커넥터를 통해 고객들은 AI 모델, 앱, 데이터 에이전트를 스노우플레이크 플랫폼에서 직접 통합할 수 있게 된다. 이로써 단절된 데이터 스택과 반복적인 수작업을 제거하고 데이터 이동 과정을 간소화해 기업들이 더욱 빠르게 AI 기반 혁신을 실현할 수 있도록 한다.

오픈플로우는 개방형 표준 기반으로 설계되어 특정 벤더에 종속되지 않고 다양한 아키텍처와 유연하게 연동된다. 아파치 나이파이(Apache NiFi)를 기반으로 구동되어 시스템 간 데이터 흐름을 자동화해 데이터 엔지니어는 몇 분 만에 커스텀 커넥터를 생성하고 스노우플레이크의 관리형 플랫폼에서 실행할 수 있다. 이로써 고객은 데이터 라이프사이클 전반에 걸쳐 데이터를 효과적으로 활용할 수 있으며 변화하는 데이터 표준과 비즈니스 요구에도 유연하게 대응할 수 있다.

오픈플로우는 고객이 선택한 클라우드 환경에서 운영할 수 있는 BYOC 배포 모델로 현재 AWS 환경에서 정식 출시(GA)됐다. 수백 개의 사전 구축된 커넥터와 프로세서를 기반으로 박스, 구글애즈, 프루프포인트, 서비스나우, 워크데이, 젠데스크 등 타사 데이터 소스는 물론, 클라우드 오브젝트 스토리지와 메시징 플랫폼 등 여러 목적지 간의 통합을 간편하고 빠르게 구현할 수 있다. 정형, 비정형, 배치, 스트리밍 데이터 등 모든 데이터를 지원한다. 특히 오라클 데이터베이스에서 변경데이터캡처(CDC)로 스노우플레이크에 가져올 수 있다. 스노우플레이크는 오라클과 라이선스 파트너십을 체결해 오픈플로우로 오라클 데이터베이스의 데이터를 가져올 수 있게 한다.

기업이 AI를 도입하려면 정제된 데이터에 빠르게 접근할 수 있는 환경을 구축하는 것이 중요하다. 하지만 아직까지 많은 데이터 엔지니어들이 유연하지 않은 데이터 파이프라인, 분산된 데이터 스택, 제한된 리소스로 AI 플랫폼을 구축하는 데 어려움을 겪고 있다. 기존 데이터 통합 방식으로는 생성형 AI가 요구하는 규모·속도·데이터 다양성을 쫓아가지 못하는 현실이다. 150억 달러 규모로 추산되는 시장을 겨냥한 스노우플레이크 오픈플로우는 온프레미스와 클라우드를 포함한 다양한 소스의 데이터를 연결하는 순간부터 고객을 지원함으로써 이러한 장애 요소들을 제거한다.

스노우플레이크 크리스 차일드 제품 부문 데이터 엔지니어링 담당 부사장은 “점점 더 많은 기업들이 ‘AI 퍼스트’ 전략을 채택하고 있고, 이를 위해서는 모든 데이터를 단일 플랫폼에서 유기적으로 활용할 수 있는 환경이 필수적”이라며 “오픈플로우는 개방형이면서도 확장 가능한 통합 프레임워크를 기반으로 해 고객이 데이터를 분산시키지 않고도 AI 애플리케이션과 에이전트를 빠르게 구축할 수 있도록 지원한다”고 말했다.

현재 금융정보업체 팩트세트(FactSet)의 자회사 어윈(Irwin), 보안업체 시큐로닉스, 소프트웨어 업체인 워크웨이브 등의 기업들이 오픈플로우를 통해 거버넌스를 유지하면서 데이터를 확장하고  AI 혁신 기반을 다지고 있다.

스노우플레이크 오픈플로우 기술 스택

스노우플레이크는 오픈플로우와 더불어, 데이터 파이프라인 구축과 운영 효율성을 높일 수 있는 다양한 신규 기능을 선보이며 데이터 엔지니어링 역량을 고도화하고 있다. 이를 통해 고객은 기존의 기술 및 워크플로우를 강화하고, 한층 효율적으로 활용할 수 있다.

스노우플레이크는 자사의 자동화 및 관리형 서비스와 대표적인 오픈소스 데이터 변환 워크플로우 도구 ‘dbt(data build tool)’를 결합해 고객이 dbt프로젝트를 스노우플레이크 내에서 직접 구축, 실행, 관리할 수 있도록 지원한다. 이를 통해 고객은 인프라 유지보수에 대한 부담 없이 분석 인사이트 도출에 집중할 수 있다. dbt프로젝트는 ‘스노우플레이크 워크스페이스’라는 새로운 파일 기반 개발 환경 내에서 제공되며, AI 코파일럿 기반 코드 추천, 네이티브 깃 통합, 시각적 코드 변경 비교 등의 기능을 포함한다.

스노우플레이크는 고객이 개방형 레이크하우스 구조를 하나의 통합된 뷰로 구성할 수 있도록 지원한다. 스노우플레이크의 고성능 엔진을 통해 대부분의 아파치 아이스버그 테이블을 활성화할 수 있으며 베리언트(VARIANT) 타입 기반의 반정형 데이터 지원 확대, 파일 크기 및 파티션 최적화 기능을 통해 아이스버그 데이터를 보다 정교하게 분석할 수 있다. 이 모든 과정은 보안, 거버넌스, 데이터 통제권을 유지한 상태에서 이뤄진다.
신규 아키텍처 기반의 스노우파이프 스트리밍 기능으로 스노우플레이크 오픈플로우는 초당 최대 10GB의 스트리밍 데이터를 수집하여 5-10초 내에 쿼리 가능한 상태로 전환하는 초저지연 처리 성능을 제공한다. 이를 통해 스트리밍 기반 실시간 데이터 처리 환경에서도 강력한 성능을 확보할 수 있다.

크리스티안 클라이너만 스노우플레이크 제품 총괄 부사장(EVP)은 “스노우플레이크 오픈플로우는 매니지드 서비스로서 외부의 정형 및 비정형 데이터 소스를 모두 스노우플레이크로 가져올 수 있게 해준다”며 “오라클 데이터베이스까지 준실시간으로 CDC 동기화할 수 있으며, 쉽게 데이터를 가져와 사용할 수 있게 해준다”고 강조했다.

글. 바이라인네트워크
<샌프란시스코(미국)=김우용 기자>yong2@byline.network

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다


The reCAPTCHA verification period has expired. Please reload the page.