“도저히 풀지 못했던 데이터 관리 문제, ‘디노도’가 해결…생성AI·RAG도 손쉽게 구현”
“데이터웨어하우스(DW)나 데이터레이크와 비교하지 마세요. 디노도는 독립적인 데이터 패브릭으로 DW와 데이터레이크를 포함해 모든 데이터 인프라를 안전하게 통합 관리하고 빠르게 활용할 수 있게 하는 솔루션입니다. 디노도가 관리하면 데이터를 위한 물리적인 공간을 더욱 효율적으로 운영할 수 있게 하면서 더 쉽고 빠르게 효과적으로 데이터를 사용할 수 있게 만듭니다.”
김세준 디노도코리아 기술 총괄 상무가 이야기하는 ‘디노도 플랫폼(Denodo Platform)’이다. 그는 디노도 플랫폼의 가치와, 다른 데이터 관리 제품들과의 차별점을 묻는 질문에 “디노도는 기존에는 풀 수 없었던 데이터의 문제점을 풀어주는 솔루션이자 플랫폼으로, 데이터와 관련해 많은 고민을 해왔지만 기술과 솔루션이 따라주지 못했던 부분을 해결해준다”며 이같이 강조했다.
오랜기간 쌓인 엄청난 양의 다양한 데이터를, 그것도 제대로 파악도 안된 채 여기저기에 흩어져 있는 데이터를 모두 한곳에 모아 전사적으로 관리하는 것은 사실상 불가능에 가깝다. 이런 상황에서도 조직 내에 존재하는 데이터를 찾아서 당장 비즈니스에 활용해야 한다.
디노도는 이같은 상황에 처해 데이터를 활용하는 데 어려움을 겪는 수많은 기업 조직을 위한 데이터 관리 플랫폼이다. 데이터 가상화 기술을 활용해 논리적인 데이터 패브릭으로 조직이 가진 데이터를 연결, 통합해 데이터를 관리하는 남다른 접근방식을 제공한다.
가상화 기술로 논리적 데이터 패브릭 구현, 다양한 데이터 연결해 통합
디노도 플랫폼은 데이터레이크처럼 우선 데이터를 한 곳에 잘 모아 놓는 물리적 ‘수집(Collect)’ 방식과는 달리 가상화 기술을 활용한 논리적인 데이터 패브릭으로 ‘연결(Connect)’을 통해 데이터를 통합한다.
김 상무는 “데이터를 활용하기 위해 데이터를 관리하겠다고 할 때 지금까지는 가장 먼저 DW나 데이터레이크에 모아서 관리하는 방식부터 생각했다. 기업의 데이터를 관리하던 기존의 체계와 관계없이 지금은 데이터를 빠르게 활용할 수 있는 방법을 확보해 기업이 경쟁력을 확보할 수 있어야 한다”라면서 “데이터 문제를 계속해서 전통적인 방식으로 해결하고자 하는 노력은 시행착오만 겪을 뿐이다. 디노도와 같은 플랫폼으로 최종 목표를 만들어낼 수 있다고 자신있게 말씀드릴 수 있다”고 말했다.
또한 “디노도는 기존의 데이터 관리 인프라들의 연결고리, 즉 브릿지 역할을 수행한다. 기존의 데이터 관리 도구는 데이터와 실제로는 연결되지 않고 정책과 데이터가 떨어져 있다. 관리 기능에 특화돼 있기 때문이다. 정책이 수립된 뒤에 기술 조직이 개발할 수 있도록 전달해 새로운 서비스나 애플리케이션으로 구현하는 것으로 정책을 실행해 왔다. 반면에 디노도는 연결고리가 이어져 있어 실제 데이터가 묶여있는 상태로 정책을 실행할 수 있는 것이 장점”이라며 “디노도는 물리적 공간과 정책과 논리적 모델이 다 이어져 실제 데이터가 활용될 수 있는 연결고리 역할을 잘해준다. 이로 인해 디노도는 카탈로그 도구, 거버넌스 전문 도구들과 연계해 많이 사용하고 있다. 기존에 수집된 정책을 디노도에 입혀 바로 실행할 수 있도록 자동화할 수 있다. 디노도에서 만드는 데이터 모델을 태블로나 마이크로스트레티지같은 도구로 바로 보고서를 만들 수 있는 구조까지 자동화해놨다”고 설명했다.
국내서 금융, 운송, 통신 등 다양한 레퍼런스 확보…데이터 운영효율화·거버넌스 구축
디노도테크놀로지는 1999년 스페인에서 설립돼 현재는 미국 실리콘밸리 팔로알토에 본사를 두고 있다. 지난 25년 동안 데이터 가상화 분야에 집중해온 전문기업으로, 현재 20개국에 진출해 있다. 아마존웹서비스(AWS), 구글 클라우드, 스노우플레이크, 알리바바 클라우드 등 200개 이상의 기술 파트너들과 협업하며 매년 연평균 30% 이상의 높은 성장률을 기록하고 있다.
한국 시장에는 지난 2021년 말에 진출했다. 그동안 디노도처럼 데이터 가상화 기술로 논리적 데이터 패브릭을 구축해 손쉽게 데이터를 통합하고 활용하게 하는 데이터 관리 방식은 생소했다. 디노도가 진출하면서 이같은 방식을 적극 소개하면서 시장을 개척하고 있는 셈이다.
진출 초기에 이같은 기술 방식의 디노도 플랫폼을 적극 알려온 이후 그동안 카카오뱅크 등 은행과 증권사, 운송업체, 통신사 등 다양한 산업분야에서 굵직한 고객사들을 확보해 나가고 있다. 카카오뱅크가 국내 첫 고객이다.
카카오뱅크는 디노도 플랫폼 도입 전에는 데이터 분석가들이 데이터를 분석하기 위해 IT 운영팀이 1~2주에 한 번씩 대용량 데이터를 옮겨 오프로드시키는 작업을 해왔으나, 도입 후에는 권한만 획득하면 데이터에 바로 접근할 수 있게 돼 관련 작업시간이 하루로 줄었다는 게 디노도의 설명이다. 디노도는 재사용 가능한 데이터 도메인을 표준화해 구축함으로써 카카오뱅크는 중복 데이터를 손쉽게 관리할 수도 있게 됐다. 이와 관련해 김세준 상무는 “IT 데이터 운영팀에서 소수로 비효율적으로 운영관리해서 생기는 병목(버틀랙) 해소가 1차 목적이었다. 뒷단에 통제(거버넌스) 기능도 적용했다”고 설명했다.
국내에서 디노도 플랫폼을 도입한 금융사, 통신사 등 다른 기업들은 주로 중앙집중식 데이터 거버넌스와 데이터 보안을 위한 용도로 도입을 결정했다. 디노도 플랫폼으로 기존의 데이터 인프라를 단일지점에서 관리할 수 있는 데이터 거버넌스 체계를 수립하는 수요가 많다. 기업 비즈니스에서 가장 중요해진 데이터를 효과적으로 분석하고 활용하기 위한 기반 체계를 구축하는데 있어 이같은 요소들은 필수적이다. 데이터 셀프서비스나 고객 경험 향상을 위한 데이터 파운데이션 구축 등과 같은 사용 사례가 많은 해외에 비해 국내에서는 아직까지 데이터 거버넌스와 보안 수요가 비교적 더 많이 나타나고 있다는 게 디노도의 분석이다.
김 상무는 “DW, 데이터관리시스템(DB), 클라우드 등을 갖추고 있는 기업들 중에서 다양한 인프라와 툴을 각각 따로 관리하고 있고 권한관리, 개인정보나 데이터 보안관리 체계가 안돼 있는 곳들이 아직 많은 것 같다”라면서 “디노도를 기반으로 단일화된 접근포인트를 만들어 데이터가 통제된 환경에서 운영하는 체계를 구축하면 관리를 위해 여러대의 PC를 쓸 필요도 없이 웹 기반으로 업무PC에서 바로 접근해 간소화된 방식으로 데이터를 활용할 수 있다. 디노도를 기반으로 하면 사용자에게 권한만 주면 모든 데이터에 쉽게 액세스할 수 있는 환경이 마련된다. 모든 데이터 권한은 중앙에서 통제할 수 있다”고 제시했다.
디노도 플랫폼 9.0, 다양한 LLM 통합해 생성AI·RAG 지원…셀프서비스 강화
디노도는 최근 새로운 기능이 대거 추가된 업데이트 버전인 ‘디노도 플랫폼 9.0’을 출시했다. 생성형 인공지능(AI)을 지원하는 것이 가장 핵심으로, 자연어 쿼리와 대규모언어모델(LLM) 지원, 검색증강생성(RAG) 아키텍처 구현 등을 정식 지원한다. 자연어 쿼리를 지원해 SQL에 대한 지식 없이도 효율적인 데이터 배포가 가능하고, 기업에서 관리하는 데이터를 실시간 LLM으로 전달하고, RAG 아키텍처를 구현해 생성AI 애플리케이션에서 신뢰도 높고 통찰력 있는 결과를 도출할 수 있도록 지원하는 것이 특징이다. AI를 데이터 배포에 적용해 논리적 데이터 관리를 차세대 AI와 고급 분석 영역으로 진화시켰다고 자부하고 있다.
디노도 플랫폼 9.0을 발표하면서 디노도의 알베르토 팬(Alberto Pan) 디노도 수석부사장 겸 최고기술책임자(CTO)는 “디노도 플랫폼 9.0 출시에 대해 단순히 ‘기대된다’는 표현을 사용하는 것은 이번 출시를 과소평가하는 것”이라고 표현하며, “수년에 걸쳐 개발된 디노도 플랫폼 9.0은 데이터 관리에 있어 획기적인 접근방식을 제공하며 IT 및 비즈니스 현업 실무진 모두에게 새로운 가능성을 열어줄 것이다”이라고 강조하기도 했다.
디노도 플랫폼은 오픈AI 챗GPT, 구글 클라우드 버텍스(Vertex) AI, AWS 베드록(AWS Bedrock) 등 다양한 생성AI 플랫폼과 통합돼 있다. 이에 자연어를 사용해 일상 언어로 질문하는 것처럼 간단하게 데이터를 쿼리할 수 있고 복잡한 쿼리문을 별도로 작성할 필요가 없도록 기능을 제공한다. 데이터 준비 마법사 기능으로 AI를 활용해 데이터 사용자 활동에 따라 자동으로 데이터를 변환하고 맞춤화된 데이터세트 필터를 제공해 데이터 쿼리 프로세스를 크게 간소화한다.
아울러 RAG를 통해 기업의 실시간 데이터를 생성AI 프로젝트에서 손쉽게 사용할 수 있도록 지원한다.
김 상무는 디노도 플랫폼 9.0에서 가장 두드러지는 기능으로 “현업 사용자들도 쉽게 데이터를 탐색해 자신이 원하는 데이터 형태로 가공해 활용할 수 있게 하는 셀프서비스가 강화됐다”며 “LLM과 연계해 생성형 AI를 기반으로 데이터를 관리하고 셀프서비스로 탐색해 기업이 추구하는 AI 기반 애플리케이션들로 보다 원활하게 기업 데이터를 공급하는 기능이 크게 강화돼 있다”고 지목했다.
특히 그는 디노도가 RAG 아키텍처 적용을 매우 손쉽게 만들어 준다는 점을 강조했다.
“LLM 엔진의 한계는 학습한 시점에 가지고 있는 데이터로 답을 할 수밖에 없다는 데 있다. LLM은 정확한 답이 아니더라도 질문을 하면 어떻게든 답을 찾아서 주려고 하고, 정답 여부에 상관없이 답을 내놓는 경우가 많은데 이를 방지하기 위해 RAG 아키텍처로 데이터를 좀 더 정확하게 하기 위한 노력을 하고 있다. 그런데 이 RAG를 구현하는 것이 쉽지 않다. RAG를 통해 데이터를 공급하려면 정제 작업부터 다시 해야한다. 데이터를 다시 모아 의미를 부여하고 RAG를 통해 데이터를 공급해야 한다. 공급된 데이터를 활용해 질의에 대한 답을 찾을 때 RAG가 데이터를 찾을 수 있도록 설정하고 개발도 해야하는데, 디노도를 도입하면 이 모든 것이 굉장히 단순해진다. 디노도는 RAG가 데이터를 추출할 수 있는 정보들을 비즈니스 용어 기반으로 논리적으로 변형시켜주는 역할을 굉장히 잘 한다. RAG가 호출하면 다른 쪽의 특정 기술로 답을 찾기 위해 원천 데이터에서 데이터를 뒤지는 방식이 아니라, 디노도에게 답을 요청하면 디노도가 알아서 꺼내주기 때문에 RAG 아키텍처에서 데이터 소스의 문제를 해결할 수 있다.”
MPP 기반 데이터레이크 엔진 내장, 빅데이터 분석 빠르고 효율적으로 지원
9.0 버전에서 제공되는 또 다른 주요 기능으로 대규모 병렬 처리(MPP) 기반 데이터레이크 엔진도 꼽았다. 김 상무는 “성능을 강화하기 위해 규모 MPP 기반 데이터레이크 엔진을 내장했다. 오픈소스인 프레스토(Presto)를 상용화해 제공한다. 기업이 디노도 플랫폼 라이선스 중 엔터프라이즈 플러스를 보유하고 있다면 무상으로 사용할 수 있다”고 설명했다.
이어 디노도가 제공하는 MPP 기반 데이터레이크 엔진의 기능과 혜택으로 “대용량 데이터를 처리하기 위한 오브젝트 스토리지나 아이스버그(Iceberg) 등과 같은 포맷을 지원해 기업들이 좀 더 쉽게 데이터 레이크 형태의 스토리지를 운영하고 데이터레이크를 더욱 잘 활용할 수 있게 해준다. 기존에 보유하고 있는 데이터레이크에 있는 데이터를 좀 더 빠르고 정확하게 활용할 수 있게 하는 기능”이라며 “디노도는 기존모든 데이터를 메모리에 올려놓고 처리해야 하는 기존 MPP가 가지고 있는 문제점을 해결한다. 이렇게 처리하면 서버와 메모리가 많이 필요하고 데이터 용량이 커지면 커질수록 또 메모리에 올려주는 시간도 느려지는데, 디노도는 자체적으로 쿼리를 최적화하는 기능을 갖추고 있어 성능은 더 뛰어나면서도 매우 효율적으로 실행될 수 있게 한다. 단독으로 MPP를 쓰는 것보다는 디노도가 MPP를 제어하도록 해 비용이 크게 최적화될 수 있다는 것도 장점”이라고 밝혔다.
디노도 플랫폼 9.0은 데이터레이크 기술인 아이스버그(Iceberg)와 델타(Delta)를 지원해 데이터 분석 역량을 향상시킨다. 뿐만 아니라 데이터 보안과 감사 기능도 강화해 데이터 관리와 컴플라이언스 기능 등도 개선했다.
글. 바이라인네트워크
<이유지 기자>yjlee@byline.network