디노도 “데이터 가상화로 금융사 생성형 AI 활용 더 쉬워진다”

“금융 규제 완화에 따라 자율성은 높아지지만 보안은 강화돼야 한다. 가명 및 익명 처리 데이터나 마스킹 데이터세트를 물리적으로 한 곳에 모아서 활용하던 기존 방식에서 변화해야 한다.”

디노도코리아 김세준 기술총괄 상무는 지난달 29일 <바이라인네트워크>가 양재 엘타워에서 개최한 ‘2024 금융 테크 컨퍼런스’에서 금융 데이터를 쉽고 안전하게 활용하는 방안을 소개하며 이같이 밝혔다.

김세준 상무는 “금융권의 규제 변화가 3단계에 걸쳐 일어날 것인데, 기업은 자율적 보안과 결과에 대한 책임, 제로트러스트를 책임지도록 요구받는다”며 “생성형 AI 엔진을 구축할 때 결국 검색증강생성(RAG) 아키텍처로 기업 내 데이터와 실시간 발생 데이터를 활용해야 하므로 위변조 방지에도 신경써야 한다”고 강조했다.

금융권 망분리 규제 완화로 금융회사도 생성형 AI와 외부 클라우드 도입에서 전보다 더 자유로워졌다. 금융회사는 민감한 개인 정보와 금융 거래 정보를 다루고 있어서 생성형 AI와 퍼블릭 클라우드를 활용할 때 데이터 관리에 더 많은 신경을 써야 한다.

현재 일반적으로 금융권에 구축된 데이터 환경은 정형 데이터를 담는 데이터웨어하우스(DW)와 비정형 데이터를 담는 데이터레이크다. 데이터를 활용하려는 회사 내 수요자는 점차 다양해지고 있으며, 앞으로 생성형 AI와 외부 서비스 API도 데이터 접근을 요구한다. 전통적인 데이터 플랫폼은 사내 비즈니스 앱과 금융 핵심 시스템 등에서 발생하는 데이터를 ‘추출-변환-적재(ETL)’ 작업으로 DW나 데이터레이크에 옮겨담고, 분석 및 시각화 앱을 DW나 데이터레이크에 접근시켜 활용하게 한다.

당연히 전통적 데이터 플랫폼은 오늘날 IT 환경에 적합하지 않다. 데이터를 생성하는 곳은 기존의 앱을 넘어 매우 다양해졌고, 데이터 유형도 다양해졌다. 계속 흘러가는 ‘스트리밍 데이터’는 기존 ETL 작업으로 DW에 옮기기 사실상 불가능하다. 앞서 언급됐듯 데이터에 접근하려는 앱도 다양해졌다. 물리적인 데이터 이동이 여러 부분에서 병목을 만들기 때문이다. 더구나 다양한 사용자마다 보안수준이 다르므로 접근제어나 권한관리 등을 하다보면 생성형 AI 같은 신생 데이터 수요에 대응할 수 없다. 이에 데이터 가상화, 데이터 패브릭 등의 기술과 아키텍처가 각광받고 있다.

김세준 디노도코리아 기술총괄 상무

김세준 상무는 “디노도의 데이터 패브릭 아키텍처는 데이터 가상화 기술을 사용해 물리적인 데이터 이동없이 논리적인 통합 계층을 구축해 데이터 수요처에 빠르게 데이터를 공급하게 해준다”며 “물리적으로 한 공간으로 모든 데이터를 통합하지 않고, 분산된 데이터 생성 위치에 다양한 앱을 연결해 활용하게 만드는 콘셉트”라고 설명했다.

김 상무는 “코어뱅킹, 분석계, 클라우드, SaaS 등의 데이터를 생성 위치에서 그대로 포용하고, 비즈니스 의미를 갖는 통합 시멘틱 모델 계층을 만들어 외부 사용자의 데이터 접근과 소비를 하게 만든다”며 “보안과 거버넌스 요구사항 변화에 민첩하게 대응할 수 있으며, 수작업으로 하던 ETL이나 데이터 탐색 노력을 AI로 자동화하는 방법도 제시한다”고 강조했다.

디노도 플랫폼은 데이터 원천과 데이터 사용자 중간에서 통합된 데이터 거버넌스를 수행한다. ‘하나의 ID에 하나의 롤’이란 기준으로 모든 데이터에 대한 사용자의 접근을 정책적으로 관리할 수 있다.

원천 데이터를 소비자에게 전달하는데, 데이터 전달 계층에서 사용자마다 각각의 데이터 뷰를 카탈로그로 생성해 제공한다. 데이터 카탈로그나 데이터 마켓플레이스 기능으로 표준화되지 않은 데이터를 물리적으로 정제하지 않고도 다양한 모델을 만들고, 그 모델을 기반으로 가공해 전달한다.

생성형 AI를 도입하는 시나리오에서 디노도 플랫폼의 유용성은 더 빛난다. 생성형 AI의 대형언어모델(LLM)은 기 학습한 인터넷 데이터의 한계를 갖기 때문에 기업에서 특정 용도로 사용하려면 RAG 아키텍처로 사내 축적 데이터를 활용하게 해야 한다. RAG 참조용 인 벡터 DB가 필요하고, 기존처럼 물리적으로 데이터를 이동하는 상황이라면 벡터 DB의 최신성과 RAG의 확장성을 확보하기 매우 까다롭다.

김 상무는 “디노도의 가상화된 DB 계층을 활용하면 물리적인 데이터 이동 없이 RAG에서 필요로 하는 텍스트투SQL로 원천 데이터를 실행하고 바라볼 수 있다”고 설명했다.

금융회사가 생성형 AI를 활용할 때 데이터 이관이나 LLM 참조 DB 이관 등의 과정에 보안 누수 보호조치를 취해야 한다. 이 경우 디노도를 활용하면 회사 데이터센터 내부의 데이터를 그대로 활용하면서 외부 클라우드의 LLM 엔진에 데이터를 공급할 수 있다.

김 상무는 “이를 위한 기능을 다양하게 통합한 보안 관리 도구를 보유했고, 데이터 요청 시 개인정보 비식별화나 가명처리, 마스킹, 사용자별 필요없는 데이터 제거 등의 작업을 따로 알아서 할 수 있는 정책 엔진을 탑재했다”고 말했다.

그는 “단일 보안 및 거버넌스 정책 수립 기능은 사용자 역할별, 속성별로 권한을 부여할 수 있고, 접속하는 클라이언트의 특성에 기반해 다양한 접근 제어를 할 수 있다”며 “데이터 접근을 실시간으로 계속 모니터링하고 로그를 생성하므로 민감 정보가 어떻게 활용되고, 누가 요청하고, 과하게 요청하는지, 원천 데이터를 어떻게 사용하는지, 특정 생성형 AI나 챗봇에서 어떻게 접근하는지 컬럼 단위로 추적해서 모든 정보를 저장하고 관리할 수 있다”고 덧붙였다.

디노도는 생성형 AI 기반을 쉽게 만드는 기능을 제공한다. 데이터 개발에 필요한 생산성 향상 외에도 RAG 구축 전체를 단순화하려는 노력이다. 기업이 다이나믹하게 데이터를 공급하는 환경을 만드려면 분산된 데이터에서 어떻게 데이터를 가져오고, 어떤 메타데이터를 벡터화할 것인지, 사용자의 질문에 어떤 시스템에서 데이터를 가져와야 옳은지, 시스템별로 다른 조회언어를 써서 어떤 구문을 써야 하는지, 어디서 실행해야 하는지, 일관된 보안을 어떻게 유지할지 등을 고민하게 된다.

김 상무는 “디노도는 단일화된 가상 객체로서 데이터를 다 추상화하고 있으므로 단일 언어와 프로토콜로 데이터에 접근할 수 있는 단일 접근 포인트를 제공한다”며 “디노도 쿼리 하나만으로 충분히 모든 데이터를 조회하고 전달할 수 있고, 그 상에서 모든 접근제어를 할 수 있다”고 말했다.

그는 “디노도는 AI SDK를 제공함으로써 이런 일련의 과정과 고민을 다 제거하고, 단순히 SDK만 이용해서 전체 RAG 구조를 쉽게 구성해 필요한 데이터를 공급할 수 있다”며 “생성형 AI로 서비스를 개발하려는 사람은 벡터 DB의 메타데이터를 어떻게 보강해 더 의미있게 질문과 답을 만들 것인지에 집중할 수 있게 된다”고 덧붙였다.

디노도는 각종 데이터 탐색과 활용을 도와주는 통합 AI 어시스턴트도 제공하며, 생성형 AI 엔진으로 뷰와 컬럼의 설명을 자동으로 생성해 추천하는 기능도 제공한다. 모든 개발과정을 손쉽게 배포하는 배포관리 자동화 파이프라인 기능도 같이 제공하고 있다.

글. 바이라인네트워크
<김우용 기자>yong2@byline.network

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다