“데이터 호수는 잊어라, 데이터도 가상화가 대안”
최근 기업들이 관심을 갖는 데이터 관리 방안 중 하나는 ‘데이터 레이크’다. 거대한 호수처럼 데이터를 모아놓고 필요에 따라 사용하자는 접근이다. 한동안 데이터 창고(데이터 웨어하우스)에 대한 투자를 많이 했는데, 데이터의 양과 종류가 많아지면서 이제는 창고 정도로는 데이터를 관리할 수 없게 돼 호수가 등장한 것이다. 데이터 레이크는 데이터 기반 혁신을 위한 기반 인프라로 자리잡았다.
그런데 데이터 레이크는 단점이 있다. 기업은 데이터가 생성되는 곳에서 데이터 레이크로 데이터를 복사해야 한다. 분석할 때는 또 분석 시스템으로 데이터를 복사한다. 이를 이 과정을 ETL(추출, 변환, 적재)라고 한다.
그러다 보니 같은 데이터가 기업 내에 여기저기에 산재하고, 스토리지를 비롯한 자원의 낭비가 일어난다. 또 데이터 과학자들이 분석을 위해 필요로 하는 데이터를 얻기까지 오랜 시간이 걸리는 것도 문제다. 분석을 위한 데이터를 정제해 줘야하는데, 이 과정이 또 만만치 않다. 분석을 위한 데이터를 준비하는데 시간의 80%를 사용한다는 조사도 있다.
이런 문제를 해결할 방법은 없을까?
이에 대한 대안으로 떠오르는 것은 데이터 가상화다. 데이터 가상화는 물리적으로 분산된 데이터를 이동시키지 않고, 하나의 관점(싱글뷰)로 관리할 수 있는 논리적 레이어를 만드는 것을 말한다. 이 레이어는 실제 데이터가 아니라 데이터가 존재하는 곳의 위치정보만 가지고 있는 것이 특징이다. 여러 데이터 소스에서 데이터를 실시간 추출, 통합해 사용자가 요구하는 대로 데이터 모델을 ‘가상 뷰’로 즉시 생성한다.
데이터 가상화의 특징은 데이터를 이동시키지 않기 때문에 자원을 낭비하지 않고, 곧바로 분석에 들어갈 수 있다는 점이다. 분석가가 데이터를 요청하면 IT부서는 필요한 데이터에 엑세스할 수 있도록 하면 된다.
데이터 가상화 솔루션 공급업체인 팁코소프트웨어 주재영 지사장은 “기업들이 많은 데이터를 저장해 두고 있지만, 저장된 데이터는 이미 과거의 데이터”라면서 “실시간으로 대량의 데이터를 처리해야 할 수 있어야 한다”고 말했다.
같은 회사 이석진 상무는 “기업 내에는 데이터 소스가 다양해지면서 이기종 데이터가 늘어나고 있다”면서 “전통적인 방식으로 중앙화하는 방식으로 것보다 원하는 데이터를 빠르게 분석하는 데이터 가상화가 유리하다”고 말했다.
물론 데이터 가상화에 장점만 있는 것은 아니다. 아무래도 가상 레이어가 하나 더 들어가기 때문에 데이터를 직접 다루는 것보다는 성능이 좀 떨어지기 마련이다. 데이터 가상화 솔루션을 제공하는 업체들은 이 때문에 튜닝을 통한 성능 향상에 심혈을 기울이고 있다.
그렇다고 해서 데이터 가상화가 데이터 레이크를 100% 대체하는 것이 효율적이라고 말할 수만은없다. 데이터가 자주 바뀌는 상황이라면 데이터 가상화를 통해 그때그때 필요한 데이터 소스에 접근하는 것이 효율적이겠지만, 데이터의 변동이 거의 없다면 가상 레이어를 만들 필요없이 실제 데이터를 모아놓고 분석하는 것이 유리하기 때문이다.
이 때문에 데이터 레이크나 데이터 가상화를 병행할 필요가 있다는 이야기가 나온다. 이론적으로는 데이터 레이크나 데이터 가상화를 통해 기업 내 모든 데이터에 대한 싱글뷰를 갖는 것이 맞겠지만, 실제 현장에서는 필요한 기술을 조합해서 사용하는 경우가 많다.
<심재석 기자>shimsky@byline.network