데이터의 중요성이 커진 시대다. 데이터는 새로운 원유, 또는 통화라는 표현이 나올 정도다.

어느 산업에서나 데이터를 잘 활용해 새로운 가치를 창출하고자 노력하고 있지만 쉬운 일은 아니다. 많은 기업들은 자신들이 갖고 있는 데이터 가운데 일부만 이용하고 있는 것이 현실이다.

어딘가에 저장해 놓은 데이터가 있더라도 이를 분류하고 찾는 것도 쉽지 않을 뿐 아니라 존재하는 데이터를 통합해 활용할 수 없는 구조 때문이라는 지적이 나온다. 비정형데이터처럼 다양한 형태로 그것도 여러 시스템으로 분산돼 존재하는 데이터를 통합해 보다 효과적으로 분석하고 활용할 수 있도록 해야 한다는 얘기다.

이는 데이터를 저장하는 스토리지 시스템과 아키텍처의 문제로, 새로운 방식이 필요하다는 목소리가 IT·스토리지 업계에서 나왔다.

올플래시 스토리지 전문기업인 퓨어스토리지는 “이제는 스토리지에 대해 새롭게 생각해봐야 할 때”라며 지난 12일(현지시간) 스토리지 업계에 모던 인텔리전스 시대에 새로운 스토리지 아키텍처가 필요하다는 내용의 공개서한을 띄웠다. 

“데이터 레이크(Data Lake)와 같은 기존의 아키텍처는 데이터 저장만을 위해 구축됐다. 데이터 가치를 실현하는데 필요한 데이터 공유가 불가능하다. 이제는 데이터를 저장만 하기 위해 설계된 아키텍처가 아닌 데이터를 공유하고 전달할 수 있는 새로운 아키텍처가 필요하다. 이러한 새로운 아키텍처를 퓨어스토리지는 ‘데이터 허브’라고 부른다.”

마크 조빈스 퓨어스토리지 아시아태평양일본(APJ) 기술 서비스 부문 부사장(VP)은 지난 19일 오후 기자들과 만나 서한을 보낸 배경과 내용을 소개하면서, 새로운 ‘데이터 허브’ 아키텍처를 제시했다.

조빈스 부사장은 먼저 “현재 기업이 보유하고 있는 데이터의 99%는 접근하기 어려운 ‘콜드 데이터’”라고 지적하며 “티어링을 통해 고성능 스토리지에 가치있는 데이터는 저장하고 가치가 떨어지는 데이터는 다른 아키텍처나 플랫폼에 저장하거나 삭제하는 기존의 방식을 바꿔야 한다. 이제는 모든 데이터에 접근할 수 있어야 한다”고 강조했다.

그 이유로 조 부사장은 “인공지능(AI), 머신러닝이 활용되면서 데이터를 또 다른 방식으로 보게 된다”라며 최근 바이두(Baidu)가 발표한 연구 결과를 예로 들었다. “데이터세트가 1000만배 증가해야 언어 모델의 오류 발생률을 4.5%에서 3.4%로 줄일 수 있다. 단 1%의 성능 개선을 위해 1000만배나 많은 데이터가 필요하다. 애플리케이션이 조금 발전하려면 그만큼 처리해야 하는 데이터가 많아야 하는데, 이는 기존 시스템으로는 어렵다.”

분석과 AI에서 나타나는 문제, ‘데이터 사일로’

기존 시스템이나 아키텍처로는 효과적인 데이터 분석과 AI에 활용하기 어려운 이유로는 ‘데이터 사일로(Data Silo)’를 꼽았다.

“현재 데이터는 복잡한 사일로의 굴레에 갇혀 있으며, 이는 스토리지 업계의 탓으로 여겨지고 있다. 업계가 저장 기술에만 집중하게 되면 자연스레 사일로가 생길 수밖에 없다. 데이터가 우선시 되는 요즘 세상에서 사일로는 역효과를 낳는다. 통찰력과 혁신을 견인하는 현대의 애플리케이션이 액세스하기엔 데이터가 너무나 멀리 있다.” 퓨어스토리지 서한 내용의 일부다.

조빈스 부사장은 4가지 애널리틱스와 관련된 사일로로 데이터 웨어하우스, 데이터 레이크, 스트리밍 애널리틱스, AI 클러스터를 제시했다. 1990년대부터 지난 25년간 데이터와 애플리케이션 환경이 변화함에 따라 진화하는 단계를 거쳤다.

대용량 처리성능을 제공하는 ‘데이터 웨어하우스’에서 출발해 비정형 데이터가 나타나면서 이를 수용하기 위한 ‘데이터 레이크’가 나타났고, 스토리지가 데이터 크기나 랜덤·순차 방식(I/O 타입)에 상관없이 다차원적 성능을 제공할 수 있는 ‘스트리밍 애널리틱스’로 발전됐다. ‘AI 클러스터’는 수만 개의 GPU 코어에 의해 움직이며, 스토리지가 방대한 병렬 처리를 하도록 해 수천 대의 클라이언트와 수십억 개의 오브젝트에 대한 액세스를 데이터 병목 현상 없이 제공한다.

최근에는 애플리케이션이 점점 클라우드에 최적화되면서 분산된 인프라와 무한대의 스토리지로 설계되고 있다.

사일로를 깨고 통합하자, ‘데이터 허브’로

결과적으로 이같은 데이터 사일로를 없애고 통합해 각 기능을 모두 수용해야 한다는 뜻이다. 조빈스 부사장은 “애널리틱스와 AI를 수용하려면 다양한 유형의 데이터에 접근하고 처리할 수 있는 다양한 특성과 기능을 가져야 한다”라면서 “스토리지 업계에 지난 주에 보낸 공개서한은 바로 각기 다른 사일로 실질적으로 통합할 수 있는 새로운 아키텍처인 ‘데이터 허브’가 필요하다는 내용이었다. 기업이 데이터를 저장할 뿐 아니라 접근할 수 있어야 하고, 이를 통해 데이터가 가진 힘을 활용해나가야 한다”고 설명했다.

퓨어스토리지가 발표한 ‘데이터 허브’는 데이터 집약적인 워크로드에 최적화된 새로운 스토리지 아키텍처이자 비전이다.

‘데이터 허브’는 데이터 저장을 넘어 효과적으로 통합하고 전달할 수 있으며, 무결성이 보장된 상태에서 모든 애플리케이션이 필요로 하는 데이터에 접근할 수 있도록 지원하는데 초점을 맞추고 있다.

조빈스 부사장은 “데이터 웨어하우스, 데이터 레이크 등 기존 방식을 대체하자는 것이 아니라 데이터 접근방식을 원활히 지원할 수 있게 통합하는 것”이라며 “데이터를 조회하고 처리하는 속도를 높여 기업이 새로운 서비스와 제품을 제공할 수 있도록 제공하자는 의미”라고 ‘데이터 허브’를 소개했다.

퓨어스토리지는 ‘플래시블레이드’를 기반으로 ‘데이터 허브’를 구현한다. 정형·반정형·비정형 데이터 등 모든 종류의 데이터와 다양한 프로토콜를 통합 지원해 담아내는 단일 플랫폼으로 구축한다. 이는 퓨어스토리지가 주력해온 ‘데이터 중심(Data-Centric)’ 아키텍처 비전을 충족하고 있다는 설명이다.

‘데이터 허브’의 주요 특징은 이렇다. 먼저 파일 기반 메인스트림 워크로드와 오브젝트 기반의 클라우드 네이티브 애플리케이션을 위해 높은 데이터 처리량을 요구하는 백업과 데이터 웨어하우스 어플라이언스를 충족한다. 그리고 데이터 레이크의 장점이라고 할 수 있는 높은 확장성을 기반으로 한 스케일아웃 아키텍처를 지원한다. 다양한 유형의 데이터 접근방식에 대응할 수 있으며, 컴퓨팅 변화에 맞춰 대용량 병렬처리도 지원한다.

배성호 퓨어스토리지코리아 지사장은 “많은 기업들이 데이터 인텔리전스를 확보하는데 어려움을 겪고 있다. 사일로된 데이터 환경에서 데이터의 진정한 가치를 창출하기는 쉽지 않기 때문”이라며 “데이터 허브라는 새로운 아키텍처로 고객이 데이터를 통찰력으로 전환하는 역량을 키워 기업의 경쟁력을 향상시킬 수 있도록 지원할 것”이라고 강조했다.

배 지사장은 “퓨어스토리지는 데이터 중심 아키텍처를 바탕으로 단순성과 실시간, 온디맨드와 셀프드라이빙, 멀티클라우드, 미래에 대한 준비까지 5가지 요소를 지원하는 기술을 제공하는데 주력했다”라며 “데이터 허브를 발표하면서 이제 스토리지 기업을 넘어 데이터 플랫폼 기업, 업계를 선도하는 데이터 관리 기업으로 도약한다”고 밝혔다.

글. 바이라인네트워크
<이유지 기자>yjlee@byline.network