“IBM 스토리지는 벡터DB 최신 상태를 자동으로 유지”
“기업의 생성형 AI 환경에서 스토리지 운영 방식을 완전히 새로 생각해야 한다. 기존 스토리지는 단순히 데이터를 저장하고 회복력을 확보하면 됐지만, 이제 스토리지 플랫폼에도 인텔리전스와 데이터 파이프라인을 심어야 한다. 데이터 변경 시 데이터를 추출하고, 청킹한 뒤 벡터 데이터베이스에 넣는 자동화된 데이터 파이프라인을 스토리지에 연결하고, 검색 API까지 스토리지에서 제공하게 만들어야 한다.”
샘 워너 IBM 스토리지 부사장(표지 사진)은 한국IBM이 27일 서울 여의도 사무실에서 개최한 기자간담회에서 ‘IBM 콘텐츠 인식 스토리지(CAS)’를 소개하며 이같이 밝혔다.
IBM CAS는 스토리지 플랫폼에 ‘콘텐츠 인식 스토리지 런타임’을 내장한다. 이 런타임은 데이터 파이프라인과 벡터 데이터베이스 처리를 자동화한다. IBM 스토리지 제품 외에 타사 스토리지와 퍼블릭 클라우드, 네트워크 스토리지에서도 데이터를 가져올 수 있는 ‘IBM 스토리지 스케일’이란 기술도 포함한다. 기업 내외부 스토리지의 모든 데이터를 IBM CAS에 정리하면 자동으로 벡터화되고, 데이터 변경 발생 시마다 추적을 관리하면서 그 과정에서 보안 접근까지 추적 관리할 수 있다.
샘 워너 부사장은 ”IBM CAS는 벡터화된 데이터를 항상 최신 상태로 유지하면서 AI에서 쓸 수 있게 한다”며 “운영 애플리케이션 환경의 구동엔 전혀 영향을 미치지 않는다”고 설명했다.
기업의 생성형 AI 활용은 범용 대형언어모델(LLM)에 내부 기밀 데이터를 주입할 수 있는 ‘검색증강생성(RAG)’을 필수로 한다.
샘 워너 부사장은 “전세계의 대형언어모델(LLM)은 공개된 데이터 상당수를 다 반영하고 있지만, 엔터프라이즈 내부 데이터의 반영 비율은 1%에 불과하다”며 “기업은 LLM 추론에서 데이터의 정확성과 안정성, 투명성을 확보해야 하는데 대부분의 기업이 원하는 결과물을 얻는데 상당한 어려움을 겪고 있다”고 말했다.
워너 부사장은 기업의 56%가 AI로부터 원하는 결과를 얻기 어렵다고 느끼고 있으며, 데이터 품질 문제로 연간 평균 4억 달러의 손실을 보고 있다고 지적했다.
기업에서 생성형 AI를 운영하려면 내부에 저장해둔 원시 문서를 AI에서 쓸 수 있도록 하는 데이터 파이프라인을 먼저 구축해야 한다. 원시 문서에서 데이터를 추출하고, 청크로 쪼개고 임베드 모델에 넣어 벡터화한 후 벡터 데이터베이스를 만드는 것이다. 여기서 벡터 데이터베이스는 실제 데이터를 저장하지 않고, 생성형 AI에 필요한 기업데이터를 플로팅포인트 형태로 저장한다.
기업의 스토리지엔 새로운 데이터가 끊임없이 들어오지만, 전통적인 스토리지는 벡터 데이터베이스와 전혀 연결돼 있지 않는다. 애써 만든 벡터 데이터베이스는 예전의 정보만 가진 상태고, 변경 사항을 추적할 수 없다. 그럼 기업은 기존의 벡터 데이터베이스를 버리고, 새롭게 벡터 데이터베이스를 만드는 주기를 반복해야 한다.
그는 “데이터를 벡터 데이터베이스에 넣으면 연결의 추적관리가 안 되고, 접근 제어를 잃어버려 보안과 거버넌스 이슈가 발생한다”며 “또 기업의 데이터 변화 속도가 어마어마해서 매월 수백건 이상의 데이터 변경이 발생하므로 벡터 데이터베이스를 최신 상태로 유지하는 건 사실상 불가능하다”고 말했다.
그는 “기업의 데이터 양도 페타바이트급이어서 이를 AI 모델에 넣고 벡터 데이터베이스를 최신 상태로 유지하려면 엄처안 비용과 시간을 들여야 한다”며 “현실적으로 기업의 데이터 중 5~10%만 벡터 데이터베이스에 반영할 수 있고, 모든 데이터를 AI 모델에 넣고 활용할 수 있는 순간은 없는 셈”이라고 강조했다.
그는 가트너에서 제시한 올해 기업용 스토리지 주요 트렌드를 소개했다. 가트너는 생성형 AI에 최적화된 스토리지와, 스토리지에 통합된 데이터 인텔리전스를 강조한다. 그리고, 폭증하는 비정형 데이터를 비용 효율적으로 저장할 수 있는 QLC 플래시 스토리지 수요 증가와, AI 앱 자체의 가용성 확보를 위한 사이버보안, 하이브리드 환경 지원 여부도 중요 트렌드로 꼽는다.
워너 부사장은 “이런 5가지 역량을 단일 플랫폼에서 제공하는 IBM의 제품으로 ‘IBM 퓨전’이라 불리는 통합 AI 어플라이언스를 제공하고 있다”며 “IBM 퓨전은 AI 레디 어플라이언스로서 서버, 스토리지, 네트워크, GPU 등을 포함해 생성형 AI를 바로 구현할 수 있는 요소까지 갖춰서 바로 AI 추론을 제공할 수 있게 한다”고 밝혔다.

한국IBM 스토리지 사업총괄 박대성 상무는 “한국 기업들은 디지털 전환을 가속화하고 있으며, 이 과정에서 AI의 도입을 검토하거나 비즈니스에 적용하는 기업이 증가함에 따라 데이터 인프라의 중요성이 더욱 부각되고 있다”며 “IBM은 고객의 AI 도입 및 디지털 전환 여정을 돕기 위해 맞춤형 스토리지 솔루션을 제공하며, AI 위주로 투자되는 시장에서 AI 최적화 스토리지로 점유율을 확장하고 있다”고 말했다.
그는 IBM 스토리지의 국내 고객 사례로 영상 분석 AI 애트테크 스타트업 ‘파일러(PYLER)’와, 서울시복지재단, 한국전통문화대학교, 의약품 유통업체 지오영그룹의 병원 구매대행(GPO) 자회사인 ‘케어캠프’ 등을 들었다.
파일러는 국내 최초로 엔비디아 B200 GPU를 도입하면서 비즈니스 성장과 함께 폭증하는 데이터 처리 수요에 대응하기 위해 IBM 스토리지 스케일 시스템(IBM SSS 3500)을 도입했다. IBM SSS는 AI, 고성능 컴퓨팅, 데이터 분석, 하이브리드 클라우드 환경에 최적화된 고성능 스토리지다. 파일러는 여러 개발자들이 컨테이너 기반 환경에서 데이터를 공유하고 AI 기술을 연구/개발하는데, 이러한 환경은 IBM SSS 3500 이 컨테이너 환경에서 최적의 스토리지로써 AI 모델의 학습 및 추론 작업을 보다 빠르고 효율적으로 수행할 수 있도록 지원한다.
서울시복지재단과 한국전통문화대학교는 IBM의 비즈니스 파트너인 연무기술과 협력해 IBM 플래시시스템을 도입했다.
서울시복지재단은 시민 서비스 고도화를 위해 스토리지 인프라를 재정비했다. 기존 인프라에서는 처리 지연, 야간 백업 시간 증가, 데이터베이스 잠김 등의 문제가 지속적으로 발생했으며, 이는 서울시민 수요가 집중되는 주요 서비스의 장애 요인으로 작용할 우려가 컸다. 이에 따라 재단은 고성능 입출력 처리, 이중화 구조 기반의 안정성, 유연한 인터페이스 구성을 지원하는 IBM 플래시시스템을 도입했다. 현재 재단은 이를 기반으로 대규모 사용자 접속이 빈번한 시민 서비스를 안정적으로 운영하고 있으며, 향후 서비스 확장에 있어서도 유연성과 신뢰성을 확보할 수 있는 디지털 인프라를 갖추게 됐다.
한국전통문화대학교는 전통문화의 창조적 계승과 국가유산의 보존·관리·활용을 전문적으로 이끌어갈 인재를 양성하기 위해 설립된 국립 특수목적대학이다. 한국전통문화대학교는 다양한 분야에서 디지털 자료의 생성과 활용이 증가함에 따라 구성원들이 안정적으로 저장하고 공유할 수 있는 웹디스크 기반 파일 공유 시스템 운영의 필요성이 커지고 있었다. 이에 따라, 대학은 웹디스크 서비스의 안정성과 속도, 그리고 데이터 관리의 신뢰성을 확보하기 위해 스토리지 인프라 재정비에 나섰다. 이번 시스템 도입은 단순한 저장공간 확장을 넘어, 전통문화 전문 교육기관으로서 교육과 연구 활동을 안정적으로 뒷받침할 수 있는 디지털 기반을 마련한 중요한 전환점으로 평가된다.
케어캠프는 IBM 플래시시스템 기반의 랜섬웨어 탐지 솔루션을 도입했다. 최근 의료 및 유통 분야를 겨냥한 사이버 보안 공격이 급증하면서, 대규모 민감 정보를 다루는 기업에게는 데이터 보안이 경영 안정성과 직결되는 핵심 과제로 부상하고 있다. 이번에 구축된 IBM 플래시시스템 7300은 내장된 플래시코어 모듈, 스토리지 버추얼라이즈, 스토리지 인사이트 기능을 통해 드라이브, 컨트롤러, 볼륨 단위에서 AI 기반의 랜섬웨어 위협 탐지를 구현한다. 이를 통해 위협 요소를 사전에 식별하고 대응할 수 있어, 랜섬웨어에 대한 조기 감지와 예방이 가능해졌다.
박대성 상무는 “국내 스토리지 시장은 AI 신사업에서 주로 활동하는 벤더와 전통적인 정형 데이터 위주의 강자 사이의 격차가 근소해지고 있다”며 “상위 4~5개 기업이 근접한 점유율로 시장에서 경쟁하고 있다”고 강조했다.
글. 바이라인네트워크
<김우용 기자>yong2@byline.network