데이터 호황 시대, 데이터와 분석 리더에게 던져진 숙제
[인터뷰] 페이 페이 가트너 시니어 수석 애널리스트
올해 데이터 및 분석(D&A) 리더는 데이터 공급과 분석 수요의 급증 속에서 ‘더 많은 데이터로 더 많은 분석을 수행’해야 하는 압박에 직면해 있다.
이에 가트너는 지난 3월 2025년 데이터 및 분석 분야의 핵심 트렌드 9가지를 발표했다. 가트너가 꼽은 데이터 및 분석 분야 핵심 트렌드는 ▲활용도 높은 데이터 제품(Highly Consumable Data Products) ▲메타데이터 관리 솔루션 ▲멀티모달 데이터 패브릭 ▲합성 데이터 ▲에이전트 분석 ▲AI 에이전트 ▲소규모언어모델 ▲복합 AI ▲의사 결정 인텔리전스 플랫폼 등이다.
본격적인 AI시대에 접어블면서 데이터와 분석이 전문가의 영역을 벗어나 보편화되고 있고, 기업의 관련 분야 기술 투자도 커지고 있다. 투자의 증가만큼 데이터 및 분석의 성과에 대한 기대치도 함께 커지고 있다. 그동안 제한된 자원을 효율적으로 활용하는 데 초점을 맞췄던 데이터 및 분석 전문가는 이제 더 많은 자원으로 더 많은 성과를 창출해야 한다. 가트너는 높아진 수요와 기대치에 대응하려면 주요 트렌드를 파악해 대응해야 한다고 조언했다.
이에 대해 페이 페이 가트너 시니어 수석 애널리스트는 <바이라인네트워크>와 서면 인터뷰에서 각 트렌드에 대한 구체적 조언을 제시했다.
데이터 제품화
비즈니스 활동을 위한 데이터 활용 수요는 이제 분석 전문가 외 현업 부서에서도 급증하고 있다. 선도적인 기업의 데이터팀은 분석 담당자뿐 아니라 다양한 현업 부서의 데이터 요청에 효과적으로 대응하는 내부용 데이터 서비스 체계를 구축하고 있다. 데이터세트를 수요자 특성에 맞게 미리 준비해 상품처럼 준비하는 ‘데이터 제품화’가 요구된다.
활용도 높은 데이터 제품을 위해 데이터 및 분석 리더는 비즈니스에 필수적인 사용 사례에 집중하고, 제품 간 연결을 확장해 데이터 제공 문제를 완화해야 한다. 재사용 및 조합 가능한 최소 기능 데이터 제품을 우선 제공함으로써 지속적으로 제품을 개선시킬 수 있도록 지원해야 한다. 또한, 데이터 제품의 성공을 측정하기 위해 생산 팀과 활용 팀 간의 핵심 성과 지표(KPI)에 대한 합의를 반드시 도출해야 한다. 그러자면 데이터 제품화를 위해 데이터 및 분석팀이 현업 도메인 전문성을 어느 정도 갖춰야 한다.
“데이터를 제품화하려면 D&A 팀의 비즈니스 도메인 전문성을 보완해야 합니다. 이를 위해서는 D&A 조직 체계를 재검토하고 강력한 데이터 중심 문화를 조성해야 합니다.
우선, 전담 COE(Center of Excellence)와 비즈니스 라인(LoB) 내 분산형 D&A 그룹을 통합한 ‘분석 프랜차이즈 조직 모델’을 검토해야 합니다. 이를 통해 데이터 전문가는 비즈니스 맥락을 깊이 이해하고, 기술 전문성을 바탕으로 도메인 팀을 지원할 수 있습니다. 이러한 전략적 통합은 더 나은 커뮤니케이션, 더 빠른 반복, 더 비즈니스 목표에 부합하는 정교한 의사결정을 촉진합니다. 조직 전반에 데이터 중심 문화를 조성해 통합을 강화할 수 있습니다. D&A 팀은 데이터 리터러시 프로그램을 전개하고, 학습 성과를 평가•모니터링하며, 협업, 공유, 혁신을 장려하는 분석 커뮤니티를 조직해야 합니다.”
메타데이터 관리
대형 기업은 데이터웨어하우스(DW) 구축 과정에서 데이터 자산화와 데이터 거버넌스 체계를 갖춰왔다. 그들에게 메타데이터관리(MDM)는 새로운 용어가 아니다. 하지만, 생성형 AI 시대에서 데이터의 활용 범위가 넓어지고, 데이터 공급과 소비의 매커니즘이 복잡해지면서 메타데이터는 새로운 차원으로 관리돼야 하는 존재다. 효과적인 메타데이터 관리는 기술적 메타데이터부터 향상된 컨텍스트를 위한 비즈니스 메타데이터까지를 포괄한다. 다양한 메타데이터 유형을 통합하면 데이터 카탈로그, 데이터 계보, AI 기반 사용 사례를 활성화할 수 있으며, 이를 위해 메타데이터를 자동으로 탐색하고 분석하는 적절한 도구를 필수적으로 선택해야 한다.
새로운 메타데이터 관리 솔루션을 구축하기 위해 기업은 어떤 접근법을 취해야 할까?
“메타데이터 관리에는 다양한 성숙도 단계가 있습니다. 미래의 메타데이터 관리는 비즈니스의 변화와 환경에 능동적, 확장적, 적응적으로 발전합니다.

기업은 메타데이터 관리 솔루션을 구축할 때 능동적 메타데이터 관리 접근법을 취해야 합니다. 이는 전통적인 수동적·정적 정리에서 벗어나, 동적·지속적·실시간으로 메타데이터를 활용해 자동화, AI/ML 기반 인사이트, 데이터 소스와 데이터 파이프라인 전반의 최적화를 지원하는 것을 의미합니다. 능동형 메타데이터 관리 솔루션에 요구되는 역량은 네 가지 핵심 기능(탐색, 이해와 개선, 관리, 활용)을 포함합니다.”
멀티모달 데이터 패브릭(Multimodal Data Fabric)은 강력한 메타데이터 관리 체계 구축을 위한 토대다. 메타데이터는 데이터 파이프라인 전반에서 수집되고 분석돼야 한다. 데이터 패브릭을 통해 얻은 인사이트와 자동화 기능은 데이터 오케스트레이션을 지원하고, 데이터옵스를 활용해 운영 효율성을 개선하며, 데이터 제품을 활성화한다.
합성 데이터(Synthetic Data)
생성형 AI의 기반인 대규모언어모델(LLM)은 얼마나 많은 데이터를 학습하느냐에 따라 성능을 달리 한다. 특히 전문 영역 데이터를 많이 학습할수록 특정 분야의 질문과 요청에 적절하고 우수한 답을 생성해줄 수 있다. 그러나 LLM이 학습할 데이터를 확보하는 건 어려운 일이다. 대중적으로 제공되는 프론티어 AI 기업의 LLM은 인터넷 상에서 확보가능한 공용 데이터나, 특정 계약을 맺고 확보한 데이터를 학습한다. 수십년간 기업 내부에 축적해온 데이터를 학습하거나 검색증강생성(RAG)으로 세밀한 맥락을 이해시킬 수 있지만, 이 경우에도 체계적으로 자산화된 데이터가 제한적이어서 한계가 있다. 개인정보처럼 민감성 데이터는 LLM 학습에 사용할 수 없게 규제되므로 학습용 데이터 확보는 매우 어려운 일이다.
합성데이터는 부족한 AI 학습용 데이터를 안전하게, 그리고 대량으로 쉽게 확보할 수 있는 방안으로 각광받고 있다. AI 이니셔티브 추진에 있어 데이터 누락이나 불완전, 확보 비용이 높은 영역 식별은 매우 중요하다. 합성 데이터는 원본 데이터의 변형 또는 민감한 데이터의 대체 데이터로, AI 개발을 촉진하면서도 데이터 프라이버시를 보장한다. 그렇지만, 합성데이터를 모든 데이터 유형이나 시나리오에서 사용할 수 있는 건 아니다. 합성데이터를 활용하기에 적절한 분야를 식별해야 한다.
“합성 데이터는 실제 데이터가 부족하거나, 민감하거나, 역동적인 시나리오에 유용합니다. 가트너 분석에 따르면, 합성 데이터 활용 경향은 산업별 데이터 요구사항과 활용 목적 등에 따라 달라집니다.
예를 들어, 환경적 제약이나 데이터 민감성으로 인해 데이터 수집이 어려운 항공우주 및 운송, 제조업, 미디어 및 통신, 정부 및 공공 부문에서는 생성형 시뮬레이션 데이터의 활용도가 특히 높습니다. 또한, 시뮬레이션 센싱 및 이미징, 디지털 트윈 분야에서도 합성 데이터 활용이 활발하게 이루어지고 있습니다.
반면, 금융, 에너지 및 유틸리티, 헬스케어, 기술 및 소매, 식음료 서비스 산업에서는 상대적으로 합성 데이터 활용이 낮으며, 시나리오 계획과 예측 목적에서도 활용도가 제한적인 것으로 나타났습니다.”

오늘날 많은 기업은 데이터 파이프라인 구축에 많은 공을 들이지만, 많은 어려움이 상존한다. 다양한 데이터 소스를 안정적으로 모아야 하고, 데이터 파이프라인의 견고함을 유지해 데이터의 최신성을 유지해야 한다. 수집한 데이터를 정제하고 변환하며 저장하는 것도 일거리다. 현재 데이터 파이프라인 작업 자동화가 뜨는 이유다.
“조직은 데이터옵스(DataOps) 도구를 활용해 데이터 파이프라인 구축 프로세스를 자동화할 수 있습니다. 이는 AI 기반 오케스트레이션, 노코드 및 로우코드 파이프라인 빌더, 사전 구축 커넥터, 실시간 데이터 스트리밍, 자가 복구 워크플로우 등 다양한 기능을 제공합니다. 데이터옵스가 파이프라인 구축 프로세스의 각 단계에서 지원하는 자동화 예시는 다음과 같습니다.
– 계획 단계: 서비스 수준 계약(SLA) 및 서비스 수준 목표(SLO) 정의, 데이터 계약 사양 수립, 샌드박스 프로토타입
– 생성 단계: 방향성 비순환 그래프(DAG) 기반 데이터 파이프라인 설계, 빌드 및 테스트 스크립트 작성, 단위 및 함수 테스트 수행
– 검증 단계: 적합성 테스트, 데이터 품질 테스트, 회귀 테스트 수행
– 사전 배포 단계: 자동 및 트리거 기반 배포, 배포 승인 워크플로우, 배포 패키지 구성 관리
– 배포 단계: 파이프라인 배포, 데이터 버저닝, 롤백 시나리오 적용
– 구성 단계: IT 인프라 프로비저닝, 환경 드리프트 감지, 코드형 인프라(IaC) 검증
– 모니터링 단계: 데이터 가시성 메트릭 수집, 메타데이터 및 사용 통계 관리, KPI/KPR/운영 지표 수집.”

데브옵스, ML옵스, LLM옵스 등 다양한 운영 프레임워크가 기업에 도입되고 있다. 가트너는 데이터옵스란 방법론을 생성형 AI를 활용하고자 하는 기업과 조직에게 제시한다.
“데이터옵스(DataOps)는 현대 데이터 엔지니어링을 위한 하나의 방법론입니다. 이는 협업적, 교차기능적 관행이며, 여러 기존 방법론에서 개념을 차용해 발전해왔습니다. 데이터옵스가 개발을 운영 환경에 적용하기 위한 접근 방식이라면, 애자일은 협업과 속도를 강조하는 방법론입니다. 데이터옵스는 다른 방법론들과 공존하며, 데이터 관리와 활용의 효율성을 높입니다.
가트너는 데이터옵스를 데이터 엔지니어와 소비자 간 데이터 흐름에서 소통, 통합, 자동화, 가시성, 운영을 개선하는 데 중점을 두고, 민첩하고 협업적인 방식으로 작업을 수행하는 데이터 관리 관행으로 정의합니다. 이를 통해 데이터 제공 프로세스를 간소화하고, 데이터 플랫폼, 파이프라인, 제품을 실제 환경에 적용함으로써 데이터 관리와 활용 과정에서 발생하는 다양한 비효율성과 불일치를 제거할 수 있습니다.”
에이전트 분석(Agentic Analytics)과 AI 에이전트
데이터 분석을 위한 AI 에이전트를 활용해 폐쇄 루프 비즈니스 성과를 자동화하는 것은 혁신적인 접근 방식이다. 이를 실현하려면 인사이트를 자연어 인터페이스에 연결하는 사용 사례를 시범 운영하고, 디지털 업무 환경 애플리케이션 통합을 위한 공급업체 로드맵을 평가해야 한다. 뿐만 아니라 오류 및 환각 위험을 최소화하기 위한 거버넌스 확립과 AI 레디 데이터 원칙을 통한 데이터 준비 상태 점검 또한 필수적이다.
AI 에이전트는 임시적, 탄력적으로 자동화가 필요하거나, 복잡한 적응형 자동화 모델을 필요로 하는 경우에 유용하다. 보다 정교한 AI 에이전트를 구축하려면 LLM에만 의존하지 않고, 다양한 분석 및 AI 모델을 활용해야 한다. 데이터 및 분석 리더는 AI 에이전트가 여러 애플리케이션 간 원활하게 데이터를 접근하고 공유할 수 있도록 지원해야 한다.
문제는 개념검증(POC)을 통해 AI 에이전트에 도전한다고 해도 POC용으로 배포하는 것과, 실제로 회사 전반에 폭넓게 배포하는 것은 다른 차원이란 점이다. AI 에이전트를 프로덕션 단계로 이행할 때 점검하고, 주의해야 할 점이 따로 있다.
“AI 에이전트를 POC에서 프로덕션 단계로 전환하려면 엄격하고 다차원적인 평가와 포괄적인 안전장치 도입이 필수적입니다. 조직이 취해야 하는 구체적인 조치는 다음과 같습니다.
포괄적 위험 평가, 강력한 암호화와 액세스 제어 구현, 일반개인정보보호법(GDPR)과 의료정보보호법(HIPAA) 등 관련 데이터 보호 규정 준수가 반드시 필요합니다. 또한 잠재적 취약점을 탐지하고 완화하기 위해 지속적인 모니터링 체계를 구축해야 합니다.
실제 데이터에 노출되는 상황을 중심으로, AI 에이전트가 편향을 확산하거나 잘못된 결과를 생성할 가능성을 평가해야 합니다. 에이전트가 시간 경과와 관계없이 공정하고 정확한 결정을 유지할 수 있도록, 정기적인 재학습과 피드백 루프 구축하는 것이 중요합니다.
특화 에이전트와 범용 에이전트의 선택은 신중하게 이뤄져야 합니다. 이 과정에서는 필요한 거버넌스 프레임워크, 보안 메커니즘, 대규모언어모델(LLM) 가드레일, 프롬프트 템플릿 관리, 컨텍스트 엔지니어링 등 다양한 요소를 고려해야 합니다.
운영의 투명성과 설명 가능성을 우선적으로 확보해야 합니다. 특히 금융이나 의료와 같은 고위험 분야에서는 AI 에이전트의 의사결정 과정을 이해하고 감사할 수 있는 이해관계자의 역량이 더욱 강조됩니다.
장애 시나리오에 대비해 포괄적인 비상 계획을 수립합니다. 이를 위해 롤백, 사고 대응, 수동 중단 기능에 대한 명확한 프로토콜을 마련해야 합니다.”
생성형 AI, 특히 AI 에이전트가 맥락을 정확히 파악하고, 올바른 의사결정을 내리려면 AI 모델이 쉽게 이해할 수 있는데이터를 제공해야 한다. AI 레디 데이터는 관계형데이터베이스(RDB) 체계의 스키마, 기업용 정보 검색의 시맨틱 등보다 한차원 더 나아가야 한다. AI 레디 데이터를 마련하는 건 수많은 수작업을 요구하고 있다. AI 레디 데이터 확보는 자칫 업무 지체로 이어지고, AI 에이전트 도입과 정확한 작업을 방해하는 요인이 된다. 때문에 AI 레디 데이터를 위한 데이터 플랫폼의 자동화 방안이 필요해졌다.
“데이터 플랫폼에서 시맨틱 레이어를 자동으로 구현하는 것은 매우 복잡한 작업이며, 이를 위한 다양한 접근 방식이 등장했지만 아직 초기 단계에 머물러 있습니다.
주요 접근 방식으로는 데이터 자산을 자동으로 정리, 프로파일링, 보강하는 메타데이터 관리 플랫폼의 활용이 있습니다. 이러한 플랫폼은 데이터 스키마, 사용 패턴, 기존 문서를 분석하고, 이를 기반으로 관계, 계층 구조, 비즈니스 정의를 추론합니다. 예를 들어, 콜리브라(Collibra)와 알레이션(Alation)의 데이터 정리 도구는 머신러닝 알고리즘을 활용해 시맨틱 매핑을 제안하고 비즈니스 용어집 생성을 자동화합니다.
자동화를 효율적으로 구현하기 위한 또 다른 방법으로 선언형(Declarative) 모델링 도구가 있습니다. 이를 통해 데이터 아키텍트는 고급 언어나 그래픽 인터페이스를 사용해 시맨틱 규칙과 관계를 정의할 수 있습니다. 데이터 빌드 도구(DBT)나 아파치 아틀라스(Apache Atlas)와 같은 솔루션은 사용자가 비즈니스 로직과 데이터 계보를 정의할 수 있도록 지원합니다. 데이터 플랫폼은 이를 데이터 생태계 전반에 적용하고 유지해, 조직이 수동 개입을 줄이고 데이터 변화에 따른 일관성을 확보할 수 있도록 합니다.
자연어처리(NLP)와 개체 인식 알고리즘을 활용하면 지식 그래프와 온톨로지를 자동으로 생성, 업데이트할 수 있습니다. 이러한 기술은 텍스트 데이터, 문서, 사용자 쿼리를 분석해 조직의 지식을 반영하는 시맨틱 모델을 구축합니다. 예를 들어, 자동 온톨로지 빌더는 기업 문서에서 개념과 관계를 추출해, 최소한의 인력으로 시맨틱 레이어를 구현합니다.”
데이터 및 분석팀의 역할 변화
기존의 기업 내 데이터팀, 분석팀이 전보다 더 많은 책임을 갖고, 더 많은 업무를 해야 하는 상황이다. IT 친화적인 기업과 달리 비IT 태생 기업이라면 데이터와 분석 조직 투자가 막 시작되는 단계일 수 있다. 기업의 투자 우선순위가 다르고, 투자 규모도 다르다.
“비IT 기업은 D&A의 가치 제안을 최우선으로 고려해 조직에 투자하고, 비즈니스 성과 중심의 D&A 투자 전략을 구축해야 합니다. 단기적으로는 분석 요구사항의 우선순위를 정하고, 분석을 비즈니스 성과와 연결하며, 가치 관리 체계를 수립해야 합니다.
중기적으로는 셀프서비스 분석을 통해 일정 수준의 D&A 통합을 촉진하는 것이 중요합니다. 이를 위해서는 새로운 협업 방식을 통해 책임을 재정립하고, 혁신적인 거버넌스 접근법과 프로세스를 구현하고, MVP 프로그램을 육성해야 합니다.
장기적으로는 전 부서에 걸쳐 데이터 리터러시 문화를 조성해 직원들이 일상 업무에서 분석을 해석, 활용할 수 있도록 합니다. 이를 위해 분석 커뮤니티를 활성화하고, D&A 자산의 구성 가능성과 재사용성을 확보하며, 데이터 제품 관리와 수익화 전략을 추진해야 합니다.”
데이터팀이 조직 내부에 데이터 접근성을 높일수록 조직 내 수요가 더욱 기하급수적으로 증가할 수 있다. 담당 조직의역할 확대는 업무 부담과 성과 부담의 증가다. 이런 상황에 대비하기 위해 기업은 어떻게 준비해야 할까?
“내부 데이터 접근성이 향상되면서 조직 내 수요가 폭증하는 상황에 대비해, 기업은 증가하는 데이터의 양•속도•동시성을 효율적으로 처리할 수 있는 확장 가능한 데이터 인프라에 적극 투자해야 합니다. 변화하는 워크로드에 유연하게 대응할 수 있도록 클라우드 기반 데이터 플랫폼과 탄력적인 스토리지 솔루션을 도입할 수 있습니다.
접근성이 확대됨에 따라 데이터 품질, 보안, 규정 준수를 유지하기 위해 강력한 데이터 거버넌스 정책을 시행해야 합니다. 명확한 데이터 액세스 프로토콜과 역할 기반 권한은 민감한 정보를 보호하는 동시에 사용자가 데이터를 책임감 있게 활용하도록 지원합니다.
또한, 지속적인 교육과 지원을 통해 데이터 리터러시 문화를 조성하는 것이 중요합니다. 직원들의 데이터 도구 활용 능력은 업무 병목 현상 완화와 전문 인력 의존도 감소로 이어집니다.
마지막으로, 기업은 데이터 사용 패턴을 지속적으로 모니터링하고 피드백을 수집해 향후 수요를 예측하며, 변화에 맞춰 자원과 프로세스를 민첩하게 조정해야 합니다.”
소규모언어모델(SLM)과 복합 AI
특정 영역에서 보다 정확하고 맥락에 맞는 AI 결과물을 얻는 데는 대규모언어모델보다 소규모언어모델을 고려하는 것이 권장된다. RAG 방식의 데이터 제공이나 맞춤형 도메인 모델의 미세 조정을 통해 성능을 최적화하는 것이 바람직하며, 특히 온프레미스 환경에서 민감한 데이터를 다루고 컴퓨팅 리소스 및 비용을 절감하는 데는 SLM을 사용하는 것이 효과적이다.
여러 AI 기술을 결합해 활용하면 AI의 영향력과 신뢰성을 강화할 수 있다. 데이터 및 분석 팀은 생성형 AI나 LLM뿐만 아니라 데이터 과학, 머신러닝, 지식 그래프, 최적화 등 다양한 AI 기술을 통합해 포괄적인 AI 솔루션을 구축해야 한다.
그런데, SLM의 종류가 무수히 많다. 조직이 여러 모델 중에 최적의 모델을 인지하고 선별할 때 적절한 선택을 하기 위한 방법을 찾아야 한다.
“가장 적합한 모델을 선택하려면 먼저 공통 벤치마크를 활용해 모델의 기본 역량을 평가해야 합니다. 그 다음 성능과 가격, 처리 속도, IP 보호, 배포 방식 등 비기능적 요소 간의 상충 관계를 고려합니다.
SLM의 종류는 매우 다양하기 때문에, 조직의 비즈니스 요구사항을 반영한 자체 테스트 케이스를 통해 비기능적 요소를 측정하는 것이 효과적입니다. 이어서, 구체적인 측정 지표를 선정하고, 사람이 직접 검토할지 또는 기계가 평가할지를 결정한 뒤, 비즈니스 지표를 기반으로 평가 결과를 측정해 SLM 평가를 완료합니다.”

의사 결정 인텔리전스 플랫폼(Decision Intelligence Platforms)
데이터 중심에서 의사 결정 중심으로 전략을 전환하는 것을 권장한다. 단계적으로 모델링을 위한 긴급한 비즈니스 의사 결정을 모델링하고, 의사 결정 인텔리전스 체계를 정립하며, 이에 해당하는 플랫폼을 평가해야 한다. 데이터 과학 기술을 재점검하고, 의사 결정 자동화의 윤리, 법률, 규정 준수 측면을 해결하는 것은 성공의 필수 요소다. 의사결정 인텔리전스 플랫폼을 어떻게 구축해야 할까?
“데이터 중심에서 의사결정 중심 전략으로 전환하려면, 데이터 축적과 분석을 넘어 조직 의사결정의 품질, 맥락, 영향을 우선시하는 접근이 필요합니다.
의사결정 인텔리전스 플랫폼은 데이터, 분석, 비즈니스 로직을 의사결정 워크플로우에 직접 통합하도록 설계되어야 하며, 이를 통해 사용자는 시나리오를 시뮬레이션하고, 상충 관계를 평가하며, 선택에 따른 잠재적 결과를 이해할 수 있습니다. 예를 들어, 사용자의 체계적인 의사결정 과정을 지원하기 위해 직관적인 인터페이스에 고급 분석, 머신러닝 모델, 인과 추론 도구를 통합할 수 있습니다.
또한 이 플랫폼은 이해관계자 간 협업을 촉진하고, 조직 내 지식을 수집하며, 권장 사항을 투명하게 설명함으로써, 의사결정이 데이터에 기반하는 동시에 조직의 목표와 실제 세계의 복잡성에도 부합하도록 합니다.”
글. 바이라인네트워크
<김우용 기자>yong2@byline.network