회사의 AI 역량은 결국 데이터 역량이다
“회사의 AI 역량은 결국 데이터 역량이다.”
양수열 크라우드웍스 CTO(표지 사진)는 5일 <바이라인네트워크>에서 개최한 ‘AI-Ready DATA 전략’ 웨비나에서 ‘AI 레디 데이터를 위한 데이터 통합과 거버넌스 체계’를 주제로 발표하면서 이같이 강조했다.
많은 기업과 조직이 생성형 AI를 도입해 새로운 비즈니스 가치를 창출하려 시도하지만, 목표 달성을 위한 과정은 쉽지 않다. 우수한 기반 AI 모델을 채택하고, 사내 보유 데이터를 연동시키는 검색증강생성(RAG) 시스템을 구축하는 방안이 일반화됐지만, 실제 성과를 내려면 넘어야 할 산이 많다.
양수열 크라우드웍스 CTO는 “모델이나 RAG 프로세스로 회사가 AI를 도입해 비즈니스 가치를 높이는 데 한계가 존재한다”며 “일반 기업이나 조직이 AI 도입에서 주안점을 둬야 하는 부분은 사내 데이터를 어떻게 AI 레디 데이터 형태로 잘 관리하고, 유지하는가에 있다”고 말했다.
그는 “AI를 도입해 회사의 경쟁력을 높이려 할 때 모델은 사실상 제어 불가능한 영역이고, 경쟁 기업도 시중의 좋은 모델을 비슷하게 쓸 것”이라며 “사내에서 추출되는 데이터를 잘 관리할 수 있는 거버넌스 체계를 갖추는 게 경쟁력”이라고 강조했다.
대부분의 회사는 다양한 유형의 데이터를 내부에 저장해왔다. 비즈니스 애플리케이션의 정보를 담은 정형 데이터는 데이터베이스에 있고, 문서나 이미지 혹은 동영상 같은 비정형 데이터는 KMS나 게시판 등에 있다. 이런 데이터를 대형언어모델(LLM)에서 활용하려면, 검색엔진과 벡터DB에 정형 및 비정형 데이터를 표준화된 데이터셋으로 변환해 적재하고 LLM에 붙이는 RAG 시스템이 필요하다. 데이터베이스의 정형 데이터를 벡터화하는 변환 작업과, 각종 유형의 비정형 데이터를 표준화해 변환하는 작업이 요구된다. 특히 문서 데이터의 경우 단순 텍스트뿐 아니라 표나 그래프 같이 시각화돼 바이너리로 저장된 파일에서 데이터를 정확하게 추출해야 한다. 바이너리 파일에서 데이터를 뽑아내는 작업에도 소형언어모델(SLM)이나 LLM이 사용될 수 있다.
각종 유형의 비정형 데이터를 AI 모델에서 활용할 수 있는 형태로 변환하는 작업이 까다롭다. 이는 국내 기업에서 활용하는 문서의 특성 때문인데, 대부분 기업 문서는 도입 요약을 선호하고, 긴 텍스트보다 표나 그래프 혹은 다이어그램을 선호한다. 계약서, 공문서, 청구서 등 양식도 다양하고, 문서 내부적으로 전통으로 굳어진 복잡한 구조를 갖는다. 이를 AI 레디 데이터로 변환하기 위한 공수가 많이 필요하다.
AI 레디 데이터를 준비한 뒤 사용자와 LLM 사이에서 검색엔진이나 벡터 DB에서 질문의 관련 자료를 찾아 LLM에 던지고, LLM의 1차 답변을 받아 사용자에게 맥락에 맞는 답변을 제공하는 RAG 애플리케이션이 있게 된다.

이같은 일련의 작업이 이뤄지려면 데이터 수집, 모델 개발, 데이터 학습, 평가 및 검증, 서비스 배포, 모니터링 및 개선 등으로 구성되는 프로세스가 만들어져야 한다. 무엇보다 이 프로세스가 한번으로 끝나지 않고, 지속적으로 반복되면서 검증되고 개선되는 게 중요하다.
양수열 CTO는 “사내에서 AI 시스템을 구축하겠다는 의사결정을 하고 데이터와 시스템을구축하는 일회성 이벤트가 아니라 계속 반복돼야 하는 과정”이라며 “RAG로 구축된 데이터와 모델의 성능을 평가해 배포한 뒤에도 답변의 기대치 충족을 살피는 에이전트 성능 평가가 필요하며, 정확도나 편향 방지, 규제준수 같은 안정성 평가가 모니터링 운영 개선 단계에서 지속적으로 이뤄져야 한다”고 말했다.
RAG 시스템 중심의 AI 환경을 도입할 때 기업의 경쟁력이 바로 향상되지 않는다. 어떻게 보면 기술적인 구성요소의 경쟁자 대비 차별성은 없다고 보는 게 합당하다.
양 CTO는 “통상 기업이 사내에서 활용하게 되는 AI 모델은 오픈모델이고, 최근의 오픈 모델은 파인튜닝으로 성능을 끌어올리기 힘든 상황”이라며 “기존 비즈니스 애플리케이션의 프로세스를 AI 시스템과 연동하는 부분도 크게 차별화하기 힘든 부분”이라고 설명했다.
그는 “결국 회사가 AI의 시스템에서 차별점으로 둘 부분은 사내 데이터를 어떻게 AI 레디 데이터 형태로 잘 관리하고 유지하는가에 있다”며 “시중의 모델과 RAG 방법론의 진화를 감안해 시스템적 변화를 기본으로 삼고 그때그때 새로운 모델이나 방법을 잘 가져다 쓰는 체계가 중요하다”고 강조했다.

데이터의 관리에서 품질 평가, 데이터셋 적정성 등의 평가 분석이 중요해진다. 데이터셋의 품질을 평가하고 지속적으로 고품질의 데이터를 RAG로 배포하는 지속적 관리 체계다. 양 CTO는 “데이터셋의 결함이나 문제점을 지속적으로 휴먼인더루프로 개선해야 한다”며 “데이터 개선이 회사 내부에서 평가되고, 평과 결과가 RAG나 에이전트에 반영되는 지속적 루프를 자동화하는 것도 중요하다”고 밝혔다.
그는 평가에서 질문과 답변에 대한 설정도 중요하다고 했다. 사용자의 질문과 AI의 답변을 일종의 도메인 특화 데이터로 보고, 특정한 질의와 답변을 데이터셋으로 자산화해야 한다는 것이다.

질문과 답변 속에서 결과에 대한 정량적 평가 범위와 지표를 마련하는 한편, 정성적 평가 기준을 수립하는 것도 요구된다. 정량적 정성적 평가에 대한 가이드를 만들어 AI 시스템 개선에 활용해야 한다. 그는 “가급적 데이터에 대한 바운더리와 AI에 대한 바운더리 분리해서 각 체계로 관리하는게 필요하다”며 “데이터 관리를 위해 정성적, 정량적 부분에 대해 가이던스를 자체적으로 만들고 그를 통해 데이터를 관리하는 체계가 필요하다”고 강조했다.
글. 바이라인네트워크
<김우용 기자>yong2@byline.network




너네 주가 역량이나 관리 좀 해라
지속적인 주가 관리나 좀 하지?