[if카카오2024] 카카오엔터프라이즈의 RAG, ‘청크’가 핵심
생성형 인공지능(AI)의 급부상 이후 편리함에 놀라던 시기를 지나 이제는 부작용을 막는 노력이 활발한 시점이다. 거대언어모델(LLM)의 한계로 지적되는 할루시네이션을 극복하고 정확한 답을 내놓기 위한 기술 경쟁이 활발한 상황. 그래서 발전한 게 ‘검색 증강 생성(RAG)’ 기술이다.
해외 빅테크도 주목하는 기술인 RAG는 생성AI 서비스의 신뢰도를 높일 열쇠로 각광 받고 있다. 카카오도 현재 RAG 기술 고도화에 심혈을 기울이고 있다. 생성 AI 솔루션의 성능을 고도화해 사용자의 선택을 받으려는 개발 노력이 활발하다.
카카오엔터프라이즈는 22일 경기도 용인시 카카오AI캠퍼스에서 열린 if(kakaoAI)2024(이프카카오 AI 2024)’ 발표를 통해 자사의 RAG 기술을 소개했다.
RAG는 무엇일까. LLM이 사용자의 질의를 이해해 답변을 생성하는 엔진이라면, RAG는 LLM에 정확한 지식을 불어넣는 도구라고 보면 쉽다.
RAG는 데이터를 숫자화한 벡터 데이터로 변환하는 게 기본이다. 자연어가 아닌 숫자 기반이라 연관성에 따라 정렬하는 인덱싱 과정이 쉽다. 이렇게 정리한 정보가 들어있는 데이터베이스를 연결함으로써 LLM이 기본 성능을 넘어 더 정확한 답변을 내도록 지원한다.
[관련 기사: [그게 뭔가요] 생성AI 환각 줄이는 ‘RAG’]
김도윤 카카오엔터프라이즈 검색CIC RAG모델링 태스크포스(TF)장은 “LLM이 처리할 수 있는 문서의 길이에는 한계가 있어 긴 문서의 경우 할루시네이션이 증가할 수 있고, 반대로 너무 짧은 문서는 텍스트의 맥락이 왜곡되고 누락될 수 있다”고 짚었다.
그래서 카카오엔터프라이즈가 내놓은 해답은 무엇일까. 김도윤 TF장은 질의 내용에 담긴 단어나 문장을 같은 의미로 묶는 ‘청크(Chunk)’가 핵심이라고 강조했다.
청크는 우리말로 덩어리라는 뜻이다. 생성AI에서는 사용자가 넣은 질의에 담긴 데이터에서 맥락과 의미가 같은 부분끼리 집합시킨 묶음을 의미한다. RAG로 인덱싱한 데이터를 청크로 묶고 사용자의 답변을 더 명확히 인식시킴으로써 적확한 답을 내놓을 수 있다.
김도윤 TF장은 법체처의 ‘찾기 쉬운 생활 법령’ 사이트와 식품의약품안전처의 ‘의약품개요정보(e약은요)’ 서비스를 기반으로 자사의 AI 서치 베타 서비스를 시연했다.
김 TF장에 따르면 청크를 구성하는 기술력에 따라 정확도가 달라진다. 긴 문서를 한 번에 청킹(Chunking)하는 것이 아니라 문장 단위로 분할함으로써 맥락을 더 정확히 파악하는 한편, 단일 주제를 중심으로 강하게 초점을 맞춘 결과값을 내놓는 게 성공적인 청크 구성의 핵심이다.
단순히 단어 기반으로 정보를 인식하는 게 아니라 지시대명사와 같은 단어라도 실제 사용자의 답변 의도와 연계해 정확한 답을 낼 수 있다는 설명이다. 김도윤 TF장은 “고품질 청크 기반의 검색은 하나의 주제를 중심으로 관련성이 높은 검색 결과를 제공하며 검색 품질을 향상시킬 수 있다”고 말했다.
RAG는 카카오의 다른 서비스에도 활용되고 있다. 음성 AI 기술인 ‘카카오 아이(i)’를 기반으로 한 ‘ 헤이 카카오’ ‘ 카카오 홈’ ‘카카오 i 오토’ 등 음성 인식을 통한 사물인터넷(IoT) 서비스 전반에 RAG가 활용된다. 카카오의 IT 솔루션 개발 자회사 디케이테크인은 해당 서비스에 RAG를 적용해 보다 정확도 높은 서비스를 제공할 방이다.
한편 카카오엔터프라이즈는 이날 행사 부스를 통해 자사의 카카오클라우드 기술 기반 솔루션들을 소개했다. 업무용 AI 챗봇인 ‘코워커(Koworker, 가칭)‘와 AI 컨택센터 서비스를 선보인 부스가 행사 참석자들의 호응을 받았다.
코워커는 LLM을 활용해 업무 스케줄과 메일 검색, 업무 데이터 활용을 돕는 AI 챗봇이다. 현재 내부 직원을 위한 베타로 운영하는 가운데 향후 기업대기업 상품으로도 출시를 검토하고 있다. AI 컨택센터는 이미 다이소가 업무에 활용할 정도로 성능을 인정받은 상품이다.
카카오엔터프라이즈는 이 밖에도 세션 발표를 통해 비전 AI, 머신러닝 운영(MLOps) 플랫폼을 소개했다. 행사 이틑날인 23일에는 클라우드를 위한 그래픽처리장치(GPU)와 네트워크인터페이스카드(NIC)간 제로카피 노하우를 공유할 예정이다.
카카오엔터프라이즈 관계자는 “카카오클라우드를 필두로 AI 원천 기술의 근간을 다지고 있다”면서 “앞으로도 카카오엔터프라이즈는 다양한 기술과 방법론을 공유하고 국내 IT 기술 발전에 기여할 것”이라고 말했다.
글. 바이라인네트워크
<이진호 기자>jhlee26@byline.network