SK브로드밴드의 생성AI 기반 고객상담 챗봇 개발, 의미있는 실패기
생성 AI가 등장한 이후 기업들이 가장 먼저 떠올린 ‘쓸모’는 고객상담용 챗봇이다. 골치 아픈 고객 문의에 대한 응대를 AI에 맡길 수 있다면 시간과 비용을 대폭 줄일 수 있기 때문이다. 고객의 짜증과 불평 불만을 AI가 듣고 알아서 해결할 수 있다면 얼마나 좋을까.
11일 서울 삼성동 코엑스에서 진행된 AWS 인더스트리 위크에서 ‘SK브로드밴드(이하 SKB)의 비즈니스 데이터 활용을 통한 차세대 생성형 AI 챗봇 구축 전략’이라는 이라는 세션에 눈길이 간 이유다. 생성 AI를 활용한 고객상담 챗봇을 개발해본 경험을 공유하는 자리였다.
SKB는 아마존 세이지메이커 점프스타트(Amazon SageMaker JumpStart)를 활용해 상담사 보조 AI 챗봇을 개발했다. 상담사가 AI 챗봇을 통해 필요한 정보를 얻어서 고객에게 말할 수 있도록 하는 것이 목표였다. AI 챗봇은 상담사를 위한 비서 같은 존재인 셈이다.
이를 위해 SKB는 sLLM(Smaller Large Language Model, 소규모 거대언어모델)과 도메인 특화 데이터를 적용했다.
sLLM은 매개변수의 수가 수십억~수백억 개에 달하는 비교적 작은 크기의 언어모델을 말한다. 챗GPT와 같은 LLM(Large Language Model)은 파라미터가 1750개에 달하는 대규모 모델이다. 이런 규모의 LLM을 당장 고객상담 챗봇에 적용하기에는 부담스럽다. 너무 많은 비용이 들고, 미세조정(Fine Tuning)에도 시간이 많이 들기 때문이다.
SKB의 전태일 AI/DT 팀장은 “1750억 개나 되는 파라미터를 저희가 파인튜닝(미세조정)을 하려면 서너 개월까지 걸릴 수 있다”면서 sLLM을 선택한 배경을 설명했다.
SKB가 선택한 sLLM 모델은 구름(KULLM)이라는 한국어 모델이다. 구름은 고려대에서 개발한 한국어 특화 모델로, 약 128억 개의 매개변수를 가지고 있다. SKB는 코알파카(KoAlpaca), 코비쿠나(KoVicuna) 등의 오픈소스 기반 한국어 언어모델을 등도 검토했지만, 최종적으로 구름을 선택했다.
전 팀장은 “우리는 한국어로 응답이 가능해야 하니까 (LLM 대신) 한국어로 사전학습된 sLLM을 활용하고자 했다”면서 “구름이 다른 한국어 sLLM보다 GPT4 평가 점수가 더 높았다”고 말했다. GPT4 평가란, 각 질문에 어떤 답이 더 적절한지 GPT4에게 물어보는 평가 방식이다.
질문에 답을 도출하는 방식은 PEFT(파인튜닝, Parameter Efficient Fine Tuning)과 RAG(검색 증강 생성, Retrieval Augmented Generation) 두 가지를 고려했다. PEFT는 sLLM에 SKB가 보유한 도메인 전문 데이터인 ‘상담 지식 관리시스템(MKIS)’의 자체 데이터를 추가해 파인튜닝하는 방식이다. 일반적인 생성 AI가 답을 도출하는 것과 같다.
RAG는 기본적으로 검색을 한 후에 그럴듯한 문장으로 만들어주는 방식이다. AI 챗봇이 직접 답을 생성하는 게 아니라 MKIS에서 필요한 답을 찾은 후, 그 답을 이용자와의 대화 맥락에 맞게 변형해 도출하는 방안이다.
SKB는 두 방안을 각각 실험한 결과, PEFT와 RAG를 결합하는 것이 가장 좋은 답을 도출한다는 결론을 얻었다. PEFT의 경우 잦은 데이터 업데이트에 대응하기 어렵고, 상담사에게 원문 파일을 제공할 수 없다는 문제가 있다. 할루시네이션(오답 도출) 우려가 있기 때문에 상담사가 AI 챗봇의 답만 믿고 고객에게 설명할 수는 없다.
RAG는 기본적으로 검색이기 때문에 최신 정보도 보여줄 수 있고, 검색된 정보의 원문을 상담사에게 제공할 수 있다. 다만 RAG만으로 운영하는 것은 기존의 검색과 큰 차이가 없다고 볼 수 있다.
자, 그럼 이렇게 개발한 SKB의 AI 챗봇을 상담원이 사용하고 있을까? 안타깝게도 그건 아니다. 개발팀은 이 AI 챗봇이 아직 실무에서 사용할 수 있는 수준은 아니라고 판단했다. 정확성과 상세함이라는 기준으로 평가했을 때 50점을 넘지 못했기 때문이다. 도메인 특화 데이터인 MKIS로 파인튜닝했지만 챗GPT와 답변의 정확도에서 큰 차이가 없었다.
SKB 클라우드팀 권여울 팀장은 “아직 생성 AI는 멍청이”라면서 “실제 서비스에 적용할 수준이 될 때까지는 조금 더 준비가 필요하다”고 말했다. 전태일 팀장도 “도메인 특화 sLLM 모델이 답변의 정확도나 품질 면에서 아직 현장 적용한 수준에 도달하지 못했다”고 평가했다.
다만 생성 AI를 활용한 AI 챗봇에 대한 도전을 멈추지는 않을 계획이다.
권 팀장은 “이번 프로젝트에서 좋은 성적표를 받지는 못했지만, 앞으로도 이와 같은 PoC(개념 검증)을 계속 진행해 볼 것”이라고 말했다. 전 팀장은 “sLLM 대신 중규모 LLM인 LLama2 등 다른 모델을 적용해보고, 프롬프트 엔지니어링 및 매개변수 미세조정도 보완해볼 것”이라며 “기술과 경험의 축적을 위해 다른 PoC도 하겠다”고 덧붙였다.
글. 바이라인네트워크
<심재석 기자>shimsky@byline.network
[컨퍼런스 안내]
◈ 2025 이커머스 비즈니스 인사이트 : 생존을 넘어 성장으로
일시 : 2025년 2월 18일 오후 12:30~17:30
장소 : 서울 강남구 테헤란로7길 22 ST Center (과학기술컨벤션센터) 지하 1층 대회의실 1