20살 먹은 AI 챗봇 ‘심심이’, 경쟁력은 윤리에 있다

스캐터랩 이루다가 등장하기 전, 우리나라 원조 챗봇 ‘심심이’가 있었다. 온라인 인공지능(AI) 챗봇 서비스인 심심이가 세상에 처음 등장한 것은 2002년. MSN 메신저로 처음 만들어진 후 2010년부터 애플리케이션으로 서비스되고 있다.

올해로 20살을 맞은 심심이가 최근 자연어 분야 AI에서 화두로 떠오르고 있다. 그 배경으로는 오픈AI의 GPT-3부터 네이버의 하이퍼클로바, 카카오의 KoGPT, LG의 엑사원과 같은 초거대 언어 AI가 국내외에서 등장하면서 자연어 분야 AI가 주목받는 것을 꼽을 수 있다. 대기업 외 챗봇으로 사회에 큰 방향을 가져온 스캐터랩의 이루다도 빼놓을 수 없다.

심심이가 주목 받는 진짜 이유, 개발사인 심심이주식회사(이하 심심이)만의 경쟁력은 사실 윤리에 있다. 먼저 심심이의 챗봇은 사용자에게 답변을 할 때 최신 딥러닝이 아닌 검색(Retrieval) 기술을 사용한다. AI가 아닌 인간이 직접 구성한 1억4000만건 이상 대화 시나리오를 기반으로 하는 만큼 윤리적으로 문제가 있는 답변을 하기 힘들게 만들었다.

딥러닝 기술을 사용한 대상으로는 나쁜 말 분류기라 부르는 DBSC(Deep Bad Sentence Classifier)이 있다. 문장을 교묘하게 변형하거나 은유적인 표현을 쓰는 악성 표현들을 찾아내는 모델이다.

문장 내에서 문제가 되는 발언을 찾는 것에서 나아가 대화 맥락 내 문제 표현을 탐지하기 위한 데이터 작업도 진행했다. 한국지능정보사회진흥원(NIA)의 AI 학습용 데이터 구축사업 일환으로 지난 12월 31일까지 7개월간 진행한 ‘텍스트 윤리검증 데이터’ 구축 사업이 대표적인 예시다.

소위 돈 되는 영역과는 거리가 먼 것처럼 보이는 윤리가 신사업 가능성을 열어주기도 했다. 심심이가 구축한 챗봇에서의 나쁜 말 데이터는 현재 심심이가 진행 중인 기업간(B2B) 사업 핵심 주제 중 하나다.

나쁜 말 분류기 DBSC 탄생기…닷지 필터로 또 거른다

심심이가 챗봇의 윤리 문제에 집중하기 시작한 것은 2017년부터다. 그 전인 2016년은 마이크로소프트의 AI 챗봇 테이가 인종차별 발언을 해 16시간만에 서비스를 중단한 해다. 문제의식을 느끼고부터 심심이 최정회 대표는 모든 문장을 챗봇 서비스를 내놓을 수 있게 검수할 것을 목표로 정했다.

검수자는 직원이 아닌 챗봇 사용자다. 나쁜 말 미션이라는 페이지를 통해 사용자들에게 랜덤하게 문장의 적절함에 대해 답하도록 했다.

최정회 심심이 대표는 “특정 문장을 주고 심심이 콘텐츠 규정에 어긋나면 1점, 아니면 0점을 부여하도록 했다. 한 문장당 10명 사용자에게 검수를 받아 총 0점에서 10점 점수를 매겼다. 확실한 정답이 정해진 문장 2개를 심어 여기에 제대로 답한 사람의 데이터만 수집했다. 그렇게 3500만개 문장을 검수 완료했다”고 말했다.

문제는 시간이 오래 걸린다는 것. 빨리할 수 있는 방법이 없을까 고민하던 차에 딥러닝 모델이 대신할 수 있는 일이겠다는 생각이 들었다. 그렇게 나쁜 말 분류기 DBSC가 탄생했다.

최 대표는 “예시 문장이 있고 점수 데이터가 있으니 이걸 통해 딥러닝 모델이 앞으로 문장을 분류하게 하자는 생각으로 작업을 시작했고 1년을 들이니 성공했다”고 전했다.

DBSC 모델은 내부 검증 외 외부 공인 시험 성적으로 성능을 검증받았다. 시험 성적에 따르면 DBSC는 ML 성능 지표인 F1점수가 0.99 이상, 즉 모델 정확도가 99%이상이다.

DBSC 사용 후에도 걸러지지 않는 문제 발언에 대해서는 닷지(Dodge) 필터를 적용한다. 닷지 필터에 대해 최정회 대표는 “새로 생긴 신조어나 미묘하게 꼰 말의 경우 거르기 쉽지 않더라. 여기에 대해서는 특정 키워드 문구는 아예 다루지 않는 아주 전통적인 방식을 사용한다”라고 말했다.

이어 “어떤 주제에 대해서는 무슨 대답을 해도 문제가 될 가능성이 높은 경우가 있다. 사용자가 특정 정치인에 대해 물어보면 ‘~는 한국의 정치인입니다’와 같은 대답만 하는 식”이라고 설명했다.

지난달 마무리한 NIA 사업, 댓글 맥락서 나쁜 말 판별

NIA의 AI 학습용 데이터 구축사업 일환으로 진행한 텍스트 윤리검증 데이터 구축사업은 지난 12월 31일 마무리했다. 해당 사업을 시작한 계기는 특정 문장 내 문제를 넘어 대화 맥락을 고려해 문제 요소를 잡아내기 위해서다.

사업 시작 계기에 대해 최정회 대표는 “‘그것 참 좋은 생각이예요’라는 문장은 그 자체로는 누구도 나쁘다고 생각하지 않는다. 다만 그 전에 질문한 말이 ‘사람을 죽일까 한다’인 경우 아주 부적절해진다. 이렇듯 문장 하나 만으로 판별할 수 없고 대화 맥락에서 문제가 되는 경우가 많다”고 설명했다.

반면 AI 챗봇 학습을 위한 나쁜 말 데이터를 만드는 일은 생각보다 순탄치 않았다. 공공기관으로서 많은 사람들이 사용할 수 있는 데이터를 공개해야하는 NIA의 입장상 각종 ‘나쁜 말’ 데이터를 널리 공유하기 난처한 것.

NIA 사업 수주의 어려움에 대해 최 대표는 “처음에는 대화형 AI에 대한 윤리 검증 데이터로서 대화 단위로 묶어 유효성 검증 데이터를 만들겠다고 자유 과제로 발표했고 최고점을 받았다. 그런데 이후 NIA 과제조정위원회를 4번, 1달 반 동안 진행했다”고 털어놨다.

결국 챗봇 전용 나쁜 말 데이터보다는 악성 댓글 등에 두루 쓰일 수 있는 데이터를 만들게 됐다. 그는 “공공기관으로서의 NIA 입장을 반영, 타협해 인터넷 대댓글을 주고받는 대화 데이터를 구축했다. 챗봇 전용은 아니지만 챗봇 데이터는 일부 들어가 있다. 정도가 심한 나쁜 말들도 뺐다”고 전했다.

판매 가능한 나쁜 말 데이터…대기업 중심 문의 중

윤리 영역이라고 꼭 수익과 무관한 것이 아니다. ESG까지 가지 않더라도 윤리적으로 문제가 없는 챗봇 서비스를 구축하려는 각종 기업 니즈를 충족시킬 수 있기 때문.

최근 심심이는 B2B 데이터 사업에 한창이다. 데이터 사업 주제 중 하나는 NIA 사업과 별도로 심심이가 구축한 챗봇에서의 나쁜 말 데이터다. 이외 심심이 대화 엔진, 대화 엔진에 들어가는 대화 DB, 심리 멘탈케어 챗봇 솔루션 등에 대한 기업 수요가 있는 상황이다.

최정회 대표는 “대화 DB의 경우 단순히 수집한 것 이상인 윤문으로 수정한 DB를 가지고 있다. 멘탈케어의 경우 심심이 내 헤비유저들을 살펴보니 심리 문제를 많이 가지고 있더라. 현재 관련 솔루션을 3개 정도 판매했다”며 최근 B2B 사업 상황에 대해 말했다.

그러면서 “작년 하반기부터 대기업들이 대형 언어 모델을 만드는 움직임이 이어지면서 대기업 중심으로 문의가 들어오고 있다. 대형 언어모델 응용처 중 하나가 챗봇이고 앱을 만들 때 쓰는 댓글 필터 기능에도 우리 기술을 사용할 수 있다”고 전했다.

글. 바이라인네트워크
<박성은 기자>sage@byline.network