결국 대화 모델 폐기... 이루다 '아기'로 돌아간다

카카오톡 대화를 학습 소재로 삼아 개인정보 침해 논란이 불거졌던 인공지능(AI) 챗봇 ‘이루다’가 다시 아기 상태로 돌아간다. 개발사인 스캐터랩 측은 15일 이루다의 학습에 사용한 데이터베이스와 딥러닝 대화 모델을 폐기하기로 결정했다고 밝혔다. 이루다는 향후 새로운 데이터베이스를 추가로 확보해 대화 모델을 다시 만든 이후에 재출시될 예정이다.

스캐터랩은 현재 개인정보 수집과 활용과 관련해 위법한 부분은 없는지와 관련해 한국인터넷진흥원(KISA)와 개인정보보호위원회의 조사를 받고 있는 중이다. 스캐터랩 측은 관련 조사가 종료되는 즉시 이루다의 데이터베이스와 딥러닝 대화 모델 폐기를 진행한다는 방침이다.

이루다에 대한 문제제기는 학습에 쓰인 데이터베이스가 적법하게 수집되고 처리되었느냐에 대한 부분에서 이뤄졌다. 스캐터랩은 연애 상담 앱인 ‘연애의 과학’을 운영하고 있는데, 이는 연인간 카카오톡 대화를 분석해 연애 상담을 해주는 서비스였다.

스캐터랩은 이 앱의 개인정보취급 방침에서 카카오톡 대화를 “신규 서비스 개발에 활용할 수 있다”고 고지하였으나 ,여기에서의 ‘신규 서비스’가 AI 챗봇이라고 구체적 명시가 되어 있지 않았다는 점, 개인정보취급방침을 이용자들이 제대로 안 봤을 가능성 등을 두고 비판받아왔다.

또, 관련 대화들을 이루다 학습에 쓰면서 개발사가 개인 정보를 모두 삭제하는 과정을 거쳤다고 밝혔지만 일부 대화에서 사람의 이름 등이 발견되는 등 비식별화 처리가 제대로 되지 않은 것 아니냐는 의견도 제시됐다.

이 외에 성소수자, 장애인 등에 대한 혐오 표현 문제가 있었지만, 대화 모델 폐기 결정에는 개인정보보호와 관련한 비판이 더 큰 영향을 끼쳤다.

스캐터랩 측은 관련해 ” 이루다 DB는 비식별화 절차를 거쳐 개별적이고 독립적인 문장 단위로 이루어져 개인 식별이 가능한 데이터는 포함 돼 있지 않으며 딥러닝 대화 모델은 비식별화 절차를 거친 데이터를 토대로 대화 패턴만을 학습하고, 인공지능은 데이터를 벡터값으로 기억하기 때문에 개인정보가 유출될 위험이 전혀 없다”면서도 ” 그러나 이용자들의 불안감을 고려하여 이번 인공지능 ‘이루다’의 DB 전량 및 딥러닝 대화 모델을 폐기하기로 했다”고 입장을 밝혔다.

스캐터랩은 이루다와 관련한 조사를 받은 후, 기존 연애의 과학과 텍스트앳에서 이용자의 동의를 받고 수집되었던 기존 데이터는 데이터 활용을 원하지 않는 이용자로부터 신청을 받은 후 해당 이용자의 데이터를 모두 삭제할 예정이라고 설명했다. 이는 향후 딥러닝 대화 모델에도 이용되지 않는다.

단, 삭제 신청을 하지 않는 이들의 데이터는 남아 이루다의 학습에 쓰일 수 있다. 개발사 측은 인공지능 챗봇 개발에 필요한 추가 데이터의 확보방안을 고심 중인 상황이다. 향후 신규 가입 및 서비스 이용시에는 개인정보 수집, 이용 동의 절차를 강화할 계획이라고 강조했다.

글. 바이라인네트워크
<남혜현 기자> smilla@byline.network