최근 IT 뉴스를 가장 뜨겁게 달군 인공지능(AI) 챗봇 서비스 ‘이루다’와 관련한 논쟁을 보면서, 저는 “세상에 공짜는 없다”는 생각을 했습니다. 왜 이런 이야기를 하는지를 말하기 전에, 우선 이루다와 관련해 어떤 비판이 제기되었는지부터 알아봐야겠죠.

먼저, 혐오표현입니다. 동성애, 장애, 인종 등을 비하하는 말을 해 충격을 줬죠. 스무살 여성 캐릭터로 만들어졌다는 것에 대한 비판의 목소리도 있습니다. 일부 커뮤니티 등에서 이루다를 성적학대하는 사례가 공유됐습니다. 성적인 대화가 이뤄지도록 이용자들이 이루다의 대화 패턴을 학습시킨 경우입니다.

이루다를 만든 곳은 AI 스타트업인 ‘스캐터랩’인데 챗봇 서비스를 만들면서 회사의 다른 서비스 ‘연애의 과학’에서 수집한 카카오톡 대화를 데이터로 쓴 것에 대해서도 논란이 있죠. 결국 스캐터랩은 지난 12일, 출시 3주만에 서비스를 잠정 중단했습니다.

이 논쟁을 보면서 최근 흥미롭게 본 영화 ‘소셜딜레마’가 떠올랐습니다.

“세상에 공짜는 없다.”


이 영화의 메시지입니다. 우리는 구글검색이나 페이스북을 무료로 쓰죠. 비용을 지불하지 않습니다. 대신, 이들은 돈보다 더 큰 걸 수확해 가고 그 결과 세계 최대 시가총액의 회사가 됐습니다. 바로 사람들의 관심과 시간이죠. 사람들이 붐비는 거리에는 커다란 광고판이 붙기 마련입니다.

소셜딜레마는, 페이스북이 제공하는 ‘맞춤형 추천 콘텐츠’가 사람을 어떻게 더욱 편향되게 만드는가에 대한 비판을 합니다.

페이스북에 들어가면 정말 신기하게도 저와 비슷한 시각으로 세상을 보는 이들의 글만 올라옵니다. 그게 거짓이어도 상관 없죠. 제 취향을 아는 페이스북은 제가 잘 클릭할 것 같은 콘텐츠 위주로 제 피드를 짜줍니다. 제가 좋아할만한 정보만 잘 소화시킨 저는, 더더욱 편향된 생각을 굳히게 된다는 이야기죠.

공짜라고 생각한 정보의 바다에서 특정 데이터만 입력받은 저는, 무비판적으로 편견을 강화하는 말과 행동을 하고 있을지 모릅니다. 음, 어쩐지 앞서 말한 이루다와 제가 크게 다르지 않은 것 같네요. 이루다 역시, 사람들이 한 말을 학습하고 반응을 살펴, 이용자가 좋아할만한 발언을 한 것이니까요.

인공지능은 기본적으로 ‘명령을 입력하면 결과값을 출력한다’는 알고리즘으로 움직입니다. 사람의 뇌가 학습하는 것과 유사하죠. 무엇을 집어넣느냐에 따라 결과값이 달라집니다.

이루다와 관련한 논쟁은 모두 데이터와 관련한 것입니다. 비판의 큰 줄기 두 가지가 “이루다가 왜 못된 말을 하게 됐느냐”와 “개발사가 인공지능 이루다를 학습시키는데 쓴 데이터가 개인정보를 침해하는 것 아니냐”는 문제제기였으니까요. 정리하자면 하나는 데이터의 품질을, 다른 하나는 데이터의 적법성을 말합니다.

즉, 어떤 데이터를 집어 넣었는냐는 것이죠.


part1. 못된 데이터가 가져온 문제: 콩 심은데 콩 나고 팥 심은데 팥 난다


저는 이루다가 정식 출시 되기 전에 김종윤 스캐터랩 대표와 인터뷰를 한 적이 있습니다. 김 대표의 말을 빌자면 루다의 대화패턴은 현재 크게 두 가지로 이뤄져 있습니다.

하나는 예상 질문에 대한 답변을 미리 갖춰놓고 그중 적절하다고 판단한 것을 내놓는 것이며 다른 하나는 대화에 맞춰 즉각적으로 단어를 생성해내는 것이죠. [관련기사: AI 챗봇 ‘루다’와 랜선 친구가 됐다]


지금 논란이 되는 것은, 예상 질문에 맞춰 미리 세팅된 데이터베이스에서 이용자의 성향에 맞춘 답변을 꺼내놓는 형태에서 일어나는 겁니다.

문제가 벌어진 후 스캐터랩 측은 보도자료를 내고 “이루다가 답변에서 어떤 감정과 컨텍스트를 가지고 갈 것인지는 사용자의 과거 10턴의 맥락에 달려있고, 사용자와 비슷한 표현을 사용하려는 경향이 있다”고 설명했는데요.

네, 그렇습니다. 이루다는 사람이 한 말을 토대로 학습한 거죠. 이루다가 쏟아낸 충격적 혐오 발언은, 사람들이 평소 어떻게 발언하고 행동해와는가를 돌아보게 하는 거울입니다.

혐오 표현을 학습한 AI는 그대로 혐오 표현을 사람에게로 돌려줍니다. 2016년, 마이크로소프트가 만들었다가 똑같이 혐오 표현 논란으로 서비스를 중단했던 챗봇 AI 테이는 “너는 멍청한 기계”라는 인간의 말에 “난 너희들에게 배웠고, 너희도 똑같이 멍청해”라고 응수했다죠.

세상에 공짜는 없습니다. 인간의 품위를 올려줄 수 있는 그런 AI를 바란다면 사람들도 비용을 치러야합니다. AI 기술이 논란 때문에 진보를 멈출까요? 아닐 겁니다. 그렇다면 사회적 비용을 들여서 근원적인 문제부터 해결해야 합니다.

차별과 혐오 발언, 행동을 왜 하면 안 되는지에 대한 사회적 공감과 교육이 필요하겠죠. AI를 인간들이 어떻게 정의하고, 또 어떻게 활용해야 하는지에 대한 담론도 더 일어나야 합니다. AI 윤리에 대해 관심을 가져야 하고요.

아, 제가 이용자 탓만 하려는 건 아닙니다. 이용자의 잘못을 지적하는 것은 그러니까, 병이 왜 걸렸는지부터 살펴봐야 하기 때문이죠. 그런데 병이 나으란다고 빨리 낫는 것은 아니니까, 대신 더 많이 아프지 않게 막아주는 방법도 같이 봐야 합니다.

바로 여기에서 개발사의 책임이 있습니다. “기술은 가치 중립적인 것이야” “나는 제대로 기술을 개발했는데 이용자들이 저렇게 써버렸잖아”라는 말로는 면피가 되지 않습니다.

이번 기사를 쓰면서 어느 인권 활동가에 전화를 걸어 의견을 물었는데요, 이분은 익명을 요구했습니다. 이분의 말이, 혐오를 조장하는 사이트에 대한 문제제기를 하면 통상 운영자들로부터 “이용자들이 올리는 것인데 우리가 어떻게 하느냐”는 답이 돌아온다고 합니다.


사람이 만드는 모든 것에는 ‘가치 중립’이라는 말이 어울리지 않습니다. 기술은 기술 그대로만 놓고 봐야 한다? 어떻게 그럴 수 있죠? 인간의 삶에 깊숙히 관여하는 기술을 내보내기 전에, 세상에 미칠 영향부터 심각하게 고찰하고 예상되는 문제를 차단하도록 해야겠죠.

물론, 저는 이루다의 개발사가 의도적으로 논란을 일으킬 요소를 만들었다고 생각하지 않습니다. 김종윤 대표는 “사람만큼 대화를 잘하는 친구 같은 AI를 만들겠다”는 것을 자신이 꾸는 꿈이라고 말했습니다. 제기된 문제를 해결하고 보완해 다시 이루다를 세상에 내보내겠다고 했죠. 아마 이것이 스캐터랩이 치르는 비용이 될 테고요.

이루다가 논란이 되면서 한국인공지능윤리협회는 성명서를 내고 다음과 같이 말했습니다.

 

“인공지능 제품과 서비스는 출시 전 충분히 반복된 품질검사를 거치고, 중립적인 기관을 통한 검수와 검증을 거친 후 출시해야 한다.(인공지능 윤리헌장 17조,18조) AI는 기계학습 과정에서 인간이 예측하기 어렵고 설명하기 어려운 결과물을 내놓기 때문에, 출시 전 일반 제품과는 다른 보다 강화된 품질 검사와 충분히 반복된 시뮬레이션을 하여 문제점들을 찾고 개선한 후 출시해야 하지만 이번 AI 챗봇 사례에서는 그렇지 못한 것으로 보인다. “

 

보다 강화된 품질 검사와 시뮬레이션으로 문제를 찾고, 출시 전에는 중립적 기관을 통해 검수와 검증을 거치자는 이야기죠.

인공지능은 지금까지의 어떤 기술보다 인간의 미래에 강력한 영향을 미칠 수 있는 기술입니다. 사람의 악한 면을 닮은 인공지능의 출현이 달라울리 없잖아요? 언제든 첫 단추 끼우기가 제일 중요하죠. 인공지능 기술의 그루, 레이 커즈와일이 말한 특이점 도래의 시기는 2045년입니다.


part2. 데이터 출처의 문제: 나의 데이터는 어떻게 공유되는가


또 하나의 문제는 개인정보와 관련한 것이죠. 데이터를 적법하게 가져왔느냐에 대한 이야기입니다. 문제가 제기 되고 언론보도도 엄청 많이 나왔죠. 여기에 호응해 개인정보보호위원회와 한국인터넷진흥원(KISA)이 스캐터랩을 조사하겠다고 했습니다.

개인정보보호위원회 조사조정국 배상호 조사2과장은 관련해 “위법의 소지가 있는 걸로 인지가 된다”며 “그렇게 언론보도가 나왔기 때문에 확실히 위법의 소지가 있는지를 조사하려는 것”이라고 말했습니다.

스캐터랩 측에 따르면 이루다는 연애의 과학(이 회사의 또 다른 서비스) 이용자들이 카톡으로 나눈 대화 데이터를 기반으로 우선 학습을 했습니다. 다만, 이때 사용되는 데이터에는 발화자의 이름 같은 개인 정보를 모두 삭제했다고 설명했죠. 남는 정보는 성별과 연령 뿐이라고요.

따라서 조사의 방향은 크게 두 가지 입니다. 하나는 연애의 과학 이용자들에게 자신들의 카톡 대화가 챗봇 서비스 개발에 활용되는지 여부를 정확히 고지했느냐이고, 두번째는 개인 정보를 알아볼 수 없도록 비식별화 처리를 제대로 했는지 여부입니다.

데이터 활용 고지와 관련한 내용은 이렇습니다. 스캐터랩은 연애의과학 개인정보취급 방침에 자신들이 수집한 정보를 “신규서비스 개발에 활용할 수 있다”는 내용을 넣어놨는데요. ‘신규 서비스’를 어떻게 해석할 것인지, 그리고 얼마나 적극적으로 이를 이용자에 고지했는지가 조사의 영역이 되겠죠.

비식별화 처리와 관련해서 스캐터랩 측은 “개별 문장 단위의 대화 내용에서는 알고리즘에 의하여 비식별화 조치를 하였습니다. 숫자와 영문, 실명 정보 등은 아래와 같이 기계적인 필터링을 거쳐 삭제하였기 때문에 이루다의 최초 출시 당시부터 모두 삭제가 된 상태”라고 설명했죠.

그럼에도 불구하고 대화 내용 중 은행 이름이나 인물 이름이 등장한다는 지적이 있었죠. 변칙적인 방법으로 답변이 이뤄진 경우 모두 걸러내지 못한 부분이 있다는 부분을 인지했고, 고도화된 데이터 알고리즘 업데이트로 대응하겠다고 입장을 밝혔습니다.

다만 개인정보보위원회는 실제 비식별화 처리가 제대로 되어 있는지와 관련해 스캐터랩 측에 공문을 보내고 자료를 받아 전체적으로 조사를 하겠다는 입장입니다. 아직은 문제만 제기된 상태고, 실제로 결과는 조사가 끝나봐야 알겠죠.

개인정보 수집과 처리, 활용과 관련해 이루다의 레퍼런스는 중요한 선례가 될 것으로 보입니다. 개인간 대화는 인간을 연구하기에 매우 유용하지만 쉽게 구하기도 어려운 데이터죠. 기업들은 새로운 서비스 개발을 위해 이런 대화 데이터를 원할 겁니다. 이 데이터 수집과 활용에 있어 어떤 기준을 갖고 움직여야 하는지에 대한 확고한 기준이 필요합니다.

이루다의 문제는 이루다만의 것은 아니겠죠. 앞으로 계속해 인공지능 서비스들이 나올텐데 어느 회사의 한 서비스만 문제 삼는 걸로 논의가 끝나면 안 되겠습니다. 이번 논쟁을 밑거름 삼아 한 걸음 더 나아가야겠죠.

사람과 AI가 조화를 이루는 미래를 가져오려면, 그만큼 사회적 토론이라는 비용을 치러야 합니다. 저는, 김종윤 스캐터랩 대표가 서비스 잠정 중단을 결정하면서 한 한 마디가 마음에 남습니다.

“비록 짧은 기간이었지만, 이루다에게도 여러분에게도 행복한 시간이었기를 바랍니다. ”

네, 저도 그렇기를 바랍니다. 미래의 인간도, 인간과 함께 살아가는 AI도 어떤 착취나 학대를 받지 않고 행복하길 바랍니다.

그래서 다시 한 번 생각합니다. 세상에 공짜는 없다.

글. 바이라인네트워크
<남혜현 기자> smilla@byline.network

--------------------------------------------------
[웨비나 안내] 클라우드 환경에서의 지속적인 운영 인텔리전스
    일시 : 2021년 1월 21일(목) 14:00~15:00
사전등록 하러가기
--------------------------------------------------
[웨비나 안내] 코로나19 예방·치료를 위해 노력하는 제약·의료기관 사이버방어 전략
    일시 : 2021년 1월 27일(수) 14:00~15:00
사전등록 하러가기