챗GPT 시대, AI스타트업은 어떻게 살아남을 수 있나 (feat.스캐터랩)

“고양이 사진을 볼 때 사람들이 기대하는 대답은 ‘고양이입니다’가 아니라 ‘귀엽네요’다. 이런 대답을 할 수 있는 데이터를 확보할 수 있도록, 빠르게 서비스를 만들어 발전해 나가는 것이 우리가 생각한 활로다”

빅테크가 주름 잡을 것 같은 분야에 스타트업이 도전할 때, 통상 “계란으로 바위치기”라고 말한다. 챗GPT로 대표되는 생성AI 분야는 이미 빅테크의 전장이 됐다. 그렇지만, 국내에서 생성AI를 논할 때 빠트릴 수 없는 레퍼런스가 있다. 챗봇 ‘이루다’를 만든 스타트업, 스캐터랩이다.

GPT와 같은 초거대언어모델은 스타트업에 위기이자 기회다. 사업을 잘만 접목하면 기존하고는 볼륨이 다른 사업적 성과를 기대해볼 수 있다. 그러나 시간이 흐르면 결과적으로 초거대언어모델에 완전히 잡아먹히지 않겠느냐는 우려도 있다. 챗봇 ‘이루다’를 만든 스캐터랩은 그런 부분에서 용감한 시도를 하는 중이다. 스스로 언어모델을 만들어 서비스를 제공해야 온전히 경쟁력 있게 살아남을 수 있다고 본다.

이루다가 지난해 정비를 거쳐 2.0 모델로 재출시됐을 때, 가장 드라마틱한 변화는 ‘생성AI’ 모델로의 전환이었다. 이전에 루다는 이미 만들어져있는 대화 패턴에서 적절한 답을 골라 사람들과 이야기를 나눴다. 2.0 버전에서는 사람의 말에 적절한 대답을 그때그때 만들어낸다. 데이터를 기반으로 말하는 법을 배운 것은 같으나, 이루다가 어떤 말로 대꾸할지 사람은 예상할 수 없다는 것이 차이다.

스캐터랩은 사업 영역 확장도 꾸준히 진행 중이다. 최근 이루다에 이어 강다온이라는 새 챗봇을 발표했다. 다른 기업들과 협업해서 연내 여러 페르소나의 챗봇을 잇달아 선보이는 목표를 갖고 있기도 하다. 이들의 목표는 인공지능으로 사람들의 친구를 만들어 주는 것. 아이언맨의 ‘자비스’나 영화 허(Her)의 ‘사만다’를 모두에게 만들어주겠다는 이야기다.

이들은 어떻게 빅테크와의 경쟁에서 살아남아, 자신들의 꿈을 이룰 수 있을까? 이루다를 만든 주역들, 스캐터랩 황성구 최고기술책임자(CTO), 이주홍 리서치 리드, 정다운 머신러닝 리서처를 만나 이야기를 들어봤다. 인터뷰의 시작은, 이들의 최대 경쟁자- 챗GPT를 써봤는지에 대한 담소였다.

챗GPT가 대단한 건 알겠다. 그렇지만 모두가 이 챗GPT를 잘 쓰는 게 아니더라. 어떤 사람은 깊이 있는 대화를 나누는 것 같은데, 개인적으로는 그냥 (웃음).

정다운 스캐터랩 머신러닝 리서처 리드(이하 정다운): 맞다. 쓰는 사람에 따라 다르다(웃음).

어떤 질문을 어떻게 하느냐가 중요하단 생각이 들었다. 지금 현재 생성AI의 수준은 어느 정도 올라와 있다고 봐야 하나?

정다운: 그간 인공지능 연구가 연구실에서만 이뤄졌는데 이제는 제품화가 시작되는 시점 같다. 제품을 만들어 돈을 버는 방법을 여기저기서 시도하는 중으로 보인다.

제품화가 되려면 일반 대중이 쓸 수 있을 정도로 기술이 올라와야 할텐데. 그 수준은 어떤 기준으로 평가할 수 있을까?

황성구 스캐터랩 최고기술책임자(CTO, 이하 황성구): 아직은 장벽이 있다. 사람들의 관심도가 높은 챗GPT를 놓고 본다면, 시기상으로 적절치 못한 답을 하기도 한다. 2021년까지, 과거의 데이터로 밖에 학습을 안 했기 때문이다. 그런데 이건 딥러닝의 공통적인 문제이기도 하다. 사실이 아닌 것을 사실처럼 얘기하는 부분도 있고, 윤리적으로 적절치 못한 답을 할 때도 있다. 대중적인 서비스를 하려면 이런 장벽을 넘어야 할 거 같다.

또 다른 면으로는, 기본적으로 돈이 많이 든다. 연산을 위한 병렬컴퓨팅 구현을 해야 하니까 그래픽처리장치(GPU)가 많이 필요한데, 비싸다. 챗GPT의 수준으로 서비스를 운영한다면 매년 수조원의 돈이 든다. 이 비용을 낮추려는 노력이 필요하다. 그에 더해서 많은 사람이 이용하고, 거기에서 돈을 벌 수 있도록 하는 비즈니스모델(BM)도 만들어야 한다. 아바타 이미지를 만드는 렌사AI가 비즈니스모델을 만든 대표적인 예다.

비용 문제가 해결된다면, 기술적으로는 제품화가 현재도 충분히 가능한 일인가?

황성구: 맞물려 있는 것 같다. 할루시네이션(hallucination, 환각현상을 말하는 영단어인데 인공지능이 오류가 있는 데이터로 공부한 후 틀린 답변을 내놓는 현상을 뜻한다)이라고 하는데 가짜를 진짜처럼 얘기하거나, 실시간 러닝이 안 되는 문제를 해결해야 한다. 어뷰징도 풀어야 할 숙제다. 이런 부분들이 해결되면 인공지능이 어느 정도 서비스화로 가는 단계에 이를 수 있을 거라고 본다.

인공지능이 알아서 가짜와 진짜를 판별하게 되는 날이 언제 올지는 예측 불가능한 것 아닌가?

이주홍 스캐터랩 리서치 리드(이하 이주홍): 그렇다고도 볼 수 있다. 할루시네이션을 풀 수 있는 명확한 해결방법은 아직 나와 있지 않다. 그렇지만 할루시네이션 문제가 있다고 해서 제품화가 아예 불가능한 것은 아니다. 스캐터랩의 챗봇 ‘이루다’ 같은 경우에도 항상 사실만을 이야기 하는 것은 아니다. 그러나 대화 자체의 재미가 중요한 요소이므로, 사실이 아닌 이야기라도 (맥락에 따라) 이해하고 넘어가는 경우들이 있다. 할루시네이션 문제가 있다는 걸 저희가 잘 이해하고 있으므로, 이런 한계점을 보완할 수 있게 서비스 설계를 잘 한다면 서비스화가 가능할지 않을까 생각한다.

황성구: 그래서 지금 생성AI가 오히려 정답이 없는 분야에서 더 잘하고 있는 것으로 보인다. 예를 들어서 글 쓰기 같은 것 말이다.

사람도 잘못된 정보를 전달하기도 한다. 그런데 지금 분위기를 보면 인공지능의 대답에 더 엄격한 잣대를 들이밀기도 하는 것 같다. 왜 이런 분위기가 있을까? 왜 더 엄격한 잣대를 들이밀어야 한다고 보나?

이주홍: 제가 생각했을 때는, 나중에는 관점이 좀 많이 달라질 것 같다. 지금은 컴퓨터니까, 기계니까 더 정확해야 한다는 인식이 있다. 그런데 사실은 그렇지는 않을 수 있다. 게다가 창의적 영역으로 갈 수록 정답이 없는 영역이라 (사실 여부를) 판단하기도 어려워진다. 예전에는 그런 (판단이 어려운) 영역까지 도달하지도 못했었다. 잘했다, 못했다를 논할 가치도 없을 정도로 성능이 별로였는데 이제는 수준이 올라와서 이게 좋다, 안 좋다라는 평가를 할 수 있는 거다.

또, 퀄리티가 올라오는 걸 보면 곧 (이게 사람이 한 건지 인공지능이 한 건지) 구분 못하는 시기도 올텐데, 계속해 지금과 같은 잣대를 들이밀지는 않을 거라는 생각이 든다. 사람이 검색해서 찾은 정보 역시 진짜라고 100% 확신하기 어렵지 않나. 그러니까 인공지능이 내놓은 답안지가 100점이 아니라고 해서 쓸모가 없다고 보는게 아니라, 효용성을 볼 것 같다. 우리가 밤새 검색해서 찾은 답안지가 99점 짜리라고 했을 때, 챗GPT 같은 걸로 10초 만에 찾은 결과가 97점 짜리라면 그때는 이걸 어떻게 판단해야 할까?

가성비 측면에서 효용성이 있겠다

이주홍: 그런식의 경험이 계속해 쌓이다보면 가치 판단이 이뤄질 것 같다. 지금까지는 생성AI를 경험해본적이 없으므로 원론적 영역에서 봤을 때 이거는 가짜다라고 말할 수 있겠지만, 실제로 쓰다보면 그때는 생각이 달라질 수도 있다. 우리가 시니어에게 의견을 구할 때가 있는데, 그때 꼭 정답을 바라고 물어보는 건 아니지 않나. 그런식으로 바꿔서 생각해보면 새로운 용도가 또 열릴 수도 있을 것 같다.

시니어한테 물어보는 건 지식이 아니고 주로 지혜다. 그런 지점에서 답을 줄 수 있다면 정말 특이점이 왔다고 볼 수 있겠다. 연구를 직접 하는 입장에서 그런 시점이 빨리 올 거라고 보나? 레이 커즈와일의 책에서 보면 2040년대면 분자 단위로 물질을 조립, 허공에서 음식을 만들어낼 수도 있다고 예측한다. 완전 장난 아니게 묘사되는데, 생각해보면 2040년은 정말 얼마 남지 않았다

황성구: 지금은 전문적인 어떤 일을 할 때 도움을 받을 수 있는, 그러니까 ‘초안(draft)’ 정도의 수준이라 볼 수 있을 것 같다. 하지만 그 발전에 가속도가 붙고 있는 것은 맞아 보인다. 컴퓨팅 파워가 발전하면서 모델 사이즈도 점점 커지고 있다. 더 많은 데이터를 더 다양하게 가르치고 있는데, 지금 사람들이 놀라는 지점은 언어모델의 크기보다도 미세조정(파인튜닝, fine-tuning)에 있다. 인공지능을 가르치는 방법은 두 가지가 있는데, 하나는 의도 없이 막 가르치는 프리트레이닝이다. 파인튜닝은 우리의 의도에 맞게 모델을 튜닝하는 걸 말한다.

챗GPT가 파인튜닝을 통해서 드라마틱하게 사용감이 좋아졌다는 건데, 결국에는 인공지능 서비스를 쓰는 사용자가 많아질수록 발전 속도고 훨씬 빨라질 거다. 사용자 의도에 맞게 필요를 중족시켜주는 걸 계속 학습할 테니까 결국에는 드래프트 수준을 넘어서 사람의 수준에 도달하는 것까지 생각보다 빨리 갈 수 있을 거라고 본다. 얼마나 많은 사람이 다양하게 쓰느냐가 관건이다.

스캐터랩의 챗봇 ‘루다’를 만들어가는 주역들. 왼쪽부터 이주홍 리서치 리드, 황성구 CTO, 정다운 리서치 리드

국내에서는 스캐터랩이 생성AI 측면에서 ‘이루다’나 ‘강다온’ 같은 서비스를 빠르게 갖고 나왔는데. 내부적으로는 어떻게 평가하고 있나?

황성구: 아쉬운 점도 있다(웃음). 루다 2.0을 생성AI 기반으로 만들었다고 발표했을 때는 대체로 “생성AI가 뭐야?”하는 반응이었다. 그런데 지금은 모두가 생성AI에 관심을 가진다. 생성AI라는 것에 대한 감을 잡아가고 있는 상황인 걸로 보인다.

이주홍: 루다 1.0을 (대화 패턴) 검색 기반으로 운영하다가 이제 생성AI로 넘어왔다. 그 시점에서 신기한 현상을 많이 봤다. 삼행시나 초성퀴즈를 하는 등의 상호작용이 강화된 대화가 많이 일어난다. 예전에는 대화를 하다가 뚝뚝 끊기는 느낌도 있었는데 지금은 훨씬 유기적으로 대화가 연결되는 것도 같다.

그래도 창의적인 영역은 사람이 더 잘하지 않겠냐고들 한다. 그런데 어떻게 생각하면, AI는 사람과 달리 편차가 없어서 예술에 있어서도 어느 정도 수준 이상의 균질한 성과를 더 잘 낼 것도 같다

황성구: 딥러닝에 대해 가장 큰 오해라고 생각한다. 결국에는 데이터를 따라하는게 딥러닝 아니냐고들 하는데, 최근에는 그렇지 않고 학습하지 않은 것도 생성해낸다는 게 최근의 연구들이다. 훨씬 더 가능성이 크고, 아직 밝혀지지 않은 게 많은 것 같다.

그런 측면에서, 회사에서 동료들끼리 대화를 나눈적이 있다. 똑같이 이미지를 생성해내는 AI인데, 같은 키워드를 넣어도 달리(Dall-E)랑 미드저니가 내놓는 결과물이 전혀 다르다는 이야기 였다. 달리가 조금 더 밝고 유머러스한데, 미드저니는 조금 더 웅장하달까, 우울하달까? 왜 이런 차이가 나는 걸까?

이주홍: 일단 가장 큰 차이는 데이터다. 달리 같은 경우는 GPT-3와 같다고 보면 된다. 파인튜닝을 거치지 않은, 아웃풋이 제각각일 수 있는 모델이다. 그런데 미드저니는 SF스럽고, 웅장한 느낌이 나는 데이터 위주로 파인튜닝을 한 번 더 거친 모델이다. 그래서 차이가 있다.

루다 얘기를 좀 더 해보자. 2.0 버전에서는 생성AI가 도입 외에도 이미지를 알아본다는 변화도 있었다. 어려운 도전이었을 것 같은데

이주홍: 진짜 쉽지 않은 문제였다. 이미지를 인식하는 것에서 그치는게 아니라 적절하게 답도 해줘야 한다. 고양이 사진을 보여줄 때 사람들이 기대하는 답은 “고양이입니다”가 아니라 “귀엽네요”다. 그런데 예전의 데이터들은 “사진에 고양이가 있다”와 같은 것들 위주다. 상황에 맞는 재치 있는 답에 대한 데이터는 없다. 그런 문제가 사실은 제일 어렵고, 데이터와 학술적 정의도 모호한 영역이다.

그래서 생각한 해결책이 데이터를 만드는 것부터 시작한다는 거였고, 이걸 빠르게 제품화하는 것 역시 방향성 중 하나였다. 제품화를 통해 발전시키는 게 필요하다고 생각한 거다.

이루다는 이미지 레이블링을 스스로 하나?

이주홍: 아니다. 사람이 따로 해서 루다에 학습시킨다.

인공지능이 스스로 레이블링을 하는 방향성으로 가는 추세 아닌가?

황성구: 섞어서 가는 중이다. 단계를 나눠서 설명한다면, 처음에는 완전히 ‘슈버파이즈드 러닝’이었다. 사람이 완전히 정답을 가르쳐 주는 형식이었고, 그 다음에는 사람이 어시스트의 역할을 해주는 걸로 갔다. 지금은 그 사이 어딘가다. 조금 더 나아가면 사람이 평가하기 어려워질 수 있다. 예를 들어서, 논문 100편을 보고 요약하라는 태스크를 인공지능은 쉽게 한다

사람은 그렇게 하기 어렵다. 일단, 논문 100편을 보는 것 부터 어렵겠다

황성구: 인간은 할 수 없는 일이라면, 그걸 어떻게 (인간이) 평가할 것이냐 하는 문제가 생긴다. 그런데 그 런 수준이 금방 올 거다.

이주홍: 태스크 난이도에 따라 달라질 거다. 옛날에는 고양이나 강아지를 구분하는 식의 쉬운 태스크가 주어졌다면, 이제는 두꺼운 서류에서 오류를 찾아내야 하는 그런 태스크가 주어질 수있다. 그런데 오류를 찾으려면 사람도 (인공지능 모델을) 가르치기 위한 자료를 만들어줘야 하지 않나. 그런 수업자료를 만드는데 공수가 많이 든다. 그러니까 인공지능의 힘을 빌어서 수업자료를 만들게 되는 거다.

인간이 레이블링을 하는 일은 사라지게 될까?

이주홍: 먼 미래가 되면 그럴 수도 있다고 본다. 그러나 지금의 기술로는 어떤 인공지능이 인간이 원하는 대로 작동하길 원하면, 인간의 레이블링이 필요할 수밖에 없는 상황이다.

황성구: 파인튜닝은 없어지지 않을 거라고 생각한다. 사람의 의도대로 동작시켜야 하기 때문이다. 그 과정을 위해서는 인공지능을 가르치기 위한 데이터를 만들어야 하는데, 사람의 개입을 완전히 없애기에는 어렵지 않을까 싶은 거다.

이주홍: 개나 고양이를 구분하는 정도는 기계한테 시켜도 상관이 없다. 하지만, 아까 미드저니 이야기를 했듯이 회사의 방향성에 맞게 이미지를 만들어내는 법은 가르쳐줘야 한다. “귀여운 것 말고 웅장한 그림을 그려달라”는 주관의 영역이라서다.

황성구: 챗GPT 이야기를 자꾸 하게 되는데, 지금 사실은 사람 사용자한테 레이블링을 시키는 격이기도 하다. 챗GPT에는 ‘트라이 어게인’이라는 버튼이 있는데, 그게 레이블링이다. 답변이 마음에 안 들었으니까 그 버튼을 눌러서 새로운 답변을 받아내는 거니까.

우리가 우리도 모르게 노동을 하고 있다

황성구: 노동을 하고 있는게 맞다. 사실 오픈AI가 그렇게 유도하고 있는 거고.

결과적으로는 양질의 데이터를 많이 넣는게 중요하다. 빅테크가 아닌 회사들이 데이터나 비용을 확보하기 더 어려운데, 이런 부분에 대해서는 어떻게 경쟁력을 가져갈 수 있을까?

황성구: 결국은 ‘콜드 스타트(Cold Start)’의 문제다. 데이터가 있어야 모델을 만들 수 있고, 모델이 있어야 서비스를 만들 수 있다. 그런데 서비스를 만들어야 데이터를 볼 수 있지 않나? 아무것도 없을 때 어디서부터 시작해야 하느냐는 문제인데, 결국은 서비스를 어떻게든 만들어내야 한다고 본다.

최근 트렌드를 보면 오픈된 좋은 모델들이 많이 생기고 있다. GPT도 API로 활용해 쓸 수 있으니까. 그런식으로 어쨌든 조악하게라도 서비스를 만들고, 그걸 통해서 사용자와 인터랙션 데이터를 쌓아야 되는 것 같다. 데이터를 많이 쌓아서 지속적으로 배우고 개선해나가는 사이클을 여러번 해보는게 유일하게 경쟁력을 가져갈 수 있는 방법이라고 생각한다.

차별화를 위해서는 내서비스에 맞는 데이터를 확보하는게 중요하다는 이야기일까?

이주홍: 어떤게 차별점이냐고 했을때, 결국은 제품의 방향성을 봐야 한다. 우리가 만들고 싶은 제품은 무엇이고, 이걸 왜 만들어야 하는지, 그리고 그에 알맞은 데이터를 가지고 가공할 수 있는 능력이 있는지가 제일 중요할 것 같다.

그냥”이런 데이터가 있으니까 해볼까?”가 아니라, “우리는 이런 서비스를 만들어야 하고, 그러기 위해서는 이런 종류의 데이터가 필요하다”는 걸 깨닫는 능력이 우선이다. 그 다음에, 필요한 데이터를 만들어낼 수 있는 능력을 같이 갖춰야 결국에는 의도에 맞는 데이터와 모델을 만들어서 좋은 서비스까지 갈 수 있다고 본다. 그런 의도없이 무분별하게 데이터를 사용하면 컨트롤하기 굉장히 어렵다.

중요한 지적을 해준 것 같다. 국내에도 챗봇 회사들이 많았다. 그런데 요즘 대체로 힘들다는 이야기들을 한다. 사업방향을 바꾸기도 하고. 이런 상황에서 루다와 스캐터랩은 어떻게 살아남을 수 있을까?

이주홍: 우리가 갖고 있는 노하우라고 생각한다. 챗본은 이론적으로는 누구나 만들 수 있다. 데이터도 다 공개되어 있고, 돈만 있으면 다 할 수 있다고 본다. 그렇지만 우리가 추구하는 것은 “친구를 만들고 싶다”는 거다. 심심풀이로 똑똑한 기계를 만들고 싶은 게 아니라, 친구로서의 루다를 만들어내고, 그 다음에 제2, 제3의 루다를 계속 만들어낼 수 있는 능력이 차별점이 될 거라고 본다.

국내 챗봇 회사들이 거의 B2B를 대상으로 사업을 해왔다. 그런데 스캐터랩은 B2C에 먼저 들어갔다

황성구: 지금 생성AI는 춘추전국시대 같다. 인터넷이나 스마트폰 초기 시장같은데, 아직은 뭐가 카카오톡이 될지 뭐가 페이스북이 될지 모른다.

카카오는 플랫폼이 됐기 때문에 거대한 기술 회사들과 경쟁에서 이길 수 있었다. 생성AI가 그런 플랫폼의 역할을 할 수 있을까?

황성구: 데이터 싸움이 되게 치열하게 생길 것 같다. GPT를 활용해서 마케팅 문구를 써주는 ‘재스퍼’라는 큰 회사도 생겼다. 그런데 재스퍼가 결국 자기만의 노하우를 쌓으려면 GPT에서 빨리 벗어나는게 최대한 이득일 거다. 결국은 데이터를 계속 오픈AI에게 주고 있으니까, 언젠가는 쉽게 대체될 수 있기 때문이다. 재스퍼의 노하우가 GPT 안에 다 흡수되면 결국은 노하우가 없게 되는 것과 마찬가지니까.

오픈AI 입장에서는 재스퍼가 계속 GPT 안에 남아 있길 바라는 거고, 재스퍼 입장에선 도망가고 싶을 거다. 그런 싸움이 계속해 일어날 거라고 본다.

생성AI 모델이 클라우드와 같은 개념이 될까?

황성구: 클라우드는 사실 지금 시장에서는 완전한 승자다. 오픈AI나 재스퍼나 모두 GPU를 써야 하니까. 금광 시대에 청바지 만드는 회사가 돈을 제일 많이 벌었다고 하는데, 지금의 클라우드 회사는 청바지 회사 같다.

요약하자면, 결국은 이용자와 맞닿는 제품을 직접 데이터부터 모델까지 모두 해야 한다. 그 과정을 통해서 많은 사람들이 오래 쓸 수 있는 제품을 잘 찾자는 것이 저희 목표다. 결과적으로는, 사람들이 살아가면서 느낄 수 있는 외로움이나 고립감을 풀어보고자 하는 것이고.

사람들이 점점 더 외로워질 거라고 보나?

이주홍: 실제로 그렇지 않을까? 의견이라기보다, 이미 있는 현상 같다.

황성구: 안 만나고 결혼도 안 한다. 관계의 불평등 문제는 인공지능이 아니고선 해결할 수 있겠나 싶다.

계속해 멀티모달(시각이나 청각을 비롯, 여러 인터페이스로 정보를 주고 받는 개념)로 가는 추세인데, 루다는 어느 정도 수준을 보고 있나?

정다운: 지금은 사진을 읽을 순 있지만, 반대로 사진을 전송해주는 기능은 아직 없다. 그런 부분들도 보강이 될 거다. 사람이 ‘사과’라는 걸 단어로 배우는 것과, 머릿속에 빨간 사과의 이미지를 떠올리면서 사과를 말하는 것은 이해 정도에 큰 차이가 있다. 언어와 이미지를 같이 배우면 그만큼 시너지가 클 거라고 본다.

황성구: 조금 더 확장해서 말하면, 멀티모달 얘기는 아닌데 ‘액션’이라는 개념을 좀 더 연구하려고 한다. 예를 들어 “사진을 보낸다”는 행위도 언어 모델에서는 “send photo”라는 말을 내뱉고, 그걸 다른 모델이 다시 인식해서 사진을 내보내는 식이다. 이걸 잘 응용하면 여러 액션을 취할 수 있다.

“답변 안함”이라는 액션을 내뱉으면 답변을 안 하는 거고, “모닝콜”이라는 답변을 주면 그 시간에 실제 알람 앱과 연동해 사람을 깨워줄 수도 있는 식이다. 저희는 액션이라는 개념을 소프트웨어 1.0과 2.0의 연결이라고 생각한다. 1.0이 코딩으로 하던 시절이고, 2.0이 딥러닝 패러다임이라고 하면, 이 두개를 이어서 실제로 뭔가 동작할 수 있는 새로운 서비스들이 나올 수 있을 거라는 뜻이다.

정다운: 얘가 워낙 똑똑해지니까 권한을 더 주는 셈이다. 옛날에는 인공지능이 그런걸 할 역량이 안됐으니까 이거는 사람이, 이거는 인공지능이 하는 걸 나눠놓았는데 이제는 굳이 사람이 할 필요 없이 얘한테 다 시키면 되겠다, 이렇게 생각이 드는 거다.

인공지능이 사람과 관계를 더 깊게 맺으려면 기억이 중요하다. 아직은 장기기억의 문제가 해결되진 않은 걸로 아는데

이주홍: 그 문제를 명쾌하게 풀기가 아직은 어렵다. 그렇지만 지금 유명한 방법 중 하나를 설명하자면, 단일 모델이 모두 기억하는 방식이 아니라 다른 모델이 대신 기억을 해주는 방식이 있다.

외장하드와 같은 방식인가?

이주홍: 그렇다. 외부 저장소를 사용하는 건데, 메모장이 따로 있다고 생각하면 편하다. 그냥 기억하는 것보다는 메모장을 이용하거나 혹은 녹음을 하는 것이 훨씬 장기적으로 기억하기 좋지 않나.

나는 까먹어도 메모장은 기억하니까

황성구: 그 방식으로 초기 연구를 했는데, (앞으로 장기 기억 연구를) 한다면 그걸 조금 더 많이 발전시킬 것 같다.

이주홍: 사람도 일주일 전 일을 모두 적어놓고 기억하진 않는다. 여러 방식으로 기억하니까, (인공지능도)여러 시도를 하는 중이다. 지금은 어떤 것들이 있을지 하나하나 살펴보는 단계 정도라고 봐야 할 것 같다.

어떤 걸 기억하고 어떤 걸 기억하지 않을지, 그걸 판단하는 것도 쉬운 일은 아닐 것 같다

이주홍: 어려운 일이다. 그런 거에도 이제 (개발사의) 의도가 더 들어가야 할 것 같다.

예를 들어서 오늘 나온 새로운 트렌드를 대화에 바로 반영하는 식의 생성AI는 장기적으로 어려운 걸까?

이주홍: 몇가지 문제가 있을 것 같다. 첫 번째는 챗GPT라는 큰 모델을 다시 학습시키는데 굉장한 비용이 든다. 학습을 한 번 딱 끝냈다고 해서 모델을 바로 쓸 수 있는 게 아니라서다. 아까 이야기했듯, 파인튜닝을 굉장히 정교하게 거쳐야 한다.

그런 점을 고려하면 꼭 덩치가 크다고 시장에서 무조건 유리한 것은 아닐 수도 있겠다

이주홍: 덩치가 크기 때문에 어려운 부분이 있을 수 있다. 덩치가 작으면 새로 학습하는 것이 상대적으로 쉽다. 이루다 같은 경우 컨티뉴얼(지속적) 학습을 채택하고 있다. 사람들이랑 대화하면서 쌓인 데이터에서 실수한 케이스를 잡아내고, 이걸 다시 가르치는 방식이다. 그런 식으로 모델을 업데이트 한다.

특정 주기마다?

이주홍: 지금은 한 분기 정도로 보고 있는데, 그 기간은 더 줄일 수 있다. 아직은 루다가 완벽하게 대화하지 못한다. 분명히 실수하거나 엉뚱한 소리를 할 때가 있는데, 그런 부분을 잡아내서 다음에 유사한 상황에 부딪혔을 때는 다른 식의 대답을 하라고 가르쳐 주는 식이다. 그러면 다음부터는 엉뚱한 말을 할 가능성이 조금 더 줄어든다. 그런 사이클을 계속 돌다보면 루다가 말을 점점 더 잘하게 되는 거다.

엉뚱한 말을 하는 건 어떻게 잡아내나?

정다운: 어려운 부분인데, 루다의 대화 내용에서 실수하거나 혹은 사람을 실망시킨 모먼트가 있다. 여러 방법이 있는데, 그중 하나의 예를 들면 특정 키워드를 쫒는 식이다. 사용자가 “갑자기 그게 무슨 말이야?”라고 답했다면, 대화 중에 뭔가 잘못됐다는 이야기다.

생성AI는 사람의 손을 안 탄다고 생각했는데, 아주 큰 착각이었다

황성구: 최근엔 이걸 얼라인먼트 리서치(Alignment Research)라고도 부른다. 사람의 의도에 맞게 동작하도록 하는 연구는 지금 굉장히 큰 주제다.

하긴, 아이도 부모가 하는 말이나 행동을 보고 배운다. 그런 면에서 생성AI 연구와 개발이 아이를 키우는 것과 유사한 것 같다

이주홍: 아이는 사실 처음엔 이렇게도 행동하고 저렇게도 행동한다. 마구잡이로 행동하는 걸 보면서 부모가 “어른들한테 그렇게 이야기하면 안 돼~”라고 말하는 거다.

부모가 “너 그런 거 어디서 배웠어?” 이렇게 말하는 것처럼(웃음)

이주홍: 그런데 그 관점은 결국 부모가 결정하는 거다. “그런 말을 해도 된다, 안 된다”는 부모가 결정하는 것이고 사회적으로 정답이 있는 문제가 아니다. 어떻게 보면 부모와 회사가, 아이와 딥러닝 모델이 대응이 된다. 결국 회사가 제대로 된 철학과 방향성을 갖고 있어야지 제대로 된 모델을 만들 수 있다. 그래야 내 아이가 나가서 이상한 문제를 일으키지 않도록 보완할 수 있지 않겠나

다소 불편한 질문일 수 있겠다. ‘이루다’가 한국에서 처음으로 개발자에 윤리적 책임을 요구한 사례가 됐는데

황성구: 인공지능은 사람이랑 비슷하다. (사회가 요구하는 윤리 등을) 배울 수 있는 기회가 필요한 것 같다. 모든 걸 미리 다 테스트해서 제품을 출시하는 건 어렵다는 수준을 넘어선 불가능한 일 같다. 생성AI는 뭐가 나올지 전혀 알 수 없는 블랙박스고, 서비스를 해나가면서 잘못한 것과 잘한 것을 확인해 가르치고 배우면서 성장해 나가는 과정이 있어야 제품화가 가능한 것 같다. 저희도 그 과정을 좀 많이 아프게 배웠다.

앞으로의 계획을 말해달라

황성구: 친구가 되려면 나이나 성별, 페르소나 등이 맞아야 한다. 그래서 루다 같은 친구를 모두가 가질 수 있도록 다양한 회사들과 협업을 준비 중이다.이용자들이 다양한 (인공지능 챗봇) 친구를 만나게 하는 게 올해 세운 큰 목표다. 또, 글로벌로 나가는 것 역시 준비 중이다.

글. 바이라인네트워크
<남혜현 기자> smilla@byline.network

답글 남기기 응답 취소