[바스리] 카카오 뛰쳐나와 차린 인공지능 챗봇 회사 ‘튜닙’

바이라인네트워크에서 스타트업 리뷰를 연재합니다. 코너명은 ‘바스리’, <바이라인 스타트업 리뷰>의 줄임말입니다. 스타트업 관계자분들과 독자님들의 많은 관심 부탁드립니다.

기계는 정말 어린아이처럼 사람의 말을 배우고 이해하는 것일까? 지난해 나타난 괴물 신인 ‘GPT-3’는 인공지능 대화 모델의 패러다임을 어떻게 바꾸어 놓았을까? 한국어에 특화한 대화 모델이 글로벌로도 경쟁력을 가질 수 있나? 가까이는 네이버나 카카오, 멀리는 구글이나 오픈AI 같은 대기업이 도전하는 인공지능 시장에서, 스타트업은 어떠한 비전을 가질 수 있을까?

인공지능이라는 단어는 아직은 낯설지만 챗봇은 친근해진 시대가 왔다. 챗봇이 계속해 사람과 닮아가더니, 심지어는 창작 활동도 한다. 점점 더 인간과 가까운 디지털 휴먼을 만들어내는데 많은 기술 기업이 도전을 하고 있다. 스타트업 튜닙도 이들 중 하나다. 뭘하는 회사냐고 묻는다면, 여행과 반려견 시장에 맞춤한 챗봇을 선보이려 준비 중이다.

[box type=”bio”]튜닙은 어떤 회사?

카카오브레인 출신의 자연어처리(NLP) 팀 6명이 지난 3월 공동 창업한 스타트업이다. 박규병 대표는 카카오브레인에서 자연어처리 팀을 이끌며, EMNLP, 인터스피치 등 국제인공지능학회에 10편의 논문을 발표한 경험이 있다. 오픈소스 공유 플랫폼 깃허브(Github) 등 개발자 커뮤니티에서 기술 역량을 인정받는다. [/box]

카카오브레인 출신 박규병 대표는 학교에서 언어학을 전공했다. 그 경험을 살려 지금은 인공지능이 어떻게 인간을 위로하는 말을 할 수 있을지를 연구한다. 이들은 펄어비스캐피탈, 네이버 D2SF, DSC인베스트먼트 등으로부터 최근 30억원 규모의 시드 투자를 받았다. 김경엽 펄어비스캐피탈 대표는 “앞으로 도래할 메타버스 세상에서 인공지능을 갖춘 메타휴먼을 만들어 내는 중요한 축을 담당할 기업으로 성장할 수 있을 것”이라고 튜닙의 성장가능성을 높게 봤다.

공룡이 판치는 인공지능 기술 대전에서 튜닙은 어떤 가능성을 갖고 있을까. 박규병 대표를 최근 서울 강남에 위치한 네이버 D2SF에서 만났다. 언어학 전공자인 그는 “개인도 아바타가 대신해 활동하고 목소리를 담게 되는 과정을 겪게 될 텐데 그때 ‘지성’이라는 부분이 나와야 한다”고 말했다.

지성을 가진 디지털 휴먼은 지금의 인공지능과 무엇이 다를까?

[무료 웨비나] 복잡한 레거시 환경에서 AI를 안전하게 확장하고 비즈니스 혁신을 가속화하는 방법

일시 : 2026년 7월 23일 (목) 14:00 ~ 15:00

저희가 이해하는 지성은 언어다. 언어가 지능의 전부라고 말할 수는 없지만 대부분이라고 생각한다. 지금 각광받는 디지털 휴먼은 사람 같은 외모나 목소리를 가졌다. 그렇지만 디지털 휴먼 자체가 말을 하는 것은 아니다. 사람이 하는 말이 디지털 휴먼의 목소리로 나오는 것일 뿐이다.

지성은 없이, 그냥 사람이 하는 말을 전달하기만 하는?

그런 것에 아쉬움을 느끼는 대표적인 곳이 게임업체랑 엔터테인먼트사다.

## 메타버스에도 단계가 있다

예를 들어 정해진 대사만 뱉는 NPC 같은 경우를 말하는 건가?

게임 회사의 입장에서는 그렇다. 엔터테인먼트사의 경우에는 디지털 휴먼이 연예인의 역할을 나눠해주길 바란다. 예를 들어 BTS가 몸이 하나다 보니 팬들이랑 일일이 얘기하지 못한다. 팬들이 말을 걸 때 디지털 휴먼이 대신 대답을 하면 얼마나 좋을까, 이런 생각을 하는 거다. 디지털 장치를 통해서 팬과 셀러브리티가 대화를 주고 받으려면, ‘이루다’와 같은 대화 모델이 나와서 소통하는 형태가 되어야 한다.

지금은 사람의 목소리를 따와서 일방적으로 메시지를 전달하는 형태의 메타버스가 이뤄지고 있지만, 순차적으로는 대화가 가능한 모델이 나올 거라고 본다. 그게 지능 발전의 흐름이다.

말씀하신 것처럼 인간이 전하는 말 그대로를 재현하는 NPC 형태 아바타와, 데이터를 갖고 학습해 말을 하는 챗봇 등 두 종류로 디지털 휴먼이 나뉜다. 지금 하시는 일이 아바타에 챗봇의 능력을 입히는 일이라고 보면 될까?

회사의 정체성은 ‘대화 지능’이다. 최근에는 앵커나 성우, 연예인들도 디지털 휴먼을 만든다. 그 사람들은 자신의 아바타가 단순히 텍스트를 물리적으로 읽는 것을 넘어 대화를 하도록 만드는데 관심이 있다. 그래서 우리 기술의 데모 버전이 나오면 결합해서 서비스를 만들어보자는 제안이 들어오고 있다.

그런데 대량의 말뭉치를 가져다가 학습을 하게 되면, 개인의 퍼스널리티를 살릴 수 있나?

요즘 추구하는 방식을 보면, 사람이 써놓은 대량의 말뭉치를 잔뜩 학습시킨 후에 지시문에다가 “BTS처럼 말을 해봐”라고 하니까, 그런 결과물이 나오더라는 거다. 대다수 사람들이 말이 안 된다고 생각했는데, 지난해 하반기에 그게 된다는 걸 보여준 사례가 나왔다. GPT-3라는 엄청난 모델이다

그 분기점이 GPT-3란 말인가?

그게 나오면서 막연하게만 생각했던 것들이 됐다. 인간에게 “너 화난척 해봐”라고 하면 화난척을 하듯, 인공지능 대화모델에게 “화난척 말을 한 번 해봐”라고 하면 그렇게 행동하더라. 물론 텍스트 모델이므로 목소리는 없지만, 진짜 BTS처럼 어제 누굴 만났고, 어떤 노래를 불렀더라는 식의 이야기를 하기 시작한 거다. 패러다임의 변화가 왔다. 아직 새 패러다임이 안착한 것은 아니지만 지속될 것은 분명하다. 그래서 저희도 그쪽으로 나아가려 한다.

인공지능 대화모델을 만드는 곳은 튜닙 말고도 여러 곳이다. 튜닙이 이들보다 기술적으로 더 나은 부분이 있다면?

인공지능의 붐이 크게 일어난 게 8년 정도 됐는데 그 사이 우여곡절이 많았다. 이게 되는 거냐라는 의문이 많이 있었는데 이제는 인공지능으로 돈을 벌 수 있다고 많은 사람들이 확신을 하게 됐고 기술적으로도 그만큼 올라왔다고 본다. 그래서 이제 시작이다.

이 패러다임 변화 국면에서 몇몇 글로벌 회사를 제외하고는 모두 비슷한 입장이라고 본다. 튜닙은 거대모델이라고 하는 변화의 흐름 속에서 선두가 되어야 한다고 생각한다. 그런데 이 게임의 특이한 점 중 하나는 돈과 아주 밀접한 관련이 있다는 거다.

## 뱀의 머리가 되지는 않겠다

그래서 인공지능 부문에서는 규모가 큰 회사가 더 유리해 보인다

돈을 많이 갖고 있는 사람이 이 게임에서 이길 확률이 높다. 스타트업은 이 게임에서 매우 불리하다. 시장이 사실은 이원화되어 있다고 본다.

카카오나 네이버, 구글이 하는 영역과 스타트업이 하는 영역은 다르다?

이원화 되어 있는 걸 아예 전제로 깔고 들어간다. 저희는 누군가가 만들어 놓은 걸 쓰는 이쪽(스타트업)에 있기보다, – 물론 가져다 쓰는 것도 하고는 있지만- 저희가 직접 만들어 내는 기술의 중심 쪽으로 가고 있다.

대기업처럼 원형이 되는 기술을 만들려면 더 많은 자본이 필요하다. 그러려면 카카오브레인에서 독립을 하지 않고 그 안에서 기술을 만드는 것이 더 유리하지 않았을까?

그건 좀 다른 이야기다. 결국은 회사에 소속돼서 일을 하는 것과 내가 주체가 되어 일을 하는 것은 완전히 다른 거라고 느끼고 있다. 개인적인 얘기지만, 한번쯤 내가 직접 결정하고 싶었다. 직장생활을 하면서 많은 직장인들이 불평을 하는데, 나도 마찬가지였다. 이제 그런 불평 그만하고 싶었고, 죽이 되든 밥이 되든 내 인생 내가 결정하고 싶었다.

카카오 출신인데 네이버로부터 투자를 받은 것도 꽤 재미있는 부분이다

투자 논의를 했는데, 실무단에서 결과적으로 일이 잘 안 이어졌다. 사업을 바라보는 시각이 서로 달랐다. 그 이후로 자유의 몸이 돼서 다른 투자처랑 접촉을 했다. 네이버 D2SF랑 원래 연이 있었던 것은 아닌데, 공간을 구하다가 운이 좋게 시기가 맞아떨어졌다. 공간에 입주해 있으면서 자연스럽게 우리 기술을 보게 됐고 투자로 이어졌다.

D2SF에 있는 기업들은 자연스레 네이버 내부의 사업과 연계하는 경우가 있다. 연계를 검토하는 사업이 있나?

아주 구체적인 단계는 아니다. 네이버도 네이버가 하는 게임과 스타트업에서 하는 게임은 다르다고 판단을 하고 있다. 네이버는 아무래도 업계 선도적인 입장이지만, 그렇다고 해서 모든 것을 네이버가 다 할 수는 없다. 네이버는 판을 깔아주는 곳이고 그걸 스타트업이 잘 활용해 좋은 사례를 만드는 것이 필요하다고 생각하더라. 우리 생각도 마찬가지다. 네이버 측에서는 하이퍼클로바(네이버의 거대 언어모델)를 이용해서 사업을 하는 사례중 한군데가 튜닙이 되길 원하더라. 그래서 논의를 해보고 있다.

하나의 기술이나 플랫폼이 성공하면 승자독식으로 가는 추세다. 언어모델 같은 경우는 어떨 것 같나? 승자독식으로 갈까, 아니면 여러 연구 결과와 서비스가 같이 가는 구조로 갈까?

후자일 것 같다. 믿음의 영역이기도 하고. (비슷한 연구를) 네이버와 카카오는 물론이고 국내에서만 열군 데에서 하고 있다. 외국으로 눈을 돌리면 더 많은데서 하고 있고. 네이버나 카카오 같은데서 중심이 되는 기초모델을 만들면 스타트업에서 각자의 영역에 특화한 기술을 내놓을 거다. 시간은 걸리겠지만 다른 대기업이나 스타트업에서도 또 다른 형태의 기초 모델에 도전하기도 할 거고. 수백군데가 난립하는 형태는 아니더라도 당장 한 군데가 독식하는 형태는 아닐 거라고 생각한다.

어느 한 회사가 독식을 하면 위험한 부분도 있겠다

민간도 그렇지만 정부도 위기의식을 갖고 있다. 정부기관 자문을 네 군데 정도 하고 있는데, 매일 똑같은 얘기가 나온다. 대기업 중심으로 거대모델이 만들어지고 있는데, 사기업 입장에서는 당연히 이걸 외부에 공유하거나 논의할 이유가 없다. 정부 입장에서는 이게 좀 안타까운 거다. 국가경쟁력으로 나아가려면 힘을 합쳐도 모자라는 마당에 각개격파를 해야하니까.

또, 스타트업이 대기업의 연구 결과물을 이용하거나 혜택을 받아들이는 입장으로만 이원화되는 것도 문제다. 애초에 대기업의 연구에 스타트업의 목소리가 가닿지 않는다는 것도 정부에서는 문제로 보고 있기도 하고. 정부 측에서는 대기업이 기술을 개발할 때 스타트업을 위한 생태계 구축에 신경을 써달라는 차원의 주문을 하고 있다.

## 인공지능은 어떻게 언어를 배우는가

언어학과 출신 대표가 만든 언어 모델은 뭐가 다를까

언어학과와 관련한 전문가들이 “한국어의 특성을 잘 녹여내야 한다”는 말씀을 많이들 한다. 그말도 상당히 일리가 있다. 그렇지만 저는 기본적으로 다른 스탠스를 가지고 있다. 언어 애그노스틱(agnostic, 지식이 없어도 이용할 수 있는)을 꿈꾼다. 한국어 서비스만 하고 싶지는 않다. 글로벌이므로 당연히 영어도 해야 하고 나아가서 중국어, 일본어 서비스도 하고 싶다. 한국어라는데 집착하는 순간 언어 본연의 것을 잃어버린다는 생각이 든다.

언어 본연의 것이란 건 무얼 말하는 걸까?

언어는 다 똑같다는 거다, 사실은. 예를 들어서 구글과 네이버를 비교해보자. 네이버는 처음부터 한국어 특성에 맞춰진 검색과 번역을 제공한다. 그런데 구글은 수백개 언어를 번역하지 않나. 구글이 한국어를 특수처리했나? 그렇지 않다. 여러개 언어 중 하나로 취급을 했다. 똑같은 알고리즘을 갖고 여러 언어에 접근했고, 결과적으로 좋은 성과를 냈다.

“언어가 사고를 지배한다”고 말한다. 지금 이 시기가 어쩌면 인공지능이 어떻게 사고하고 어떻게 말하는지를 결정짓게 하는 중요한 시기로도 보인다. 그 부분에 대해서는 어떤 관점을 가져야 한다고 보나?

우리가 알고 있던 경험적, 선험적 지식이 상당수 틀렸다는 걸 확인했다. 알파고가 나왔을 때 기존에 알고 있던 룰이 많이 파괴됐다. 전혀 둘 것 같지 않던 수를 두지 않았나. 그걸 보고 사람들이 깨달았다.

창의에 대한 고정 관념이 깨졌다는 말인가?

그렇다. 언어도 마찬가지다. 언어권별로 주술구조가 다른데 사실은 우리가 지금 목격하고 있는 상황은 그런 것이 중요하지 않다는 것이다. 인공지능은 말을 그렇게 배우지 않는다. 인간은 말의 순서나 구조에 따라 사고가 결정되기도 하고 영향을 받는다. 그건 틀림없는 사실이다. 그런데 인공지능은 그런 거에 영향을 받지 않는 것 같다. 인공지능은 그냥 지능이 높아야 잘한다. 데이터를 많이 갖고 있어야 잘한다는 뜻이다.

기계가 아이처럼, 그렇게 말을 배울 수 있을 거라고 생각했는데

그렇다. 그런데 사실 아기들이 어떻게 말을 배우는지도 인간이 다 이해를 못하고 있다. 기계는 조금 다르다는 결론이 나는 것 같고. 처음에는 기계의 뇌가 작아서 안 된다고 판단, 무작정 뇌를 키워본 것이 지난해 나온 GPT-3다. 그렇게 했더니, 어떻게 그렇게 된 건지는 모르지만 갑자기 기계가 말을 잘하는 것처럼 보인다는 것이 지금의 결론이다.

그런데 저는 시간이 지나면, 상황이 교차할 거라고 본다. 지금은 무작정 뇌를 키우고 세포를 늘린 건데, 그래도 인간의 뇌 수준은 못 된다. 인간도 같은 아이큐를 갖고 있지만 더 똑똑한 사람이 있듯, (학습 효율성을 높이기 위한) 학습법 같은 게 중요하지 않겠느냐는 얘기도 나온다.

카카오브레인이 얼마전 자체 기술 컨퍼런스인 ‘이프 2021’에서 지금의 인공지능 모델에 가장 부족한 것으로 기억력과 추론을 꼽았다

맞는 말이다. 지금 GPT3 모델의 한계점도 추론이 안 되고 기억력이 짧다는 거다.

기억력이 있긴 한건가?

기억력을 뭐라고 정의하느냐에 따라 달렸다. 기억을 보통 메모리라고 번역하지 않나? 컴퓨터쟁이들에게 메모리는 그냥 메모리다. 그렇게 본다면 단기 메모리는 있다고 봐야 한다. 장기 메모리가 아닌 거다. 1년 전의 것을 기억하라고 하면 어떤 사람은 희미하게 기억하기도 한다. 그러나 인공지능은 지금 그런 것까지는 안 된다. 단기 기억만 갖고 있다.

과거의 대화를 기억하게 하는 것이 해결이 가능한 부분일까?

가능하다. 기술적으로는 왜 안 되는지가 명확한 부분이다. 지금의 대화 모델이 한 번에 데이터를 처리할 수 있는 용량 자체가 작기 때문이다. 가장 최근의 대화 모델은 한번에 2048개 단어까지 메모리에 넣는다. 이 용량을 넘어서면 과거의 것부터 지워나간다. 기억이 사라지는 거다.

메모리를 늘리면 되는 문제인가?

굉장히 복잡한 문제다. 메모리가 한 칸 늘어날 때마다 연산량이 배로 는다. 무작정 늘릴 수가 없다.

그런데 2048개의 단어를 기억하는 것과, 그 단어들이 어떤 맥락에서 어떻게 쓰였는지 상황을 기억하는 건 전혀 다른 문제 아닌가?

지금 모델들이 맥락의 상관관계를 엮어서 대화하는 것처럼 보이는 단계다. 인간처럼 유기적으로 이해하고 있는 수준은 아니지만 단순히 낮은 레벨의 암기 수준은 넘어섰다.

그럼 지금 인공지능의 언어나 지능 수준을 어느정도로 봐야 할까?

각 영역별로 이해를 해야 한다. 아까 추론 이야기도 했지만, 언어나 지능을 하나로 뭉뚱그려 이야기하기 보다는, 개별 능력을 봐야 할 것 같다. 추론은 인간에게도 고도의 능력이다. 인공지능은 추론 능력은 떨어지지만 암기능력은 상당히 좋다. GPT-3 같은 모델을 써보면, 인공지능이 아는 건 많다.

아는건 인간보다 훨씬 많을 것 같다

인간보다 아는 게 훨씬 많다. 그래서 뭐든 물으면 답을 한다. 근데 그렇다고 그게 다 맞는 건 아니다. 그건 인간도 마찬가지 아닌가? 단순 암기력은 좋고 이해력도 괜찮다. 윤리 능력은 떨어진다. 그래서 막 말을 한다.

배운데(인간의 대화 뭉치)서 꺼내 써서 나오는 문제 아닌가

배운 것도 잡탕으로 배우지 않았나? 또, 감성 쪽도 약하다. 지성은 감성에 비해 상당히 강하다. 사실을 이해하는 능력이 추론 능력에 비해 강한데, 이건 사실 생각해보면 인간도 마찬가지다.

이제 튜닙 얘기를 조금 더 해보자. 튜닙이 지금 가진 로드맵은 어떻게 되나?

일단은 내년까지는 좋은 챗봇을 만들고 싶다. 이왕이면 한국어 뿐만 아니라 영어로도 사람들과 대화를 잘 나눌 수 있는, 감성과 지성을 겸비해서 사람을 위로할 수 있는 챗봇을 생각 하고 있다. 또, 전문적이거나 지성을 담은 이야기를 할 수 있어서 사람과 더 깊은 교류를 할 수 있길 바란다.

그런 능력을 가진 텍스트 형태의 챗봇을 사람들에게 알리는 것이 내년까지 튜닙이 가진 목표다. 2023년쯤에는 그걸 바탕으로 여러 기업과 서비스를 하거나 형체와 목소리를 갖춘 인공지능 모델을 만들어내려 한다. 그런 형태의 가상 인플루언서 서비스를 하는 것이 계획이고, 2024년쯤에는 메타버스 세상에서 다양한 페르소나를 가진 아바타를 만들어낼 수 있는 초기 형태의 기술력을 갖추려 한다.

개인적인 목표는 어떻게 되나

이 사업에 제 모든 걸 던졌기 때문에 좋은 서비스를 만드는 것, 튜닙을 성공시키는 것이 목표다. 조금 더 철학적으로 보자면 윤리적인 회사를 만들고 싶다. 굉장히 깨끗하고 좋은 회사 말이다. 만약 우리가 나중에 경제적으로 크게 성공했는데 내부에서는 상처투성이가 되어 있는 것은 원하지 않는다.

또, 서비스를 잘하는 기업 기술에는 투자가 후해졌는데 기술 기업에는 그렇지 않다. 그런데 기술이 등한시되면 펀더멘탈이 약해지는 거다. 저희는 서비스도 잘하지만 기술력이 탄탄해서, 그 두 개가 조화를 이뤄 글로벌 경쟁력으로 성공하는 그런 사례가 되고 싶다.

앞서 나온 인공지능 대화 모델이 곤욕을 치르기도 했다. 데이터를 어떻게 확보했느냐의 문제도 있었고, 페르소나를 20대 여성으로 삼은 것도 문제가 됐다. 주로 AI윤리와 관련한 것들이다

데이터 수집과 관련해서는 자체적으로 사람을 채용, 작화를 하고 있다.

데이터 말뭉치를 직접 만들고 있다는 이야기인데

그렇다. 누군가가 썼던 데이터를 모으는 게 아니고 아예 소설을 써서 만들고 있는 거다. 그렇지만 그걸로만은 다 충당이 되지 않는다. 자체적인 데이터 수집 플랫폼을 만들고 있다. 사회적 경각심이 있으므로 이용자에 고지할 부분은 분명히 할 거다. 변호사 통해서 법적 검토도 받고 갈 거다.

페르소나도 논란이 됐다

지금 준비하고 있는 페르소나 중 하나는 반려견이다. 해외 도시 여행의 가이드 챗봇은 무성이고. 윤리문제를 고려해야 하므로 내부적으로 고민이 많았다. 내부적으로는 민감한 문제를 물어보면 딴청 부리는 기능을 넣기도 했다. 그런데 가장 이상적인 형태의 답변이 뭘까 생각해보면 사람마다 이야기가 다르다. 홀로코스트에 대해서도 열띤 토론을 하면서 균형잡힌 시각을 내보여야 된다고 생각하는 사람도 있는데,

누구의 관점에서 균형 잡힌 것이냐의 문제도 있지 않나

‘균형’이라는 것은 사실상 말이 안 된다고 본다. 너무 예민하게 생각하면 무슨 얘기를 할 수 있겠나? 사람이 친해지다보면 정치 얘기도 하고 여러 민감한 얘기도 한다. 만날 날씨 얘기만 할 수는 없지 않나? 사회적 담론이 형성되면 그 기준도 만들어질 거라고 본다. 지금은 너무 초기이기 때문에, 우리 역시 보수적으로 생각하고는 있다.

어느 시점이 오면, 사람들이 사람과 대화하는 것보다 챗봇과 대화하는 것을 더 편하게 여기게 될지도 모른다. 나와 대화할수록 나를 닮아가는, 그래서 내가 원하는 대답만 쏙쏙 골라 말해주는 그런 디지털 휴먼의 출연은 달콤하다. 그런 미래가 인간에게 좋을지 나쁠지는, 아직은 모르겠다. 하지만 기술의 리더들이 모두 그리로 달려가고 있고 먼저 깃발을 꽂기 위해 노력한다. 튜닙과 같은 회사가 만드는 디지털 친구가, 조금더 따뜻하고 다양성을 품을 수 있길 바랄뿐.

글. 바이라인네트워크
<남혜현 기자> smilla@byline.network