네이버의 생성AI는 챗GPT가 안 부럽다
요즘 저의 소셜미디어 타임라인은 온통 챗GPT 이야기로 가득합니다. 챗GPT의 대단함을 칭송하는 목소리도 있고, 지나친 호들갑이라는 부정적인 이야기도 있습니다. 하지만 특정 IT 기술의 등장이 이만큼이나 화제가 되는 건 흔치 않은 일입니다. 아이폰이 등장했을 때나 비트코인이 떡상(?)했을 때 수준이 아닐까요? 대통령까지 나서서 챗GPT 얘기를 할 정도니까요.
그런데 대통령은 모르시나 봅니다. 국내에는 이미 챗GPT와 같은 기술이 마련돼 있다는 것을요. 심지어 한국어는 챗GPT보다 더 낫다는 평가도 있는데 말이죠.
네이버의 초거대 AI ‘하이퍼클로바’ 이야기입니다. 네이버는 오픈AI가 GPT-3을 내놓자, 곧바로 하이퍼클로바를 내놓았습니다. 초거대 AI의 가치를 빠르게 캐치한 거죠. 덕분에 세계적으로 빠르게 움직인 연구그룹 중 하나로 평가받습니다. 하이퍼클로바를 활용해서 주기적으로 독거노인의 안부를 묻는 ‘케어콜’과 같은 서비스를 만들기도 했고, 마케팅 솔루션에 하이퍼클로바 기술을 적용하기도 했죠. 관련기사
하지만 AI는 기술만 개발했다고 유용하게 사용할 수 있는 건 아닙니다. 먼저 사회적으로 합의를 이뤄야 할 부분도 있고, 문화적으로 AI를 일상에서 받아들일 준비도 필요합니다. 정부와 정치권이 진짜 해야할 일은 신년사를 챗GPT에 맡기는 것보다, 이런 부분에 있겠죠.
네이버에서 초거대 AI 개발을 이끌고 있는 분과 이야기를 나눠봤습니다. 하정우 네이버 AI 랩(Lab) 소장과 네이버클라우드 성낙호 이사입니다. 기사가 길어지기는 하고 다소 기술적 설명도 있지만, 웬만하면 대화를 그대로 전달하려고 노력했습니다. 특정 주제로 기사를 쓰기에는 전달하고 싶은 내용이 많기 때문입니다.
이번 인터뷰에서 제가 궁금했던 부분은 아래와 같습니다.
- 챗GPT와 같은 생성 AI란 무엇인지.
- 네이버의 수준은 어느 정도 인지.
- 현재 생성 AI 경쟁에서 중요한 점은 무엇인지.
- AI에 대한 각종 우려에 대해 어떻게 생각하는지.
- 한국의 AI가 경쟁력이 있을지.
한번 이야기를 들어보시죠.
심재석 : 요즘 챗GPT에 대한 반응이 엄청 뜨겁습니다. 작년에는 DALL.E 2나 스테이블 디퓨전 같은 이미지 생성 AI 등장에 놀랐었는데요. 이런 게 모두 생성 AI라고 하는데, 생성 AI라는 건 뭘까요?
하정우 : 이전의 AI는 이 문장을 입력받았을 때 ‘긍정/부정’ 아니면 ‘악플/선플’ 이런 식으로 분류를 하는 방식이었다면, 생성 AI는 이용자가 글을 입력하면 글을 더 불려주는 AI입니다. 글을 써줄 수도 있고, 글에 대한 그림을 그릴 수도 있고, 거기에 대한 음악을 만들어줄 수도 있죠. AI로 콘텐츠 자체가 만들어지는 겁니다.
성낙호 : 부연설명을 드리자면, 만들어 놓고 나서 보니까 생성을 한다는 게 어떤 의미가 있는지에 대해서 다시 알게 된 게 있어요. 생성을 할 수 있다는 거는 뭐든지 할 수 있는 것과 비슷한 의미입니다. 처음에 ‘얘가 대화를 할 수 있을까’ 했어요. ‘생성인데 무슨 대화까지 하겠어?’ ‘감정을 인식할까?’ 했는데, 설마설마 한 게 다 되는 걸 확인을 한 거예요.
앞의 말을 듣고 그 다음에 감정적인 표현을 하는 걸 생성하려면, 그 감정 상태를 추정할 수 있어야 돼요. 감정적 공감이 없으면 그 다음에 나오는 단어를 맞출 수가 없거든요. 그런 것들이 함의하는 바가 되게 크더라고요.
심재석 : 이전에도 챗봇은 많았잖아요. 우리나라에는 심심이나 이루다도 있고… 이런 건 생성AI가 아닌가요?
하정우 : 이루다1의 경우 엄밀히 말하면 정보를 가져와서 붙인 대화 모델입니다. 대화 템플릿이 있고, 적합한 대답을 골라 와서 와서 보여주는 거에요. 10만 개 중에 하나를 골라올 수도 있고, 100만 개 중에 하나를 골라 올 수도 있죠. 선택지가 많은 것일 뿐 본질은 선택이고, 생성AI는 선택지에서 골라오는 게 아니라 대화를 단어 단위로 계속 만들어내는 거예요.
성낙호 : 이루다 버전 1은 말씀하신 대로 했었고요. 버전 2는 생성 모델이에요. 생성 모델의 퀄리티가 나쁠 때는 틀리면 안 되니까 고르는 걸로 갈 수밖에 없어요. 그러다가 생성 모델이 점점 좋아지면서, 이제 생성으로 가는 거죠. 챗GPT 같은 것도 생성 모델이고, 앞으로는 점점 더 생성으로 가는 중이라고 볼 수 있죠.
심재석 : 생성 AI는 갑자기 등장한 건가요?
하정우 : 과거에도 있었어요. 오래 전부터 있었는데 2014년 말에 나온 GAN이 획을 한번 그었어요. 생성 모델이라는 게 별로 와닿지 않았었는데, 2014년 GAN이랑 2015년에 DCGAN이라고 하는 게 나왔어요. 이미지를 생성할 수 있는 기술이죠.
관련 기사 : AI가 세상에 없던 초상화를 그릴 수 있었던 이유
텍스트 쪽에서는 GPT-2가 2019년에 나옵니다. 그 정도쯤 되니까 “글 좀 쓰네?” 약간 이런 느낌이었고, 이후에 구글 ‘T5’라는 모델이 나오고 , ‘미나’라는 대화모델도 나옵니다. 자유 대화는 안 될 줄 알았는데 ‘되는구나’를 느꼈고, 람다 이런 애들이 나왔죠. 그리고 나서 GPT-3를 보니 “세상이 바뀌었다” 했죠.
관련기사 : 자비스 등장 멀지 않았나…초대형 언어모델의 확산
성낙호 : 사실 모든 게 다 원리는 같아요. 앞의 글을 보고 다음 단어를 맞추는 거예요. 그냥 그것만 한 겁니다. ‘설마 이렇게 하면 될까?’ 했던 게 언어 모델이라고 하는 말도 안 된 컨셉인데, 이게 되는 거죠.
하정우 : 지금 말한 다음 단어 맞추기는 역사가 2003년까지 거슬러 올라갑니다. 그런데 2021년 초반 T5와 2021년 5월 GPT-3의 차이는 모델 크기에요. T5에서 GPT3로 가면서 모델이 15배 정도 커집니다. 또 데이터를 훨씬 더 많이 집어넣었더니 과거에는 상상하지 못했던 게 되는 거예요. 그러니까 갭을 엄청나게 크게 키워버리니까, 안 보이던 세계가 보이기 시작한 거죠.
성낙호 : 이게 되게 중요합니다. 원래 커지면 조금씩 좋아진다는 걸 알았는데, 커지면 가성비가 나빠질 거라고 봤죠. 오픈AI에서 그걸 끝까지 한번 밀어붙여본 거죠. 그랬더니 그냥 좋아지는 게 아니라, 안 되던 게 되는 걸 본 거예요. 지금은 AI 업계에서는 물리 법칙처럼 받아들여요. AI는 커져야 세진다.
하정우 : 모델이 커지고 학습하는 데이터의 양이 늘어나면 좋아지는 건 알겠는데, 좋아지는 게 정확도 2% 올리고 3% 올리고 하는 거라면, 사실 크게 의미가 있는 건 아니거든요. 중요한 건 뛰던 애가 갑자기 날게 되는 건데, 그게 된거죠.
성낙호 : 뛰던 애가 나는 정도는 아닌 것 같은데?(웃음)
하정우 : 구글은 할 수 있는데도 불구하고 그걸 안 했던 것 같아요. 반면 오픈AI는 그걸 하면서 GPT-3로 헤게모니를 가져가 버렸죠.
네이버의 생성 AI
심재석 : 그럼 이제 네이버 얘기를 한번 해볼까요? 네이버는 지금 어느 정도 수준인가요?
성낙호 : 수준을 말하기는 어렵지만, 어쨌든 저희가 오픈AI 나왔을 때 가장 먼저 따라갔던 그룹 중에 하나입니다. 저희가 아마 세 번째인가 그 정도일 거예요.
하정우 : GPT-3, 그 다음이 화웨이, 그 다음이 저희입니다.
심재석 : 아, 성능 얘기가 아니라, 초거대 언어모델 개발한 순서가 세계에서 3번째다, 이런 말씀이군요.
하정우 : 성능평가를 하는 연구도 있긴 했는데, 문제는 모든 데이터와 모든 모델들이 공개가 된 게 아니거든요. API로 쓸 수 있는 것도 있고, 구글 고퍼(Gopher)나 친칠라처럼 아예 공개를 안 하는 것도 있어요. 그냥 논문으로만 나와 있는데 논문으로만 나온 거 가지고는 객관적으로 평가하기가 힘들잖아요. 그러다 보니 정확하게 판단하기는 힘든 상황이기는 합니다.
성낙호 : 또 영어 태스크 위주로 벤치마크가 돼 있는데, 저희는 영어가 주가 아니라서요. 한국어로 비교하면 우리가 1등이거든요.
하정우 : 평가하는 방법과 데이터에 따라서 들쭉날쭉 거릴 수 있다고 이해해 주시면 될 것 같아요.
심재석 : 모델 규모는 그렇게 키운다고 해도, 코퍼스는 영어 코퍼스(학습할 언어 말뭉치) 같은 건 많이 학습해야 되지 않나요?
성낙호 : 일단 저희는 한국어 코퍼스 위주로 했었고요, 한국어 코퍼스가 충분치 않다고 생각하실지도 모르는데, 충분히 많습니다. 그걸로 만든 게 하이퍼클로바고, 이제 좀 더 다른 언어로 확장을 해볼까 하는 중이긴 합니다.
심재석 : 직접 네이버의 생성 AI를 개발하시는 입장에서, 현재 네이버의 수준은 어느 정도라고 보고 계세요?
성낙호 : 제가 보기에는 GPT3 처음 나왔을 때 정도는 저희도 된 것 같은데, 오픈AI가 지금 이번에 챗GTP 만들면서 끌어올린 게 있거든요. 그만큼은 저희가 아직은 못 따라간 것 같지만, 곧 따라갈 예정입니다.
하정우 : 혹시 뤼튼 써보셨나요? 뤼튼 서비스 한번 써보면, ‘이 정도가 되는구나’라는 걸 바로 감을 잡으실 수 있으실 거예요. 제가 디지털 플랫폼 정부 위원회에 들어가 있는데요, 거기에 있는 공무원들은 다 혀를 내두르고 있거든요. 보고서 쓰는 일이 줄었다, 그런 거죠.
성낙호 : 공개된 버전이 저희의 가장 센 버전은 아닌데…
하정우 : 지금 뤼튼이 가장 좋은 (하이퍼클로바의) 버전을 쓰고 있는 게 아니에요. 저희 내부적으로 더 좋은 모델을 가지고 있긴 한데, 보통 서비스는 안에서 되게 검증을 많이 하고 밖으로 내보내야 하잖아요. 나가 있는 건 조금 안정적으로 검증된 버전 정도라고 보면 됩니다.
성낙호 : 개인적으로는 좀 궁금하고 답답할 때 AI한테 물어봅니다
심재석 : 예를 들어 한 번 말씀해 주시겠어요.
성낙호 : 뭐든지요. “어제 술을 먹었는데 오늘 해장을 뭐해야 될까? 난 이런 걸 좋아하는데” 그러면 나오거든요. 분당 지역에서 약속하기 좋은 데는 어디냐, 그런 것도 나오고…
하정우 : 최신 뉴스 이런 거는 안 되고요. 그거는 검색의 영역이니까. 그거는 챗GPT도 안돼요.
심재석 : 2021년까지만 된다고 하더라고요.
성낙호 : 얼마나 좋으냐고 물으시면 케어콜이라는 게 있어요. 뭔가 사회에 도움 되는 것 만들면 괜찮지 않을까 해서 만든 게 독거노인을 케어(Care)하는 솔루션이에요. 지자체에서는 독거노인의 안위를 규칙적으로 여쭙는 게 필요하다고 해서 저희가 만들어 예약콜 시스템으로 전화를 걸었어요. 약은 드셨는지, 아프신 데는 없는지, ‘네 아니오’로 답해달라고 했어요. 그랬더니 클레임이 오는 거에요. 이런 전화 안 받고 싶다고…
그래서 전화를 받고 싶게 만들어야겠다는 생각에 하이퍼클로바 만들자마자 거기에 적용을 했어요. 그랬더니 (어르신들이) 부드러워져요. 그런데 그 다음에 전화했더니 속상해 하시더라고요. 지난번에 말했던 걸 까먹었네. 얘가 날 무시한다. 그래서 기억하는 걸 만들어드렸죠. 그랬더니 갑자기 감동을 하시면서 구구절절하게 말씀을 하세요. 차원이 달라요.
심재석 : 저희 어머니도 혼자 계신데 동사무소 복지 담당관이 전화한다고 하더라고요.
성낙호 : 그게 비용이 많이 들어서 힘들다고 하더라고요.
하정우 : 복지사 분들의 일자리를 뺏는 건 아니고, 그분들이 커버해야 되는 어르신들이 엄청 많을 거잖아요. 인력을 계속 늘릴 수도 없을 거고요. 그래서 저희 기술이 그분들의 업무를 덜어드리면서 어르신들의 어떤 삶의 질도 올려드릴 수 있겠죠.
하정우 : 대화 정보가 저장이 되는 거, 이게 중요한데 이게 하이퍼 클로바이니까, 즉 모델이 커지니까 되는 거예요. 이전에는 피자 주문하는 거 같은 이런 느낌이었는데, 이제는 자유 대화를 하면서 (어르신 건강에 대한) 정보를 얻어내죠. 이게 초거대 모델이라 가능한거에요. 40여 개 지자체에서 7000분 이상의 어르신들이 이걸 하고 있어요.
심재석 : 요즘 음성합성 말투가 대체로 자연스럽지만, 약간씩 어색하기도 하지 않나요?
생성 AI의 발전 방향
성낙호 : 아까 생성 모델 말씀드렸잖아요. 아직은 텍스트만 생성하고 있는데 아마 올해부터는 이제 멀티 모달이라고 여러 개가 합쳐진 게 나올 거라고 생각해요. 찾아보시면 생성 모델을 소리에 적용한 게 나오고 있어요. 그거랑 결합이 되면 굉장히 자연스러운 것들이 아마 올해 말이나 내년에 좀 나올 것 같습니다.
심재석 : 이게 기존의 음성 합성하고는 또 다른가요?
성낙호 : 음성 합성을 만드는 텍스트에는 지문이라는 게 없어요. (화내며), (머뭇거리며) 이런 거요. 음성 인식도 음성이 텍스트로 변환될 때 지문이 다 날아가요. 근데 초거대에 멀티모달을 합치면, 이 사람이 흐느꼈는지, 머뭇거렸는지, 거짓말하는 것 같은지가 이제 모델에 잡히는 거죠.
심재석 : 무서운 느낌이 드네요.
하정우 : 지금까지 음성 합성은 상대적으로 작은 규모의 데이터에 감정 같은 걸 넣으려고 했는데, 언어 모델보다는 발전 속도가 조금 느렸어요. 앞으로는 음성합성도 거의 지금 언어 모델 하는 수준까지 빠르게 따라오지 않을까라고 생각합니다.
심재석 : 챗GPT나 하이퍼클로버는 언어모델인데 텍스트 말고 다른 게 나오나요?
성낙호 : 언어 모델이라고 하지만 사람들이 여기다가 데이터로 코드를 넣었더니 코딩을 할 수 있는 언어 모델이 나오는 거예요. 이미지를 넣어봤더니 이미지도 나와요. 이제는 언어 모델로 불러야 될지 모르겠는데, 음성을 넣었더니 음성이 나오는 거예요. 그리고 두 개를 섞었더니 둘 다 나오는 거죠. 뭐든지 되는 거죠. 어쨌든 사실 기계가 언어인지 뭔지 아닌지 알고 배운 게 아니죠.
하정우 : 그냥 입력에 대해서 출력을 할 뿐인데, 출력하는 형태가 텍스트를 넘어서서 아무거나 하는 거고, 입력도 텍스트만 받는 게 아무거나 다 받는 거죠.
성낙호 : 저희가 내부적으로 한 것 중에는 사용자 행동 기록 데이터를 갖고 언어 모델을 만든 것도 있어요.
심재석 : 이용자가 화면 어디를 클릭했는지 이런 데이터요?
성낙호 : 그렇게 하면 이게 추천 엔진이 되는 거죠. 그래서 네이버에 많이 들어가있습니다.
심재석 : 기존에도 추천 엔진을 만드는 노력은 했었잖아요.
성낙호 : 근데 그걸 언어 모델로 한 거죠
하정우 : 사실 언어 모델 자체가 생성 모델이거든요. 다음 단어를 예측한다는 얘기는 다음 단어를 만들어낸다는 얘기잖아요. 이걸 구현하는 방법이 여러 가지가 있는데, 요즘은 초거대를 중심으로 거의 합해지고 있다고 보면 될 것 같습니다.
심재석 : 제가 기자가 되기 전에 첫 직업이 자동 번역하는 회사에서 번역 룰을 만드는 일을 했었거든요. 저의 첫 직업은 이제 쓸모 없는 일이군요.
성낙호 : 이제 룰은 기계가 알아서 뽑아내죠.
심재석 : 참 쓸모없는 짓을 했었다는 생각이 드네요.
하정우 : 당시에는 나름의 방법이 그거였죠. 그게 최선이니까 투자 대비 리턴이 가장 큰 방법을 택했던 거고, 지금은 기술이 워낙 많이 바뀌었으니까 거기에 맞게 방법이 바뀐 거죠. 지금은 초거대의 AI를 활용하는 방법이 가장 효과적이다, 라는 게 기저에 있는 거죠.
성낙호 : 이제 규모랑 능력을 발전시키기 위해서 투자해야 될 게, 자본밖에 남지 않은 게 돼 버린 거예요. 데이터랑 자본 두 개만 있으면 그냥 올라가거든요. 기존에는 좋은 사람들 뽑아야 하고 핵심 연구도 해야 되는데, 지금은 가장 핵심 역량을 기계가 하죠.
심재석 : 이제 그럼 갈 때까지 간 건가요?
성낙호 : 갈 때까지 가는 길이 열린 거죠.
하정우 : 아직 간 건 아니고 갈 수 있는 길이…
심재석 : 자본과 데이터만 넣으면 이제 문제가 해결되는 상태인가요?
성낙호 : 그런데 그렇게 하면, 너무 무거워지는 문제가 있죠.
하정우 : 해결되는 건 아니고요. 가능성이 이쪽에 있는 것 같다라는 표현이 정확한 것 같아요. 해결됐다고 표현할 수는 없고요.
성낙호 : 이 방법이 제일 빨리 갈 수 있기는 한데, 비용이 너무 많이 들어요. 거대 모델이니까. 반대파에서 볼 때는 “너무 무겁지 않냐, 너네가 푸는 문제 말고 여기서는 다른 문제를 풀 수 있다” 그런 얘기를 하고 있는 상태입니다.
심재석 : 앞으로 뭐가 또 나올까요?
하정우 : 두 가지 가능성을 볼 수 있죠. 첫 번째는 트랜스포머가 나왔듯이 또 진짜 혁신적인 게 나올 수도 있어요. 트랜스포머는 정말 ‘갑툭튀’ 하면서 뚝 떨어진 느낌이었거든요. 근데 걔가 세상을 바꿔버렸죠. 지금 스테이블 디퓨전의 디퓨전(확산모델)도 약간 그런 느낌이에요. 이미지를 생성하는데 GAN이 꽉 잡고 있던 헤게모니를 확 빼앗아 가버렸거든요. 그래서 뭐가 나올지 모르고요, 두 번째는 하드웨어 기술의 발전 지금보다 훨씬 큰 모델을 훨씬 저전력의 에너지로 쓸 수 있는 기술이 나온다면…
심재석 : 나오겠죠. 그거는?
하정우 : 네, 나와야죠. 지금은 너무 무거우니까. 그럼 또 얘기가 또 달라지겠죠.
성낙호 : 무거운 거라도 일단은 쓰고 있을 거고, 방금 말씀하신 그런 기술의 발전은 무조건 있을 거라서 점점 내려올 거예요.
하정우 : 네이버의 많은 서비스는 무료죠. 근데 이거를 무료로 풀기에는 운영비가 너무 많이 드는 거예요. 비용 이슈가 있어요. 심지어 딥마인드나 오픈AI도 그것 때문에 골머리를 앓고 있는 상황이에요.
심재석 : 오픈AI가 마이크로소프트에서 100억 달러 투자받은 이유도 그거겠죠.
하정우 : 마이크로소프트는 다 그림이 있었던 것 같아요. 마이크로소프트는 원래 B2B 비즈니스도 많이 하고 클라우드도 가지고 있죠. 클라우드 오피스도 가지고 있고… 그림이 쫙 보이는 거예요. 그 돈 써도 상관없다, 우리는 10조 투자해서 100 조 벌면 되니까… 약간 이런 느낌인 거죠.
성낙호 : 지금 느낌은요. GPT 이 버전은 무료로 풀어놓고 프로 버전을 과금할 거 같아요.
심재석 : 유료로 한다고 하더라고요.
*오픈AI는 이후 1개월에 20달러를 내고 이용할 수 있는 프로버전을 공개했다.
성낙호 : 마이크로소프트도 오피스 365 구독 모델처럼 과금을 할 거 같아요. 깃헙의 코파일럿은 이미 과금을 하고 있거든요. 그래서 전반적으로 과금 베이스의 AI들이 나올 것 같아요.
하정우 : AI도 구독으로 가는 거예요.
심재석 : 이미지 생성은 지금도 과금 모델 많이 있잖아요.
성낙호 : 많이 벌고 있죠. 아바타 만들어주는 거 같은 서비스.
하정우 : 그게 소위 말하는 초거대 AI 생태계가 만들어지는 거죠. 새로운 비즈니스 기회이기도 하고.
심재석 : 네이버는 어떤가요? 연구개발하는 분들이 비즈니스 모델까지 계획은 안 하시겠지만 대강 어떤 식으로 가겠다, 이런 생각은 하고 계시지 않나요?
하정우 : 사실 그것 때문에 저희가 클라우드와 합쳤다고 보시면 돼요. 초거대 AI는 클라우드와 떨어지는 거 자체가 효율을 떨어뜨리게 되거든요. 클라우드 기반의 초거대 AI를 제공할 수 있는 여러 가지 서비스 형태가 있을 것 같아요.
* 네이버는 지난해 말 클로바 CIC 등 AI 연구조직을 자회사인 네이버 클라우드와 통합했다
심재석 : 그러면 B2B로 API 같은 걸 판매하시는 방식이 되겠네요?
하정우 : 그럴 수도 있고, 케어콜처럼 솔루션을 만들어서 판매를 할 수도 있고요.
성낙호 : 이러나저러나 무료로 풀기보다는 과금 베이스로 가지 않으면 의미 있는 수준의 성능을 공급 못할 것 같아요.
심재석 : 예를 들어 소비자 대상으로도 과금을 한다든지 할 수 있겠죠?
성낙호 : 어쨌든 과금 베이스여야 된다는 거죠. 무료로 광고 붙여서 하기는 좀 힘든 것 같아요.
심재석 : 클로바노트 같은 거는 지금 무료잖아요.
성낙호 : 그거는 아직은 그렇게 큰 모델이 들어가 있지 않아요. 전 세계 사람이 쓰면 안 되겠죠. 아, 그리고 얼마 전에 삼성전자랑 저희가 가속 디바이스 만드는 작업을 시작을 했어요.
심재석 : 그 제휴는 어떤 맥락이에요?
성낙호 : 결과적으로 AI가 커진다는 거는 핵심 부품 중에 메모리가 중요하다는 걸 알게 됐어요.
심재석 : 왜 메모리죠?
성낙호 : 네트워크가 크잖아요. 그 네트워크를 어디다 저장해야 된다는 거죠. 어딘가 저장돼 있어야 되는데, 성능 때문에 그게 메모리에 있어야 되고, 메모리가 더 빨라져야 이게 성능이 빨리빨리 나오는 건데, 그거의 핵심 기술을 갖고 있는 게 삼성전자죠.
하정우 : 값싸고 굉장히 속도가 빠른 큰 메모리가 있어야 이 사업 운영비가 낮아지는 거죠.
심재석 : 보통 GPU가 좋아야 된다, 이렇게 생각을 하잖아요?
하정우 : GPU는 범용이잖아요. 범용이라는 얘기는 효율성이 높다는 얘기는 아니거든요. 굉장히 파워풀하지만 비싸요. 이 GPU를 적용해서 쓴다는 얘기는 운영비가 비쌀 수밖에 없다라는 뜻이죠. 성능이 나쁘다는 얘기가 아니라 운영 효율성이 상대적으로 낮은 상황이고, 비싼 돈 내면서 운영하고 있다라는 건데, 이 운영비를 떨어뜨릴 수 있는 방법을 삼성전자랑 같이 찾겠다라는 거죠. 모델이 커지면 커질수록 GPU라는 도구를 씀으로써 발생하는 운영비가 계속 부담으로 돌아오게 될 테니까요.
심재석 : 좀 전에 말씀하신 유료화, 서비스화, 이런 것들은 어느 시점 정도를 생각하고 계세요?
성낙호 : 이미 작년부터 마이크로소프트가 시작을 했다고 보고, 올해 되게 많이 나오고 있어요. 올해 아마 엄청 나올 거에요. 저희도 좀 냈으면 좋겠는데, 그럴려면 엄격함을 좀 버려야 해요. 정부 분들께 계속 부탁드리는 건데, 생성 AI의 문제가 있는데, 틀릴 수 있어요. 틀릴 수 있는데, 우리나라 분위기가 틀리는 거에서 되게 엄격한 게 있어서…
심재석 : 이루다 사태처럼?
하정우 : 이루다는 조금 다른 이유로 많이 혼나긴 했는데, 저는 챗GPT 등장이 오히려 굉장히 다행이라고 생각하는 면도 있어요. 초거대에 관심 없던 사람들도 관심을 갖게 됐고, 써보니까 ‘틀릴 만도 하네’라는 걸 깨닫게 된 것 같아요.
성낙호 : 그 부분이 사회 전반적으로 퍼져야 저희도 챗GPT 같은 서비스를 낼 수 있어요. 지금은 하이퍼클로바를 개인이 쓸 있을 수가 없어요. 다 모니터링을 해야하는 것 때문에… 모니터링이 좀 더 완화돼야 돼요. 완화되면 더 많은 걸 시도할 수 있고, 많은 서비스가 나올 수 있거든요.
심재석 : 쉽지는 않을 것 같아요. 만약 거기서 틀린 정보가 나와서 누군가가 문제가 생긴다거나 그럴 수도 있고.
하정우 : 그런 게 걱정이 되는 거죠. 거기에 대한 면책이라고 할까, 기본적으로 얘는 틀릴 수 있다는 걸 알고 있어야 해요.
성낙호 : 챗GPT에 들어간 코드 같은 경우도 지금 소송 걸려있는 상태거든요. 몇 조 단위의 소송이 걸려있는 상태인데 지금 하고 있는 거예요. 마이크로소프트 법무팀이 정말 열심히 일하고 있겠죠?
심재석 : 그럼 네이버도 법무팀한테 책임을 넘기고…(웃음)
하정우 : 우리나라의 전반적인 정서가 일반적으로도 약간 보수적으로 판단하는 것 같아요. AI는 계속 새로운 거를 탐색해 나가야 되고 새로운 시도를 해서 고쳐나가야 되는 건데, 그런 부분들이 조금 어려움이 있죠.
AI의 규제는 어떻게?
심재석 : AI가 발전할수록 두려움도 생기는 거 같아요. “이거 진짜 나중에 인간이 쓸모 없어지는 거 아니야?”라는… 좀 전에 말씀하신 그런 규제나 이런 것도 인간의 두려움이 원인일 수도 있을 거 같은데 어떻게 생각하세요?
하정우 : 두 가지일 것 같아요. 하나는 기존 레거시 이슈가 있을 것 같아요. 예를 들어 변호사들은 기존의 사건 정리하는 업무가 많대요. 이런 건 랭기지 모델이 진짜 잘하거든요. 레거시 입장으로만 보면 AI를 거부하게 될 겁니다.
저희 입장은 좀 달라요. 예를 들어 칼은 사람을 찌를 수도 있고 사람에게 도움을 줄 수도 있죠. 이 칼을 이용해서 어떻게 사람에게 도움을 주게 할 것인가를 고민을 해야지, 칼이 사람을 해칠 수 있다고 앞으로는 칼을 사용하지 맙시다고 하는 게 현명한 의사결정인가?
전 세계에 나라가 우리나라밖에 없으면 그게 괜찮을 수도 있어요. 그러나 남들은 다 하는데 우리만 안 한다면, 그냥 기술 종속 가는 거죠.
성낙호 : 이런 사례는 역사적으로 되게 많았잖아요. 적색깃발법도 있고, 러다이트 운동도 있고… 말씀 드렸듯 지금 AI 트렌드에서 저희가 세계에서 한 세번째로 가고 있습니다. 중국 빼면 두번째잖아요. 그럼 되게 좋은 기회예요. 저희가 이미 다 제품화도 해놨고, 다른 스타트업도 들어올 수 있게 플랫폼도 해놨기 때문에, 이걸 기반으로 여러 가지 제품을 만들 수 있어요. 이런 걸 계속 말씀을 드리는 게 참 힘드네요.
하정우 : 이걸 들고 글로벌로 나갈 수 있고, 동남아 유럽 이런 데는 우리 시장을 만들 수 있거든요.
심재석 : 지금 기술적으로는 준비가 다 됐는데 사회적 분위기나 규제, 이런 것 때문에 지금 상용화를 못 시키고 있는 상태라는 건가요?
하정우 : 그런 것 같아요. 이게 풀려야 더 기술적으로 진보할 수 있는 것도 있거든요. 지금 챗GPT가 엄청 잘하는데 이 녀석이 들어온 데이터로 계속 다시 학습을 하고 있어요. 계속 진화할 수 있는 파이프라인이나 프레임워크를 만드는 게 중요한데 저희는 그걸 만들기가 아직은 부담스러운 거예요. 여러 가지 사회 분위기 등등의 이유로…
심재석 : 대표적으로 그런 거부감이 드는 게 윤리 문제 이런 얘기 많이 하잖아요. 그런 것들은 기술적으로 제어나 커버가 가능한가요?
하정우 : 100%는 당연히 안 되죠. 100%는 힘든데 할 수 있는 최선의 준비는 저희도 이미 하고 있어요. 서울대 법학 인문학 교수님들과 카이스트 교수님들 등이랑 같이 논의하고 있어요. 협의체를 만들어서 AI가 좀 더 착하고 윤리적이 되려면 어떤 것들을 평가를 해야 되는지, 어떤 데이터를 구축을 해야 되는지 등 기준을 만들고 있어요. 공개는 아마 시간이 좀 걸릴 것 같기는 합니다만 연내로 되지 않을까 생각하고 있고요.
그런 준비는 준비대로 하는데, 그것만 끝이 아니라 아까 말씀드렸듯 AI는 아직 미완성 단계에 있기 때문에 이거를 내보내서 피드백을 받아가면서 같이 계속 개선을 해나가야 되는 거예요. 윤리도 마찬가지예요. 다음 단계로 나가려면 일단 무언가로 대답을 하면서 거기에 대한 피드백을 받아가지고 더 개선해 나가는 방향으로 가야 되는데 뭔가 서비스가 공개돼야 할 수 있는 거잖아요. 이 부분을 할 수 있는 공감대가 만들어지는 게 필요합니다.
성낙호 : 답답한 건 더 이상 AI가 그냥 신기한 게 아니라 생산성에 도움이 되기 시작했단 말이에요. 이거를 그냥 막아 놓으면 생산성이 저해되는 거니까 그 관점에서는 되게 시급하죠.
또 챗GPT를 보면 한국어 생성은 느리잖아요. 영어로 하면 훨씬 빨라요. 아마 상용화 되면 가격은 미국과 한국이 같을 거잖아요. 이건 한국사람이 더 비싸게 쓰게 되는 결과에요. 한국인이 기술 세금을 더 많이 내는 구조죠.
하정우 : 같은 서비스라도 수요가 더 많은 영어 쪽에 더 비싼 장비를 붙일 거고 한국어는 수요가 적으니까는 느린 장비를 붙일 거고, 한국어 사용하는 우리는 답답하겠지만 가격은 똑같을 거고.
심재석 : AI를 두려워하는 이유 중 하나는 ‘블랙박스’ 문제도 있어요. AI가 왜 그런 결론을 내리는 지에 대해서 인간은 이해할 수 없다고 하잖아요. 알파고가 왜 그렇게 바둑을 두는지 인간은 모른다고.
성낙호 : 그것도 옛날 얘기인 것 같은데, 언어 모델이 커지면 AI한테 물어보면 이유를 답할 거예요.
심재석 : 너는 왜 이렇게 결론을 내렸니?
성낙호 : 사람도 사실 뉴런이 어떻게 작동하는지 모르잖아요. 논리적으로 논쟁이 되면 상관 없는 문제라고 봐요.
하정우 : 중요한 건 이제 ‘AI를 어떻게 활용을 해서 살아가는 게 사회 경제 발전에 도움이 되느냐’에 대한 담론을 얘기를 해야지 ‘AI를 씁시다 맙시다’에 대한 담론은 사실상 의미가 없다고 봅니다.
심재석 : 쓰는 거는 디폴트다? 최근에 중국에서 프로바둑 기사가 대회에서 AI를 컨닝했다는 논란이 있었는데요.
하정우 : 지금처럼 바둑 경기를 하는데 AI의 도움을 받게 할 수도 있어요.
심재석 : 세 수는 AI한테 물어봐도 된다, 이런 식으로?
하정우 : 그런 논의가 차라리 생산적이죠. 좀 더 잘 활용을 할 수 있는 걸 논의를 하는 게 맞지 않나 싶은 거죠.
성낙호 : 아까 말한 설명 가능한 AI, 신뢰 가능한 AI 같은 것들도 현재로서는 안 되지만 점점 되는 게 보여요. 윤리 이슈도 이미 다 회피하는 것들이 보이고.
하정우 : 사실 블랙박스라고 얘기하는 게 물리적이나 수치적으로 뜯어보는 게 어려워서 그렇지, 사람 레벨에서 뭐가 어느 정도 영향을 주고 하는 기술들은 점점 올라오고 있거든요. 그쪽 문제를 해결하기 위한 여러 가지 방법들은 제가 볼 때는 연구로 풀 수 있을 거라고 생각을 해요. 그걸 기다려야 된다고 생각을 해요
성낙호 : 알파고도 설명 가능성을 같이 학습한 모델을 만들 수 있어요.
심재석 : 그럼 바둑중계하는 AI도 만들 수 있겠네요.
성낙호 : 데이터가 다 있으니까 할 수 있겠죠.
심재석 : 여쭤볼 건 많은데 인터뷰 시간이 부족해서 제가 되게 마음이 급해지네요. 네이버는 초거대 모델로 이미지 생성이나 이런 것도 계획이 있으신가요?
하정우 : 연구는 하고 있습니다. 스테이블 디퓨전이 나옴에도 불구하고, 비즈니스적으로 어떤 가치를 만들 수 있을까가 좀 고민이긴 해요. 그래서 아직은 연구 단계입니다.
심재석 : 스노우 이런 데에 붙이면?
하정우 : 스노우에 붙인다고 해도 ROI(투자대비성과)가 나와야 되잖아요. 스노우에 붙이기 위해서 엄청나게 경량화를 시켜야 될 거고, 사람들이 자기 사진이니까 눈높이가 굉장히 높아지거든요. 렌사AI 같은 게 있기는 한데, 이게 정말 지속 가능한 비즈니스 모델이냐고 물으면 아직 의문이에요. 잠시 반짝할 수도 있죠. 스냅도 그랬고. 그런 고민을 당연히 저희는 하죠.
성낙호 : 거꾸로 이해 관점에서 관심이 많이 있어요. 정보가 다 글로 써 있는 건 아니거든요. 그림으로 있는 것도 있고 동영상에도 있고. 이해의 확장은 필요하다고 보고 있습니다.
심재석 : 이해한다는 건 그림을 보고 텍스트로 설명할 수 있는 AI를 만드는 건가요?
하정우 : 입력이 뭐가 됐든 텍스트로 얘기를 할 수 있는 거죠.
성낙호 : 사진 보여주면 AI가 얘기할 수 있죠.
심재석 : 번역에도 초거대언어모델로 생성하는 게 쓸모가 있겠죠?
성낙호 : 번역은 엄청 잘 됩니다. 번역은 저희가 지금 테스트해 본 거로는 노랫말 번역도 라임이 딱딱 맞아요.
심재석 : 지금 파파고에 그게 들어간 건 아니죠?
성낙호 : 아닌데, 들어가게 해야죠
심재석 : 파파고를 보면 앱으로 번역하는 거하고 웨일 브라우저에서 웹페이지 번역하는 거 결과가 다르거든요. 웨일 브라우저 번역이 좀 떨어지던데.
성낙호 : 트래픽 많은 것들을 좀 더 싼 걸 쓸 수밖에 없습니다.
성낙호 : 아까 말씀 대로 다 비용 문제고요. 좋은 거 하면 다 좋을 텐데, 그러면 무료 서비스로는 어려워요. 돈을 벌려고 그러는 게 아니라 원래 비용이 많이 드는 구조라서.
심재석 : 저작권 문제도 이슈가 큰 거 같아요. 예를 들어 이미지를 학습할 때 비용을 제대로 내느냐, 이런 문제요.
성낙호 : 그래서 지금 학습 데이터에서 빠질 권리를 주장하는 분들이 생기고 있죠.
하정우 : 논의가 되려면 우선 학습 데이터의 지재권을 보장해주는 게 맞느냐에 대해 논의가 돼야 하고, 지재권을 챙겨주는 게 맞다고 하면 이 모델에 얼마만큼 기여를 했느냐 정량적으로 잘 평가할 수 있어야 합니다.
성낙호 : 예를 들어 어떤 미술 전시회를 많이 간 화가가 있어요. 그 전시회에서 영감을 받아서 그림을 그려서 팔았어요. 이 화가가 처음 미술전시회 쪽에 지재권료를 내야 하느냐, 이런 문제랑 비슷한 거 같아요.
심재석 : 이런 문제가 어떻게 결론이 나야 한다고 생각하세요?
성낙호 : 생태계가 커질 수 있는 방향이라면 비용을 낼 수도 있다고 생각해요. 전체를 대변할 수 있는 단체가 있다면 거기랑 계약을 할 수 있으면 되겠죠.
심재석 : 음제협(한국음원제작자협회)나 음저협(한국음악저작권협회) 이런 데처럼?
하정우 : 저희 입장에서는 어느 정도 프로토콜이 잡히고, 생태계가 발전할 수 있는 방향이면 ‘와이낫’이예요. 그런데 하지 마라, 이렇게 되면 생태계가 발전을 못하죠. 이거를 특정 회사만 할 수도 없고 정부만 해서 될 일도 아니고 좀 논의를 해야 되는 게 아닌가 싶은 거죠.
심재석 : 이거는 기술자들이 해결할 수 있는 문제는 아니네요. 마지막 질문을 드릴게요. 결국은 자본 경쟁이라고 했는데, 네이버가 아무리 잘한다고 해도 구글이나 마이크로소프트의 자본력을 이길 수 있을까요?
하정우 : 세계에서 구글 검색이 못 먹은 나라가 3개 있었어요. 러시아 얀덱스는 이제 많이 밀렸고, 중국은 정부가 막아주죠. 구글 검색이 못 이기는 시장은 우리나라뿐입니다. 비단 언어 장벽만의 문제는 아닌 것 같아요. 네이버는 항상 돌파구를 만들어 왔던 것 같아요. 이번 초거대 AI도 마찬가지일 것 같아요.
우리나라의 시장 사이즈가 굉장히 크다면 얘기가 좀 다를 수도 있죠. 근데 구글 입장에서 봤을 때 굉장히 매력적인 시장이냐라고 물으면 사이즈가 그렇게 크지 않거든요. 그러면 적당한 퀄리티의 어떤 걸 만들 거예요. 그렇게 되면 우리나라 사용자들 입장에서는 슬픈 스토리가 되겠죠. 저희는 당연히 최선을 다해서 고품질의 서비스를 만들 거고 그런 관점에서 봐주시면 될 것 같아요.
심재석 : 그러나 반대로 한국 시장만 가지고 네이버가 잘 먹고 잘 살 수 있는 시장 규모는 아니잖아요.
하정우 : 여기서 만든 여러 가지 기술적, 서비스적 사업적 노하우를 들고 당연히 동남아 이런 데 갈 수 있죠. 저희가 미국에서 웹툰 같은 콘텐츠도 하고 있고, 포시마크 같은 C2C도 있잖아요. 그런 데에 녹여 넣을 방법을 당연히 만들어야죠.
성낙호 : 한국에서 만든 서비스를 갖고 역으로 수출하는 건 가능하기 때문에 여기서 많은 인큐베이팅이 일어나야 된다고 생각하고 있어요.
하정우 : 그리고 사실 일본어는 저희가 잘 만들거든요. 그러면서 미-중의 애매한 영역에 있는 글로벌 시장들이 또 있어요. 그런 영역들은 틀림없이 저희도 경쟁력이 있을 거라고 생각을 하고 있습니다.
성낙호 : 일본에서 AI 퀄리티는 구글보다 저희 게 다 높아요.
심재석 : 알겠습니다. 말씀 감사드립니다.
[무료 웨비나] API연결만으로 가능한 빠르고 쉬운 웹3 서비스 구축
- 내용 : API 연결을 통해 웹2와 웹3를 끊김 없이 연결하는 최신 융합 기술과 이를 통한 적용 사례를 다룹니다.
- 일시 : 2024년 10월 10일 (목) 14:00 ~ 15:10
검색시장에서 구글이 네이버를 이기지못한것은 네이버가 잘해서 그런가요 ?
방어만 생각하시나요 ?. 세계시장을 정복하지못하는것은 자멸할뿐입니다.
구글이 한국시장을 이기지못하는것은 한국어 코드가 세계와 다른 코드를 만들어 쓰기때문에 독특하게 사용해서 한국어 때문에 별도로 만들어 쓰려는 생각은 시장도 아직 벅어 관심을 덜 둘뿐입니다. 세계시장을 끌기에는 자본력이 부족해서 못하나요 ?
이기는 방법을 우리는 가지고있어요. 한류도 동참하고있는데 무었이 가능하게 하는지 고민해보시지요. 데이터센터 불이나서 관리도 못하는 수준으로는 한계로만 보입니다.
IT 강국이 왜 미국에 밀리는지 반성하세요.
이미 국내도 구글이 점유율 턱밑까지 쫒아왔는데
그나마 그 방어도 제대로 못하고 있음 ㅋㅋ
기사 제목: 네이버의 생성AI는 챗GPT가 안 부럽다
기사 내용: “오픈AI가 지금 이번에 챗GTP 만들면서 끌어올린 게 있거든요. 그만큼은 저희가 아직은 못 따라간 것 같지만, 곧 따라갈 예정입니다.”
뭐 하자는 겁니까?
람다가 1위인데 순위도 파악못하네 gpt는 람다의 발바닥 수준도 안됨 애당초 gpt의 기본 이론자체가 구글이 만들었는데
그리고 이미 검색은 구글한테 사실상 다 먹히고 쇼핑 카페같은 컨텐츠로 연명하고 있는데 무슨 구글을 ㅋㅋ
그렇게 자신했던 뤼튼은 챗GPT보다 글을 못쓰고 있고…
클로바는 철지난 포즈나 디텍션 미국은 공짜로 뿌리는데 안달인데 인퍼런스비용이랍시고 받고 있고…
제가 볼때 네이버는 직원들은 문제가 없어요 BM 만드는 사람들이 잘못됬지…
챗GPT 처럼 크라우드 워커들 써서 데이터 파인튜닝만 잘해도 돈으로 충분히 고성능 뽑을 수 있을 것 같은데 그런 큰 비용은 투자 못하는게 아쉽네요 ㅠ
네이버가 진짜 AI는 기가막히게 잘하는데~~ 사업화가 너무 아쉽다
이랬든 저랬든 네이버 AI가 chatgpt보다 시장성 없는 건 사실 아닌가.
네이버 검색에 감동했던 적 없는데?