|

카카오 AI 리더가 바라보는 챗GPT와 생성AI

외부에는 많이 알려져 있지는 않지만 카카오에는 AI 개발을 전문으로 하는 계열사인 ‘카카오브레인’이 있다. 카카오브레인은 초거대 모델을 기반으로 생성 AI를 주로 개발하는 연구집단이다. 챗GPT와 달리(Dall.E)를 만든 오픈AI와 비슷하다고 할 수 있다.

챗GPT나 달리처럼 유명하지는 않지만 카카오브레인도 생성 AI 분야에서 많은 성과를 보여줬다. 최근에는 카카오브레인의 이미지 생성 AI ‘칼로’가 만든 이미지가 경제 잡지 ‘포춘 코리아’ 표지 면을 장식하기도 했고, 시 쓰는 AI 모델 ‘시아'(SIA)는 시집을 출간하기도 했다.

챗GPT가 인기를 끌면서 국내 테크 기업들의 AI 현황이 궁금해졌다. 카카오브레인 백운혁 백운혁 카카오브레인 리서치 총괄 디렉터로부터 카카오브레인이 바라보는 생성 AI와 기술 현황, AI의 미래 등에 대해 이야기를 나눠봤다.


심재석 : 카카오 브레인에서는 어떤 일을 하고 계시나요?

백운혁 : 전체적인 연구 방향성이나 연구 주제 협의 등을 진행하고 있고, 연구자분들이 연구를 진행할 때 불편함을 느끼거나, 문제가 되고 부분을 직접적인 해소하는 역할을 많이 하고 있습니다.

심재석 : 오늘 인터뷰 주제는 생성 AI입니다. 생성 AI라는 걸 어떻게 바라보고 계신지 독자들한테 소개 부탁드려요.

백운혁 : ‘생성’이라는 단어가 이름에 들어갔듯이 기존에 존재하거나 존재하지 않는 것을 만들어내는 모델이라고 봐주시면 됩니다.

심재석 : 기존의 AI는 생성을 하지 않나요?

백운혁 : 이전 세대 AI는 기본적으로 판단을 하거나 의사 결정을 돕거나, 있는 정보를 분석해 주는 역할이 강했던 반면, 최근에 주목받고 있는 생성 모델들은 기존에 없던 것을 만들어내거나, 혹은 있는 것들을 잘 조합해서 새로운 것을 보여주는 모델이라고 생각하면 됩니다.

심재석 : 챗GPT같은 AI는 기존에 존재하는 데이터로 학습을 하잖아요. 학습한 텍스트 데이터도 누군가가 쓴 글일 텐데, 학습한 데이터 중 AI가 적당한 표현을 가져오는 건 아닌가요?  그렇다면 ‘생성’이라기 보다는 ‘선택’이 아닐까라는 생각도 드는데…

백운혁 : 저희도 그 부분에 대해서 의문이 있었어요. 학습된 데이터에서 가지고 오는 건 아닐까라고 생각을 했어요. 그래서 실제 가지고 있는 데이터가 얼마나 재현되는지 확인을 하고 있는데, 동일하게 재현되는 케이스는 거의 없다라고 보면 됩니다.  일단 저희가 시도해본 횟수 안에서는 학습 데이터가 그대로 재현되는 케이스는 발생하지 않았어요.

그리고 기존에 사람들이 흔히 다루지 않는 두 가지 주제를 동시에 하나의 글로 작성하도록 해봤는데, 두 가지 주제 사이에 연결되는 부분이 있을 거잖아요? 첫번째 주제에서 두번째 주제로 넘어갈 때를 보면 생뚱맞게 그냥 A를 말하다가 갑자기 B를 말하는 게 아니라, 두 주제를 잘 연결시킬 수 있는 연결점까지도 만들어냅니다. 일단 기존에 있던 정보나 문장을 그대로 가져온다기보다는 만들어내고 있다고 판단하고 있습니다.

심재석 : 만들어내는 원리는 뭘까요?

백운혁 : 완벽하게 원리를 알고 있는 사람은 아직 없다고 생각합니다. 지금 모두 이 AI가 어떻게 동작하는지, 어떤 과정을 통해서 이런 생성을 하는지 역으로 분석을 해서 ‘이렇게 생성되는 거 아닐까’를 연구하고 있는 단계입니다.

심재석 : 챗GPT에 대해서는 어떻게 평가하고 계세요?

백운혁 : 일단은 기술적으로 큰 변화가 있거나, 완전히 새로운 것을 만들었다고 보기는 어려운 것 같기는 해요.

심재석 : 뭐와 비교했을 때요?

백운혁 : 기존에 있던 GPT나 언어모델들, 많은 연구자들이 진행해왔던 연구들이 있잖아요. 그 연구의 범위에서 크게 벗어나 있지는 않은 것 같아요. 오픈 AI가 챗GPT의 방식에 대해서 공개하진 않았지만, 유추해 볼 때 새로운 돌파구를 마련했다기보다는 기존에 있던 방법들을 잘 조합해서 더 많은 데이터와 더 많은 컴퓨팅으로 해결한 게 아닐까라고 추측하고 있습니다.

다만 기술적으로 큰 변화가 없었는데도 체감적으로 느껴지는 효용성의 변화는 매우 크죠. ‘챗GPT는 이런 변화를 어떻게 만들어냈는가’가 저희 카카오브레인이 집중하고 있는 포인트입니다.
심재석 : GPT-3 같은 걸 흔히 초거대 AI라고 하고, 카카오브레인도 초거대 모델을 만든다고 하는데, 초거대의 기준이 뭘까요? 얼마나 커야 하는지…

백운혁 : 연구자마다 생각하는 바가 다르긴 하겠지만, 저희 카카오브레인에서 내린 정의는 명확하게 있습니다. 기존의 AI는 데이터에 레이블링(Labling, 컴퓨터가 학습할 수 있도록 사람이 데이터에 정답지를 만드는 작업)을 했잖아요. 레이블링 하는 국가 사업이 진행되기도 했고…

저희는 이런 게 초거대 이전 시대의 이야기라고 봅니다. 사람이 레이블링 해서는 만들 수 없는 규모의 데이터를 확보하고, 데이터의 양을 통해서 데이터의 질 문제를 해소하겠다라는 접근 방식이 초거대라고 저희는 판단하고 있습니다.

심재석 : 흔히 개와 고양이를 구별하는 프로그램 만드는 예를 들잖아요. 사람이 개와 고양이 이미지를 보면서 “이건 개, 이건 고양이”라고 일일이 구별해 주는 것이 레이블링인데, 그런 과정 없이 학습을 하는 게 어떻게 가능하죠?

백운혁 : 카카오브레인에서 작년에 ‘이미지-텍스트 쌍 데이터 세트’를 공개했는데요. 그게 한 7억9000만 장 정도 되거든요. 7억9000만 장의 이미지를 사람에게 주고 여기에 개가 있는지, 차가 있는지, 고양이가 있는지, 하나하나 레이블링 해줘 라고 하는 건 불가능한 영역이죠. 돈이 많고 시간이 많다면 가능할지도 모르겠지만, 저희는 그건 불가능의 영역이라고 보고 있어요.

대신 “그냥 사람들이 일상적으로 만들어내는 데이터를 수집해보자”는 방향으로 바뀌었다고 생각하면 됩니다. 인터넷에 일반적으로 사진을 올리고 글도 올리고 하잖아요. 잔디밭에서 강아지와 고양이가 뛰어노는 사진을 올리고 “강아지나 고양이들이 뛰어놀고 있어” 혹은 “여기 잔디밭이 예쁘네”라고 글을 쓰잖아요. 물론 “여기에 개가 있고 저기에 고양이가 있어”라고 쓰는 건 아니지만 상황에 대해 다양한 방식으로 표현하거든요. 그런 데이터를 대량으로 수집하고 비슷한 패턴을 찾아보면, 강아지가 있는 사진과 고양이가 있는 사진을 AI가 스스로 배우게 만들 수 있다, 라는 관점이에요.

심재석 : 그런데 고양이 사진을 놓고, “나는 개가 더 좋아”라고 쓰는 경우도 많을 거 같은데요?

백운혁 : 맞아요. 저희가 실제로 데이터 수집하면서 가장 많이 겪었던 문제예요. 근데 반대로 저희는 그게 문제가 아니다라고 정의를 했어요. 고양이 사진을 넣고 “개다”라고 쓰시는 분이 존재하긴 합니다. 그런데 저희 7억9000만 장 이미지 중에 고양이 사진에 개라고 레이블링된 건수를 보면 한 몇 만 건이 돼요. 그런데 개라고 하고 개라고 사진을 올리신 분의 사진은 수십만 장이 되는 거죠.

통계적으로 봤을 때, ‘틀린 레이블이 있을 수 있다’ 라는 식으로 접근을 하고 있어요. 그러니까 저희는 정답이 항상 틀릴 수 있고 이 노이즈를 최소한의 영향으로 학습할 수 있는 방법들을 연구 개발하고 있어요. ‘일부 사람이 개를 고양이라고 불러도 상관없어’ 라는 식이죠. 근데 반대로 언젠가 사람들이 고양이 사진을 놓고 다 개라고 부르면, 우리 모델도 개라고 레이블링 하겠죠.

카카오브레인 백운혁 리서치 총괄 디렉터

카카오브레인은 어떤 회사

심재석 : 그러면 이제 카카오브레인에 대해서 이야기 해볼게요. 카카오브레인은 AI 회사라고 알고 있는데, 구체적으로 어떤 걸 만드는 회사인가요?

백운혁 : 카카오브레인은 AI를 기반으로 유저에게 가치를 주는 회사라고 생각을 하고 있고요. AI의 인프라부터 데이터, 모델 개발까지 다 자체적으로 해소를 하고 있고, 이렇게 개발된 모델을 앱이나 웹을 통해서 고객에게 서비스까지 만드는 회사입니다.

심재석 : 연구소 기업인가요? 아니면 고객 서비스를 통해 매출까지 일으키려는 회사인가요?

백운혁 : 초기에는 연구소에 가까운 모습이지만, 저희가 만든 모델이 효용성이 있는지 살펴보고 무엇을 더 연구개발을 해야 되는지 알아야 하기 때문에, 유저를 대상으로 서비스를 선보이고 있습니다. 만약에 그 서비스의 가치가 있다면 그 가치를 잘 살려서 매출을 내거나 사업적인 가치도 만들 수 있을 정도로 회사의 모습이 바뀐 것 같아요.

심재석 : 그럼 현재 고객에게 오픈되어 있는 서비스도 있나요?

백운혁 : 일반 이용자에게 오픈돼 있는 서비스는 하나 있어요. ‘비 디스커버’라고, 이미지를 생성해 주는 앱이 지금 런칭되어 있습니다.

심재석 : 달리(Dall.E)와 비슷한 서비스군요. 카카오브레인도 초거대 모델을 중심으로 연구하고 있는 걸로 알고 있는데, 지금까지 어떤 성과를 이뤘다고 볼 수 있을까요?

백운혁 : 저희 연구 인력이 타사 대비 많은 편은 아니거든요. 소수의 인력으로도 글로벌 수준의 논문을 계속 발표하고 있어요. 앞에서 말씀드렸듯 데이터셋 자체도 거의 8억 건 가까이 되는 수준을 오픈했어요. 이럴 수 있는 연구 집단이나 기업이 많지 않은 상황이거든요.

저희가 데이터셋을 자신 있게 오픈할 수 있는 건 남들이 쉽게 따라올 수 없는 장벽이 있다고 생각하기 때문입니다. 저희는 데이터 7억건에서 17억건, 170억으로 늘리는 게 시스템이 해주는 일이지 사람이 해주는 일이 아닙니다. 경쟁자나 다른 연구자들이라도 이 데이터를 접하고 같이 성장하면서 새로운 아이디어를 주면, 우리는 더 큰 규모로 더 시도해 보고 싶다, 이런 식으로 접근하고 있어요.

저희는 오픈 커뮤니티를 지향을 하고 있습니다. 리서치 조직 이름 자체도 ‘오픈 리서치’거든요. 논문 발표에서 끝나는 게 아니고, 대부분의 모델들을 공개하고 있어요. ‘비 디스커버’ 앱도 근간이 된 알고리즘에 대해서는 논문으로 냈고, 학습돼 있는 모델 자체도 공개되어 있어요.

생성 모델의 한계점이나 활용의 방안에 대해 저희가 갖고 있는 아이디어로는 한계가 있는 것 같아서 공개적으로 열어놓으면 더 많은 사람들이 아이디어를 보태줄 거라고 생각을 하고 있어요.

심재석 : 오픈AI 챗GPT가 난리잖아요. 현재 카카오브레인의 기술을 오픈AI와 같은 글로벌 레벨과 비교해서 판단하면 어느 수준이라고 보세요?

백운혁 : 저희 연구자분들이 어떤 부분에서 스트레스를 받는지 살펴보면 유추할 수 있을 거 같아요. 한 3년 전만 해도 오픈AI나 구글 딥마인드에서 논문이 나오면 정말 즐겁게 읽었어요. ‘아, 이런 식으로 접근하는구나’하고 읽었어요.

심재석 : 배우는 게 많으니까?

백운혁 : 네, 요즘에는 이런 논문이 나오면 ‘아쉽다’는 반응이 나와요. 왜냐하면  우리도 비슷한 아이디어로 거의 완성 단계에 왔으니까. 공개된 모델을 보면서도 예전에는 우리가 앞설 수 있을까, 아니 앞서야 하나? 하는 생각이 있었다면 지금은 어느 포인트에서 앞서야 하나에 대한 고민이 많아진 그걸 봐서는 그동안 많은 성장이 있었다라고 보여요.

기존에는 정답지를 보고 달려왔는데, 이제는 정답지가 공개되기 전에 꽤 많은 부분 따라와 있고, 심지어 정답지가 없더라도 우리가 돌파구를 만들어내고 있는 시점입니다.

심재석 : 생성 AI를 가지고 카카오브레인이 계획하고 있는 활용방안은 뭐가 있을까요?

백운혁 : 이런 질문이 연구자에게는 제일 어려운 질문인 것 같아요. 이게 사업적인 가치가 있느냐, 효용성이 있느냐, 이런 아이디어는 연구자에게는 없는 게 사실인 것 같아요. 그래서 항상 물어봐요. 저희 사업 개발팀 분들이거나 서비스 개발하시는 분들한테… “뭐가 필요하세요. 뭘 만들면 우리가 글로벌 탑이 될 수 있을까요.” 이런 것들을 많이 질문하거든요.
목표가 분명하면 연구하는 데 도움이 되는데, 그 의사결정을 연구자가 하기에는 한계는 분명한 것 같더라고요.

심재석 : 생각해 보면 오픈AI가 엄청나게 새로운 서비스 모델을 만든 건 아니거든요. 챗봇이라는 건 원래 옛날부터 있던 거고, 있던 서비스의 품질을 월등히 올려놓아서 사람들이 놀란 거죠. 그러니까 완전히 새롭지는 않아도 품질이 부족해서 사람들이 쓰지 않던 서비스가 있다면, 품질을 높여서 쓸모 있게 만들어줄 수도 있을 것 같아요.

백운혁 : 저희도 그래서 일단은 좀 사업모델보다는 연구에 집중을 하고 있습니다. 그래도 고민이 있는데요, 연구에도 유행은 존재하거든요. 우리가 그 유행을 거스를 것이냐, 함께 할 것이냐는 항상 논란이 되는 주제예요.

저는 유행을 함께 해야 한다고 말을 하거든요. 내가 혼자서 고민하고 노력하는 토픽이나 방법이 실제로 정답일 수도 있고 아닐 수도 있는데, 혹시 아니더라도 많은 사람들이 고민하고 많은 사람들이 시도를 해본다고 하면 결과물은 이쪽(유행하는 연구)이 더 빨리 성장할 수 있다고 판단을 하기 때문에요.

심재석 : 카카오 공통체에는 여러 회사가 있잖아요. 제가 알기로는 카카오엔터프라이즈에서도 AI를 하고 있고, 카카오 본사에서도 AI를 하고 있다고 알고 있는데요. 공동체 연구자들이 다 함께 모여서 하는 게 나을 거 같기도 한데, 계열사 간에 차이가 있을까요?

백운혁 : 일단은 공동체 안에 함께 있으니까 교류를 하거나 협업할 때 훨씬 편한 측면이 있습니다. 그런데 접근하는 방식이 약간은 다 다른 것 같기는 해요. 엔터프라이즈는 더 가시적으로 활용도가 높은 리서치를 많이 진행해 주시고 계시고요. 카카오브레인은 활용처가 아직 명확하지 않더라도 우리가 이쪽으로 계속 리서치를 하면 언젠가는 효용성 있는 것들을 만들 수 있을 거야,라는 생각을 하고 접근을 하고 있어요.

카카오브레인과 클라우드

심재석 : 초거대 모델 경쟁은 결국 자본 경쟁이라는 들었어요. 컴퓨팅 자원이나 GPU 등에 워낙 많은 비용이 들어가기 때문인데, 이런 문제는 어떻게 해결하고 있나요?

백운혁 : 일단 글로벌 플레이어와 같은 선상에서 싸울 수 없는 건 사실인 것 같아요. 저희가 구글과 협업하면서 인프라를 활용하고 있거든요. 그런데 구글도 우선순위가 자기네 거에 있겠죠.

그래서 저희도 브레인 클라우드라는 자체 클라우드도 가지고 있고, 인프라에 꽤 많은 리소스를 투자하고 있어요. 저희 연구자들에게 물어보면 사내 인프라를 훨씬 선호하세요. 카카오브레인 자체가 딥러닝과 초거대 모델을 만들자고 모인 사람들이고 브레인 클라우드는 그 사람들을 위한 시스템이죠. 구글에 있는 GPU는 범용성을 가지고 있는데, 저희 브레인 클라우드의 목적은 딱 하나거든요. 딥러닝 모델을 어떻게 더 빠르게, 혹은 어떻게 더 쉽게 잘 만들 수 있을까를 고민해서 만들어진 인프라 시스템입니다. 제가 봤을 때는 전 세계 어디에 있는 인프라보다 더 쉽고 빠르게 초거대 모델에 접근을 할 수 있는 시스템이라고 생각해요.

심재석 : 브레인 클라우드 규모를 수치적으로 이야기해주실 수 있나요?

백운혁 : 수치를 말씀드릴 수는 없지만 꽤 많은 양의 인프라를 가지고 있고 양이 부족하다고 생각되지는 않습니다.

심재석 : 부족하지 않은데 구글 클라우드를 따로 쓰시는 이유는요?

백운혁 : 구글을 썼을 때 비용 효율이 생기는 경우가 있거든요. 저희는 국내 데이터보다는 글로벌 데이터를 수집하거나 활용하는 경우가 많은데 해외 대역폭을 타다 보면 비용 문제가 발생할 때가 있습니다. 구글은 인프라가 글로벌하게 퍼져 있으니까 적절한 위치에서 활용하면 오히려 비용 효율이 발생하는 경우가 많아요.

카카오브레인이 생각하는 AI 윤리와 일자리

심재석 : AI가 발전하면서 우려의 목소리도 커지고 있어요. 윤리적인 문제도 대두되는데, 카카오브레인은 어떤 준비를 하고 있나요?

백운혁 : 저희가 데이터 수집부터 다 하는 이유가 윤리적인 문제 때문인 것도 있어요. 일반적으로 연구를 진행하면 직접 수집하지 않고 공개된 데이터로만 연구를 하거든요. 그런데 이 공개된 데이터가 생각보다 편향이 굉장히 심한 상황을 저희가 자주 겪었거든요.

모델 학습을 아무리 잘한다고 하더라도 데이터부터 잘 수집하지 않으면 근본적인 편향 문제를 해결할 수 없다고 판단을 했고요. 데이터 수집부터 사전 검열을 하고, 혹시 필터링 되지 않더라도 데이터 분석을 통해서 어느 정도 편향 비율이 있는지 이 비율이 어떻게 감소되고 최종 모델에 영향을 주는지 검토하고 있습니다.

지금 당장 해소됐다라고 말하기는 어렵지만, 데이터 수집부터 모델 서비스까지 다하니까 더 직접적으로 대응하고 더 근본적인 개혁을 만들 수 있습니다.

심재석 : 데이터 수집은 한국어만 하세요? 아니면 영어도 하세요?

백운혁 : 저희가 이미지 데이터를 공개한 거는 일단은 이미지와 영문만 공개를 했어요. 공개한 건 영문만 하긴 했는데 저희가 일단은 주로 관심을 가지고 있는 거는 일단 영어랑 한국어입니다. 아까 말씀드린 것처럼 사람이 개입하는 방식이 아니기 때문에 언어에 대한 확장에 대해서는 언제든 가능하다라는 생각을 가지고 있어요.

심재석 : AI 발전은 또 일자리를 없앤다는 공포도 일으켜요. 이런 공포에 대해서는 어떻게 생각하세요?

백운혁 : 저는 그렇게 크게 두려운 대상은 아닌 건 사실인 것 같아요. 우리가 AI에게 대체되기보다는 AI를 잘 활용하는 사람에게는 대체될 수 있어요. 그게 마치 AI에 대체된 것처럼 느껴질 수는 있겠죠.

심재석 : 최근에 챗GPT를 이용해서 하루에 수백 개의 블로그 포스트를 작성하는 사례를 봤어요. 이런 사람이 AI를 잘 쓰는 사람인가요?

백운혁 : 이런 말을 하면 어떨지 모르겠는데 장기적으로 트렌드가 될 것 같긴 해요. 저는 글을 잘 못 쓰다 보니까 블로그에 30줄 정도의 글을 쓰는 게 굉장히 어려운데, 이걸 AI한테 부탁하는 건 굉장히 쉽거든요. 그러면 대부분의 사람들이 쉽게 글을 쓰겠죠.

백과사전에서 자료를 찾던 시대에서 인터넷 검색으로 넘어가는 것과 비교할 수 있어요. 학교 숙제를 하려고 도서관 가서 백과사전에서 정보를 찾는 건 쉽지 않았잖아요. 반면 인터넷으로 정보를 검색하면 쉽게 정보를 취득할 수 있죠. 인터넷이 등장한 이후 사람에게 바라는 기대치는 필요한 자료를 가져오는 것만이 아니 거든요. 자료를 잘 정리해서 의견을 붙여서 전달하는 게 중요해졌죠.

AI가 발전해도 전 동일할 거라고 봐요. AI가 글을 잘 써주고 맥락을 잘 만들어주지만 이 만들어진 글이 나의 의도와 맞는가, 혹은 내가 하고자 하는 바가 맞는가에 대한 사람의 검증이나 확인 과정이 항상 들어갈 것 같아요. 그러니까 글을 쓸 때 서두의 인사말이나 맥락 정도는 AI에 맡기고 사람은 중요한 이야기를 쓰는 식으로 분담할 수 있다고 봅니다.

앞으로는 글쓴이의 의사를 어떻게 잘 전달할지, 논리를 어떻게 잘 전개해 나갈지가 더 중요한 문제로 바뀌지 않을까 합니다.

심재석 : 좀 전에 이야기한 블로그 수백 개를 하루에 쓰는 사례를 보면서 그런 생각도 들어요. 아무 글이나 그럴듯하게 써서 광고를 붙여서 수입을 얻고 싶은 사람이 있을 거에요. 마음만 먹으면 하루에 블로그 수천 개, 수만 개도 쓸 수 있잖아요. 이 글들은 웹에 공개되고 AI는 이 글을 수집해서 또 학습을 할 거란 말이죠.  이렇게 AI가 쓴 글을 AI가 학습하는 과정이 재귀적으로 반복되면 과연 AI의 품질이 좋아질 수 있을까, 라는 의문이 생겨요.

백운혁 : 일단 두 가지로 좀 나눠서 이야기 드리면 우선, 이미 기계적으로 쏟아지는 글들이 굉장히 많아요. 콘텐츠에 대한 관심은 없고 이걸 상업적으로 활용하기 위해서 생산되는 콘텐츠들이 생각하시는 것보다 훨씬 많을 거예요. 저희가 데이터를 수집하면서 드는 생각 중 하나는 ‘인터넷에 있는 데이터 중에서 80%는 쓰레기구나’라는 걸 느꼈어요. 이 중에서 양질의 데이터를 어떻게 발굴하고 그걸 학습에 녹여낼 것인가가 일단은 저희의 첫 번째 고민이었어요.

그리고 “이걸 재귀적으로 AI 학습에 활용하는 게 맞느냐”라고 물었는데, 실질적으로 현재 AI에서 많이 사용되고 있어요. 저희가 모델의 성능을 높이기 위해서 AI가 생성한 콘텐츠를 다시 AI가 학습을 하게 한다든지, 아니면 AI가 만들어낸 결과를 대량의 데이터에 반영시킨다든지, 이런 식의 접근을 하고 있어요. 어떻게 하면 이런 방식을 통해서 사람의 노력을 줄일 수 있을까에 대한 고민이 이미 많이 진행되어 왔고 앞으로도 계속 지속될 겁니다.
심재석 : 그런 재귀적 학습이 AI의 품질을 저하시키거나 그러지는 않나요?

백운혁 : 저하시킬 수도 있어요. 그런데 기계가 생성한 데이터 중에서 어떤 데이터들을 선별해야 되고, 사람이 만들어낸 데이터를 어느 정도 비율로 섞어야 되고, 그리고 학습을 할 때 나눠서 하는 게 좋을지, 혹은 함께 섞어서 하는 게 좋을지, 섞을 때는 어느 정도 비율로 섞어야 하는지 다양한 방법들이 시도되어 왔어요. 단순하게 적용하면 분명히 품질이 저하될 텐데, 지금의 방법들은 꽤 많이 고도화가 되어 있어서 품질이 점점 더 올라가는 방향으로 가고 있다고 생각해요.

심재석 : 범용 AI에 대해서는 어떻게 생각하세요? AI 연구자로서 가능한 영역이라고 생각하시나요?

백운혁 : 이 문제에 대해 고민을 많이 했어요. 영문으로는 ‘Generalized AI(일반화된 AI)’라고 하는데, ‘아, 용어가 다르겠구나’라는 사실을 깨달았어요.

예를 들어 과거의 개와 고양이 구별 모델은 개와 고양이 구별밖에 못해요. 그런데 지금의 AI 개-고양이뿐이 아니죠. 이런 점에서 범용적이죠. 생성 모델도 기존에는 정해진 스타일로만 생성했어요. 그러나 지금은 내가 원하는 스타일대로 생성하죠. 그런 점에서 범용적이죠.

연구자들이 범용적이라고 하는 건 기존과 비교해서 범용적이라고 하는 거고, 일반적 시각에서는 아직 갈 길이 멀다고 봐야죠.

심재석 : 그럼, 범용 AI가 앞으로 언젠가는 가능한 영역이라고 생각하세요?

백운혁 : 호기심을 가지고 계속 한다면 언젠간 가능하지 않을까요? 근시일 내는 어려울 거 같아요. 가장 큰 이유는 범용적인 AI가 효용성이 없어요. 친구 같이 이야기해주는 챗봇, 의사처럼 이야기해 주는 챗봇, 그림도 그려주는 챗봇 다 필요성이 다른데, 많은 돈을 들여서 얻어낸 결과 대비 효용이 있을까? 저는 이 범용성의 범주가 효용성 한계치까지는 급속하게 성장을 하긴 하겠지만, ‘사람의 영역까지 갈 것이냐’라고 하면 그 부분은 효용성이 좀 떨어지죠. 그건 호기심의 영역이거든요. 투자를 못 받을 거 같아요.

심재석 : 마지막 질문 드릴게요. 요즘 외신 보면 구글이 위험하다 이런 얘기 많이 나오잖아요. 챗GPT 같은 AI가 검색을 대체 가능할까요?

백운혁 : 이거는 근시일 내에 가능할 것 같아요. 챗GPT가 접근하는 인터페이스나 정리해주는 방식이 나쁘지 않다는 걸 보여준 것 같아요.

다만 챗GPT가 해결해야 할 문제는 있죠. ‘내놓은 답이 사실인가’, ‘이 답의 근거가 무엇인가’ 부분이 지금 비어 있어요. 챗GPT가 만약 “내가 이걸 근거로 이렇게 답했어”라고 설명해 줄 수 있으면, 검색에 많은 변화가 있지 않을까요?

다만 구글과 챗GPT를 비교하는데, 구글이 공개하지는 않았지만 챗GPT 못지 않은 언어 모델을 가지고 있다고 알려져 있죠.

심재석 : 그렇군요. 좋은 말씀 감사합니다. 오늘 인터뷰는 여기까지 하겠습니다.

백운혁 : 감사합니다.

4 댓글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다