|

생성 AI, 어디에서 와서 어디로 가는가


[생성 AI가 가져올 변화]

만약 역사학자가 IT의 역사를 기록한다면 2022년은 어떻게 기록될까? 그는 “2022년은 생성 AI의 해”라고 기록할 것 같다. 아마 “반대”라며 손을 들고 일어설 이도 많지는 않을 것이다. 2022년에 보여준 생성 AI 결과물이 놀랍기 때문이다.

2022년 4월에 이미지 생성 AI인 ‘달리(DALL-E) 2’가 처음 공개됐다. 텍스트를 입력하면 이미지를 만들어 주는 AI다. 달리2 이외에도 스테이블 디퓨전, 미드저니 등 이미지 생성 AI가 잇달아 등장했다. 이미지 생성 AI는 단순히 기술을 전시하는 수준을 넘어 실제 상용화에 성공했다. 데비언트아트나 칸바와 같은 온라인 크리에이티브 툴들은 이미지 생성을 하나의 기능으로 서비스하기 시작했다.

연말에는 오픈AI가 챗GPT(chatGPT)를 공개했다. 챗GPT는 사람처럼 대화를 하고, 에세이를 쓰고, 컴퓨터 프로그래밍을 하는 챗봇이다. 심지어 시를 쓰기도 하고, 노래 가사를 이용자의 요구대로 바꾸는 개사를 하기도 한다. 학생들의 숙제 리포트를 대신 쓸 수도 있다.

챗GPT의 등장은 환호와 우려를 동시에 불러 일으켰다. 예상보다 훨씬 더 빠른 기술의 발전에 환호하는 이들도 있지만, 새로운 기술이 기존의 법제도나 윤리와 충돌해 사회적 혼란이 야기되는 것을 우려하는 이들도 있다.

AI 생성 이미지. 콜로라도주 박람회의 연례 미술대회에서 우승을 해서 논란이 됐다.

생성 AI란 무엇인가

2022년 등장한 여러 이미지 생성 AI나 챗GPT는 ‘생성 AI(Generative AI)’라는 기술을 기반으로 하고 있다. 생성 AI는 단순히 기존 데이터를 분석하거나 분류하는 것을 넘어 새로운 콘텐츠를 생성할 수 있는 AI를 말한다. 이전 단어 시퀀스를 기반으로 다음 단어를 예측하거나, 이전의 이미지를 설명하는 단어를 보고 다음 이미지를 만들 수 있다.

반면 기존의 AI는 생성보다는 분류에 중심이 있었다. 개와 고양이 사진을 구별하는 것이 대표적인 사례다. 인간이 개와 고양이 사진에 라벨링을 하고, 기계가 그 라벨과 이미지를 학습하면 개와 고양이를 구별할 수 있었다.

생성 AI는 2014년 GAN(Generative Adversarial Networks)이라는 모델이 등장하면서 본격적으로 인기를 끌기 시작했다. 이전에도 VAE(Variational Auto-encoder) 등의 방법론이 있었지만, GAN이 생성 AI의 시대를 본격적으로 열었다고 볼 수 있다.

GAN은 생성하는 모델과 이를 판단하는 모델이 서로 경쟁하면서 실제와 가까운 이미지나 동영상, 음성 등을 자동으로 만들어내는 모델이다. GAN을 설명할 때는 위조지폐범과 경찰의 예시를 많이 든다. 위조지폐범은 최대한 진짜 같은 위조지폐를 만들어야 하고, 경찰은 위조지폐를 판별해 내야 한다. 둘이 적대적으로 활동함에 따라 점점 진짜와 같은 위조지폐가 만들어진다.

AI 이미지 생성기로 만든 이미지. “공장에서 춤추는 팬더(GTA 카툰 스타일)”

최근에는 확산(Diffusion) 모델이 각광을 받고 있다. 달리2나 스테이블 디퓨전이 바로 이 모델을 사용하고 있다. GAN보다 더 품질이 좋은 이미지를 생성한다는 평가를 받는다.

확산모델은 수채화 그릴 때 물통에 물감 한 방울 떨어지는 모습과 비유된다. 물감은 시간이 흐를수록 흩어져 물통 전체를 더럽힐 것이다. 확산 모델은 흩어진 물감을 원래의 한방울로 만들도록 학습시키는 모델이다. 데이터에 노이즈를 더해 더럽히는 과정을 학습함으로써, 역으로 노이즈가 가득한 데이터에서 노이즈를 제거해 나가는 과정을 배운다. 노이즈를 제거하는 과정은 곧 새로운 데이터를 생성하는 과정이 된다.

생성 AI와 초거대 언어모델

2022년 생성 AI 붐에 결정타를 날린 건 챗GPT의 등장이다. 어느날 갑자기 나타난 챗GPT는 많은 이들을 깜짝 놀라게 했다. 기존에 선보인 AI는 전문가나 IT 업계 종사자 사이에서만 화제가 됐었는데, 챗GPT는 일반인들까지도 생성 AI에 주목하게 만들었다. 학생들이 숙제 리포트를 챗GPT로 작성해서 내는 사례가 있다는 소식도 전해지고, 입사원서의 자기소개서를 챗GPT로 작성했다는 이야기도 나온다.

물론 틀린 정보를 그럴싸하게 이야기하는 경우도 종종 있지만, 챗GPT가 쓴 글이 말이 무슨 말이 모르겠다든가 문법에 영 어긋난다는 사례는 별로 없다.

오픈AI에 따르면, 챗GPT는 초거대 언어모델 GPT-3.5에 기반을 두고 있다. 초거대 언어모델(Large language model, LLM)이란, 수천억 개의 매개변수를 자랑하는 모델이다.  

오픈AI의 GPT 시리즈가 등장한 이후 AI 업계는 모델의 크기가 품질을 좌우한다는 사실을 깨달았다. 매개변수가 너무 많으면 비효율적일 것으로 생각했는데, 비효율적이더라도 기존에는 할 수 없던 일을 할 수 있게 된 것이다. 이후 웬만한 기업들은 모두 초거대 언어모델에 뛰어들었다. 오픈AI, 엔비디아, 마이크로소프트, 메타 등 글로벌기업부터 네이버, 카카오, LG, KT 등 국내 기업들도 마찬가지다.

초거대 언어모델의 확산은 ‘트랜스포머’라는 모델 덕분이다. 최근에 등장하는 초거대 언어모델은 대체로 트랜스포머에 기반을 두고 있다. 트랜스포머는 수학적 기법을 이용해서 멀리 떨어진 데이터끼리의 상관관계를 감지하는 방식이다. 기존에는 한 단어가 나오면 그 다음 단어나 그 앞 단어와의 상관관계를 파악했는데, 한 단계 진화한 것이다.

생성 AI가 무엇을 바꿀까?

지금까지 대다수의 사람들은 미래에 AI가 인간의 단순 반복 노동을 대체하고, 인간은 창의적인 일을 계속 하게 될 것이라고 예측했다. 그러나 이제 창의적 작업마저도 AI가 대체할 수 있다는 사실이 점차 증명되고 있다. 인간만 할 수 있을 것으로 생각했던 일들, 즉 글을 쓰고, 그림을 그리고, 음악을 만드는 일 같은 걸 AI도 할 수 있다.

미국의 IT 전문지 CNET은 AI가 작성하는 기사 꼭지를 편성했다. 사람들은 알아채지 못했다. 물론 단순 실험이었으며, 표절 논란이 발생해 더 이상 진행하지 않지만, 기자 업무의 일부를 AI가 대체할 수 있다는 사실을 보여줬다.

당분간 창의적 작업을 AI에게 100% 맡기기는 어렵더라도 AI의 도움을 받아서 업무를 진행하는 것은 활성화 될 것이다. 예를 들어 마케팅 문구를 작성할 때 AI에 도움을 요청하면, 생각지 못한 카피를 AI가 제시할 수 있다. 기사나 블로그의 일부를 AI에 맡겨볼 수도 있고, 사람들이 좋아하는 음악에 AI가 만든 한두 마디가 아무도 모르게 섞일 수도 있다. AI로 만들어진 이미지가 광고나 신문기사 이미지로 사용될 것이며, 컴퓨터 프로그래머가 AI의 도움을 받아 코딩하는 것은 일상이될 것이다. 지금도 프로그래밍 도우미 ‘코파일럿’이라는 서비스가 존재한다.

심지어 따뜻한 사람의 손길이 필요한 곳이라고 생각했던 분야에도 AI 서비스가 활용될 수 있다. 예를 들어 네이버는 AI 기반으로 ‘케어콜’이라는 서비스를 제공한다. 돌봄이 필요한 독거 어르신에게 AI가 전화를 걸어 안부를 묻는 서비스다. AI가 “허리 아픈 건 좀 어떠세요?”, “혈압약은 잘 챙겨드시고 계신가요?”라고 어르신에게 묻는다. 지역의 사회복지사들이 이런 서비스를 해왔었는데 인력과 비용 문제로 충분히 확장되지 못하는 문제가 있었다. 하지만 케이콜이 마치 사람처럼 어르신과 대화를 함으로써 도움이 필요한 상황을 파악한다.

AI의 발전속도는 예측하기가 힘들다. GAN, 확산 모델, 트랜스포머 등 획기적인 모델이 등장할 때마다 큰 발전이 있었다. 또 어떤 모델이 등장해서 AI 세상을 완전히 바꿔 놓을지 모를 일이다.

확실한 건 예상보다 속도가 빨랐다는 점이다.

생성 AI가 불러오는 이 변화를 정리하기 위해서, 마지막으로 네이버 하정우 AI 랩 소장의 말을 전한다.

“트랜스포머가 나왔을 때 갑툭튀(갑자기 툭 튀어나옴) 하면서 뚝 떨어진 느낌이었어요. 디퓨전(확산 모델)도 약간 비슷했고요. (AI 분야는) 정말 혁신적인 무언가 갑자기 나올 수도 있어요. 뭐가 나올지 몰라요.”

관련 글

첫 댓글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다