[까다로운 IT] 완벽하게 그림 그리는 AI, DALL﹒E 2 작동 원리

안녕하세요. 이종철의 까다로운 IT. 오늘은 현재 인터넷에서 가장 뜨거운, 앞으로 가장 뜨거워질 인공지능, DALL·E 2에 대해 알아봅니다.

여러분 이 이미지들 보셨나요? 보셨다면 이미 DALL·E 2가 뭔지 아시는 겁니다. 그림을 그려주는 AI죠. 그것도 아주 고해상도의 그림을 그립니다.

원래 AI가 그리는 그림은 이랬어요.

[무료 웨비나] 아이덴티티 보안 없는 보안 전략은 더 이상 안전할 수 없습니다

◎ 일시 : 2025년 7월 15일 (화) 14:00 ~ 15:30
◎ 장소 : https://bylineplus.com/archives/webinar/53537

어우씨.

그리고 사람을 그려달라고 하면 좀 이랬죠. 사실 오른쪽은 사람이 그린 겁니다.

이 DALL·E 2의 특징은 간단한 문구만 입력하면 그림을 만들어준다는 거예요. 입력창에 말을 탄 우주인이라고 쓰면 이런 이미지를 만들어주죠. 실내에 있는 모래사장 위의 피아노, 진주 귀걸이를 한 해달, 다른 차원으로 가는 수프, 핸드폰 보는 파라오. 그리고, 주식 하락장에서 슬퍼하는 곰. 완벽합니다.

이미지를 단순히 만드는 것에서 끝나는 게 아닙니다. 인-페인팅이라는 모드가 있어요. 기존에 자기가 그린 그림 위에서 새로운 사물을 다시 그려주는 거죠. 강아지 그림 위에 고양이라고 입력하면 강아지를 완벽하게 지우고 고양이를 그려줍니다. 모나리자 그림을 주고 모히칸 머리를 해달라고 하니까 해주네요. 특히 그림 질감, 이마 부분 디테일 완벽하죠. 이런 것도 가능합니다. 그림 하나를 주고 다른 앵글 그려주기. 화풍 그대로 묘사한 거 보이시죠.

다른 예시 한번 보실까요. 여기 수영장 있는 좋은 집 그림이 있죠. 여기 플라밍고를 놔둬 보겠습니다. 창밖을 클릭하니까 진짜 홍학이 나왔죠. 물에 비치는 거 보이시죠. 물을 누르니까 홍학 튜브로 변했습니다. 그것도 여러 가지죠.

미술관에 웰시코기를 놔둬 봅니다. 귀엽네요. 다른 곳에 놓으면? 그림에 완벽하게 들어갔네요. 화풍도 막 바뀝니다. 이걸 AI가 바로바로 해내는 거예요.

그러니까 화풍, 빛의 흐름, 현재 장소, 장소의 사물 이런 걸 다 파악하고 있다는 거예요. 이게 어떻게 가능한 걸까요?

이 DALL·E 2는 오픈 AI사에서 만든 AI고요. 요즘 초거대 AI란 말 많이 보셨죠. 왜 초거대냐면 다루는 데이터의 양, 매개변수-파라메터가 1750억개입니다. 사람이 평생 학습하는 양보다 크다고 하죠. 이게 왜 되는지는 저도 잘 모르겠습니다.

딥러닝은 원래 많은 이미지를 갖고 학습하거든요. AI 학습은 생각보다 주입식입니다. 엄청나게 많은 이미지·텍스트를 줘요. 그래서 이건 고양이다-이렇게 공부를 시킵니다. 이걸 계속 반복해주면 나중에는 지들이 알아서 이건 고양이구나 하면서 공부를 하게 돼요. 뇌의 방식을 따라 한 겁니다. 사람도 자기 자신한테 꾸준히 질문하잖아요. 그래서 적대적 생성 신경망이라고 공부하는 데 도움이 안 되는 데이터도 받아 가면서 타산지석으로 공부하기도 해요.

그러니까 좋은 데이터든 아니든 처리량이 크면 좋겠죠. 이걸 압도적으로, 초 거대하게 만든 게 초거대 AI, GPT-3입니다. 그런데 DALL·E 2의 성과가 압도적인 이유는 뭘까요?

자 여기서부터는 모르셔도 됩니다. 까다로운 IT 역사상 가장 어려운 내용입니다. 최대한 쉽게 설명할 텐데 그러다 보면 약간 안 맞는 부분이 나올 거거든요. 그때는 제가 틀린 겁니다. 한번만 용서해주세요.

이 DALL·E 2는 우리가 입력한 텍스트 – 임베딩을 거쳐서 프라이어 – 임베딩을 다시 거쳐서 디코더 – 그다음 이미지 생성으로 넘어갑니다.

그러니까 텍스트를 해석한 과정이 있고요. 이미지를 해석한 과정이 있고 이 두개를 대치시킨 거예요. 이 임베딩 과정은 CLIP이라고 부릅니다. 오픈 AI가 개발한 거고요.

클립은 아까 말한 대치 과정입니다. 그러기 위해서 이미지도 학습하고요. 텍스트도 따로 학습합니다. 예를 들어서 a hot summer in Daegu라고 하면 모든 단어를 따로 학습해서 맥락을 알도록 합치는 거죠. 다른 회사의 자연어 처리 과정과 비슷하고요. 자연어 처리의 결과물이 여러분이 사용하는 시리, 빅스비 이런 겁니다. 이미지 트레이닝은 아까 말씀드렸듯이 데이터로 학습합니다. 그 과정에서 레이블링, 그러니까 이름을 붙여주는 거죠. 두개가 다른 과정이 아니라 합쳐져서 대치하는 게 클립입니다.

프라이어는 자연어를 정리하는 과정이에요. 디퓨전 모델을 사용했는데 이 디퓨전은 흐림-이라는 뜻입니다. 이미지가 있어요. 이걸 계속 열화시켜요. 그럼 못 알아볼 수준까지 되겠죠. 이 과정을 모두 학습해서 거꾸로 못 알아보는 이미지에서 좋은 해상도 이미지까지 만들어내는 게 디퓨전 모델입니다. 영화에서 위성사진 확대하면 막 범인 보이고 그러잖아요. 그겁니다. 노이즈를 학습시키는 거기 때문에 반대로 적용하면 정확도가 올라가는 거예요. 계산기를 쓰는 고슴도치 이렇게 입력하면 프라이어 없으면 계산기 쓰는 사람과 고슴도치가 같이 나옵니다. 그런데 이걸 쓰면 고슴도치가 계산기를 쓰는 사진이 나오는 거죠.

디코더 과정은 이미지를 만들어내는 건데, 클립과 반대과정으로 작용합니다. 이미지를 분석해서 문장으로 바꾸는 거죠. 여기서 오픈 AI는 글라이드라는 모델을 추가합니다. 아까 그 디퓨전 과정으로 이미지를 고해상도로 만드는 거죠. 이때 글라이드, 클립, 텍스트를 함께 써서 결과 이미지를 만들어냅니다. 보통 다른 회사는 글라이드 성능이 부족하거나 클립 같은 과정 성능이 부족한 거예요. 그런데 이걸 둘 다 쓰니까 굉장한 이미지가 나오는 겁니다. 무슨 말인지 모르시겠나요? 저도 모르겠습니다. 하여튼 이것만 기억하세요. 클립이라고 이미지를 생성하는 아주 좋은 모델이 있고, 글라이드로 부르는 범인 잡아내는 좋은 고해상도 모델이 있는데 이것들이 아주 훈련이 잘됐다-이런 겁니다.

자, 우리가 DALL·E 2 체험해볼 수 있을까요? 없습니다. 안 시켜줘요. 우선은 연구자들 위주로만 체험을 할 수 있고요. mini DALL·E라고 해서 DALL·E 첫번째 버전보다 27배 작은 맛보기 서비스가 있거든요. 그건 지금 써볼 수 있어요. 제가 몇가지 실험을 해봤는데요.

해리포터와 친구가 된 볼드모트 눌러봤는데 친구가 안 됐네요. 흑화 전후 이런 느낌이네요.

화산 옆에서 밥 먹는 고양이-라고 입력하니까 그럭저럭 결과물이 나오네요. 화산 터지는 게 격렬하진 않은데 무심하게 밥 먹는 고양이 느낌 잘 납니다.

딸기 모양을 한 개-라고 하고 싶었는데 영어를 못해서 개 모양을 한 딸기가 나왔습니다.

케이크 모양을 한 사람 하니까 좀 못 만든 반죽 같은 케이크가 나왔습니다. 말이 되죠. 특히 이분 저랑 닮은 것 같네요.

슬픔과 싸우는 권투 선수, 입력했더니 정말 슬픔과 싸우고 있었습니다.

자, 이 DALL·E 2가 큰 인기를 끄니까 구글은 처음에 이런 말도 안 되는, 어우씨. 이미지 생성 사이트 하다가 imagen이라고 해서 DALL·E 2 같은 걸 만들었습니다. 이것도 못 써봐요.

DALL·E 2의 한계 아직 있습니다. 우선은 폭력적, 선정적, 혐오 이런 건 아예 학습을 안 시켰다고 해요. 미사일 그리라고 하면 뭔지도 모릅니다.

그리고 어쩔 수 없는 고정관념 있죠. DALL·E 2에게 승무원을 그리라고 하면 여성 이미지를 주로 그린다고 하는데요. 인터넷에 있는 훈련할 수 있는 이미지가 대부분 여성이기 때문에 그렇게 그림을 그릴 확률이 높은 거죠. 이 오픈 AI가 한계점을 알고 있기 때문에 일부러 안 학습시킨 걸 빼면 점차 나아질 거라고 봅니다.

자, DALL·E 2, 어디 쓸 수 있을까요? 가장 유명한 게 아보카도 모양 의자입니다. 우리가 상상할 수 없었던 상품 디자인 같은 거 AI는 쉽게 뽑아냅니다. 그리고 배경 이미지가 필요하다거나, 저작권 문제없는 램브란트/지브리 스타일의 그림이 필요하다-하면 만들어서 쓸 수 있겠죠. 그런데 제가 봤을 때 이거 딱 짤방용입니다. 여러분 인터넷 할 때 딱 맞는 짤방 없어서 고통받은 적 많으시죠. 그때 유용하겠네요.

DALL·E 2 앞으로도 더 많이 발전할 수 있는 서비스 같고요. 더 발전하다 보면 나중에 책을 한권 주면 그걸 영화로 만들고, 대본만 쓰면 애니메이션 만들어주고 이러겠네요. 창작 도구 진입 장벽이 아주 낮아지는 거죠. 물론 그때쯤 되면 글도 지가 쓸 거니까 우리는 그냥 앉아서 구경만 할지도 모르겠네요.

하여튼 여러분 앞으로 인터넷에서 뭔가 이상하다. 사람이 이런 걸 할 리가 없다-이런 짤방 보이면 대부분 AI가 만든 것일 겁니다.

자, 저는 이미 4월에 DALL·E 2 신청을 해놨었는데요. 아무리 기다려도 안 되길래 어제 또 신청해놨습니다. 만약 실제로 쓸 수 있게 되면 저의 화려한 짤방 쇼, 보여드리도록 하겠습니다. 그러면 그때까지 구독, 팔로우, 알림 설정. 거대한가요?

글. 바이라인네트워크
<이종철 기자> jude@byline.network