대표적인 이미지 생성 인공지능(AI) 기술인 오픈 AI의 DALL·E 두 번째 버전이 최근 공개됐다. 2021년 1월 공개된 첫 번째 버전보다 더 좋은 결과물을 빨리 만들어낼 수 있게 됐다.

특히 이미지 일부 영역에 완전히 새로운 이미지를 만들어 주변과 어울리도록 배치하는 편집 기능이 새로 등장했다. 이미지 하나를 입력하면 특징을 추출해 여러 개의 비슷하면서도 다른 이미지를 제시하는 것도 전에 없던 기능이다.

DALL·E는 방대한 텍스트를 학습하는 것만으로도 다양한 방식으로 언어를 사용할 수 있는 GPT-3 노하우를 이미지에 적용한 기술이다. 텍스트를 픽셀로 바꿔 GPT-3와 같은 방식으로 AI 학습을 진행한 결과, 텍스트를 입력하면 그에 맞는 이미지를 제시한다.

자연어처리(NLP)와 이미지인식 기술을 함께 사용하는 DALL·E의 특징은 이전에 학습한 적이 없는 이미지를 새로 ‘창조’해낼 수 있다는 것이다. 단순히 이미지 대상 명칭과 이미지를 연결하는 방식이 아니다. AI 학습으로 경험한 적이 없는 이미지도 학습 데이터를 조합해 새로 만들어낼 수 있다.

실제 존재하지 않는, 학습한 적 없는 이미지를 만들어낸 것은 설명과 단서만으로 추가 학습 없이 여러 종류의 작업이 가능한 GPT-3 제로샷 추론 기능을 시각 영역으로 확장했다는 것을 의미한다.

DALL·E가 만들어낸 이미지 중 대표적인 것이 ‘개를 산책시키는 아기 무’ 그림이다. 이를 통해 DALL·E는 동물이나 사물을 의인화하고, 관련 없는 개념을 서로 결합하는 능력을 입증했다.

‘개를 산책시키는 아기 무’에 대해 DALL·E 초기 버전이 만든 이미지.

오픈AI는 공식 블로그에서 “자연어 캡션은 우리가 실제와 상상의 존재에 대해 설명하는 개념을 모을 수 있게 한다. DALL·E는 이질적인 아이디어를 결합해 사물을 합성할 수 있는 능력을 가지고 있으며, 이 중 일부는 현실 세계에 존재하지 않는 것”이라고 말했다.

최근 공개된 DALL·E 2는 이전 버전에 비해 우선 텍스트로부터 이미지를 생성하는 기능 자체가 좋아졌다. 연구팀에 따르면 DALL·E 2가 만든 이미지는 DALL·E에 비해 해상도가 4배 높다. 더 많은 이미지 요소를 생성함에도 불구하고 속도는 더 빨라졌다.

연구팀은 DALL·E 2 성능 개선 정도를 평가하기 위해 이전 버전과 결과물을 비교하는 실험을 거쳤다. 이미지를 만들기 전 제시한 캡션과 얼마나 비슷한지, 사진 자체의 사실성은 어느 정도인지 평가하기 위해 각 모델이 만든 이미지 결과값 1000개에 대해 사람들에게 의견을 물었다. 평가 결과, DALL·E 2가 만든 결과물을 선호한다고 한 답변은 캡션 매칭에서 71.7%, 사실성에서 88.8%였다.

‘클로드 모네 스타일의 해가 뜨는 언덕에 앉은 여우 그림’이란 텍스트에 대한 두 모델의 결과값. DALL·E 2가 만든 오른쪽 이미지가 해상도가 높다.

이렇듯 기능이 개선된 비결로 연구팀은 확산 모델(diffusion model)을 꼽았다. 확산 모델은 노이즈가 있는 상태에서 시작해 이미지를 정교화하는 과정을 여러 번 거치는 이미지 생성 방식이다. 노이즈가 남지 않을 때까지 반복해 요청 사항에 맞는 이미지를 만든다.

이전 버전에 없던 편집 기능은 ‘인페인팅(inpainting)’이다. 이미지 내 특정 영역에 대해 대체물을 제시한다. 사진 속 테이블 위에 더러운 접시들이 있다면 해당 영역을 지정하고 ‘빈 나무 테이블’, ‘접시가 없는 테이블’과 같은 텍스트를 입력한다. 결과적으로 몇 초 내에 깨끗한 테이블 사진을 얻을 수 있다.

포토샵 내 ‘맥락을 반영한 채우기(context-aware fill)’이 업그레이드된 기술이라고 할 수 있다. 하늘에 새가 있는 사진에서 새를 지우고 하늘 배경을 자연스레 만들어내는 것까지가 기존 포토샵 기능이라면, DALL·E 2에서는 다른 종류의 새나 구름을 만들어낼 수 있다.

나머지 영역에 맞게 알아서 자연스레 빛과 그림자를 추가하기도 한다. DALL·E 2가 정확하게 어떤 과정과 이유로 이미지를 이해하는지는 알 수 없지만 나머지 배경을 인식한 결과물을 내놓는다.

숫자 3이 있는 영역에 다양한 모습으로 홍학을 그린 결과물. 물에 비치는 모습도 자연스레 묘사했다.

마지막으로 DALL·E 2가 새로 선보인 기능은 ‘변형(variations)’이다. 예시 이미지 하나를 제시하면 굉장히 사실적이고 원본과 비슷한 사진부터 인상주의적인 스타일과 같이 재해석한 결과물까지 다양하게 제시한다. 두 번째 이미지를 제시하면 각 사진의 두드러진 측면을 결합한 결과물을 만들어낼 수도 있다. 코알라와 오토바이 이미지를 각기 제시하면 오토바이를 탄 코알라 이미지를 생성하는 식이다.

네덜란드 화가 요하네스 페르메이르의 ‘진주 귀걸이를 한 소녀’ 작품에 대한 여러 변형 버전을 제시한 DALL·E 2.

기존 오픈 AI의 성과와 마찬가지로 DALL·E 2는 대중에 직접 오픈되지 않은 상태다. 연구자들은 시스템을 프리뷰하기 위해 온라인으로 지원할 수 있다. 오픈 AI는 추후 다른 애플리케이션을 통해 DALL·E 2를 사용 가능하게 만드는 것을 목표로 한다.

글. 바이라인네트워크
박성은 기자<sage@byline.network>