생성 AI, 현실에 이만큼 와있다
[기획 / 생성 AI가 가져올 변화]
열풍의 중심은 역시 챗GPT(ChatGPT)다. 챗GPT는 오픈AI(Open AI)가 만든 대화 생성 AI로, 자연스러운 대화체와 맥락을 파악하는 능력, 텍스트 요약, 코딩 등 이제까지의 챗봇과 차원이 다른 성능을 자랑한다. 지난해 11월 말 공개 후 1000만명 이상의 사용자를 모았다. 챗GPT의 등장은 생성 AI의 잠재력을 보여준 일대 사건으로까지 여겨진다.
그림도 생성 AI의 영역에 들어왔다. 다양한 이미지 생성 AI가 등장하며 누구나 화가가 될 수 있는 시대를 열었다. 이목을 끈 생성 AI 솔루션은 무엇이 있고 어떤 특징을 갖고 있을까.
사람처럼 말하는 챗GPT…데이터 시점은 한계
열풍을 이끈 챗GPT의 심장은 1750억개의 매개변수를 가진 언어모델 GPT-3.5다. 사람은 항상 변수를 생각하고 경험으로 배운 것을 대화로 표현한다. 챗GPT가 눈에 띄는 건 바로 이 같은 모습을 그대로 따왔기 때문이다. 대화를 통해 똑똑해지는 사람처럼 데이터가 쌓일수록 더 자연스러운 답을 내놓는다. 웹에서 가져온 정보를 중요도에 따라 추리고, 기계의 딱딱한 어투가 아닌 사람의 말투로 표현해낸다. 나누는 대화를 계속 학습하며 대화의 맥락을 파악해 대답한다.
단 실시간으로 웹을 스크래핑하는 건 아니라서 최신 정보를 전달하지 못하는 건 한계다. 챗GPT는 2021년까지의 정보만 담고 있다. 이에 최신 연구 결과를 요구하거나 최근의 사건을 물었을 때는 제대로 된 답을 내놓지 못한다. 하지만 여기서 또 챗GPT의 신박함(?)을 알 수 있는데, 최신의 데이터를 물으면 뒤엉킨 답변이 아니라 모름을 인정하고 한계가 있다고 답변한다.
사용법은 간단하다. 챗GPT 웹사이트에 이메일로 회원가입만 하면 된다. 텍스트를 입력창에 넣으면 바로 답변을 생성해주는 데 속도는 영문이 가장 빠르다. 영어를 비롯해 한국어와 불어로 ‘2020년 가장 큰 이슈’를 묻자 모두 코로나19를 답으로 제시했다. 영어가 5초 가량이 걸려 가장 빨랐고 한국어 질답에는 약 20초, 불어는 약 8초가 걸렸다.
특정 프로세스는 한국어 질답이 꼬이기도 한다. 2021년까지의 정보만 담은 만큼 2022년의 데이터 질의에는 답하지 못한다. ‘2022년 카타르 월드컵 우승 국가는?’을 한국어로 묻자 영어로 대답할 수 없다고 답변했다. 2022년 미국 메이저리그 보스턴 레드삭스 성적을 물어도 마찬가지였다. 하지만 재차 새로 고침을 하자 이번에는 한국어로 답변하는 등 약간의 꼬임 현상이 목격됐다.
챗GPT는 현재 무료로 쓸 수 있지만 유료화가 멀지 않은 듯하다. 옵저버(Observer)에 따르면, 앞으로 월 42달러의 이용료가 부과될 것이라고 한다. 다수의 챗GPT 사용자들은 이 같은 이용료 메뉴를 캡처한 스크린샷을 링크드인 등에 올리고 있다.
카테고리 맞춤 텍스트는 ‘뤼튼’
국내 기업의 텍스트 생성 AI도 주목해보자. 스타트업 뤼튼 테크놀로지의 ‘뤼튼’은 광고 문구나 연하장, 이메일 등의 카테고리에 맞는 텍스트의 초안을 작성해주는 텍스트 생성 서비스다. 이 밖에도 AI가 문맥을 파악해 내용을 자동으로 채우는 ‘뤼튼 에디터’를 지난해 말 출시했다.
예컨대 뤼튼은 정해진 폼에 맞춰 제목. 내용, 키워드 등을 입력하면 이를 예쁜 문장으로 만들어 주고, 뤼튼 에디터는 특정한 형태 없이 글을 쓰기 시작하면 AI가 문맥을 파악해 뒤의 내용을 자동으로 완성해준다. 기반 기술은 네이버의 하이퍼클로바를 활용하는 것으로 전해졌다.
뤼튼은 특히 서문이나 간단한 문장을 구상하기 어려울 때 쓰면 유용하다. 예를 들어 SNS 광고문구를 쓸 때 제품(브랜드)와 간단한 정보, 키워드를 넣으면 이에 맞는 문장을 만들어준다. 설날 인사말도 간단하게 전하고 싶은 말을 넣으면 손쉽게 긴 메시지로 제작해준다.
뤼튼 에디터는 이미 쓰던 글을 이어 쓰는데 편리하다. 글의 골조를 바탕으로 파생된 줄기를 내주는 식이다. 이전 작성한 기사를 발췌해 넣어보니 핵심 키워드에 이어서 내용을 덧붙여준다. 왼쪽 하단의 이어쓰기 버튼을 클릭하면 계속해서 내용을 추가해주는 방식이다.
뤼튼과 뤼튼 에디터는 지난 18일부터 유료 요금제가 출시됐다. 가입 후 기본으로 주는 1000자를 모두 사용하면 글자 수에 비례해 요금을 부과한다.
각기 다른 매력…그림 그려주는 ‘달리2’와 ‘미드저니’
텍스트 생성 AI만 있는 것은 아니다. 이미지로까지 영역을 넓혔다. 오히려 그림에서 더 놀라움을 선사한다. ‘달리2(DALL-E-2)’를 비롯해 ‘미드저니(Midjourney)’ ‘스테이블 퓨전(Stable Fusion)’등이 시장의 관심을 끌고 있다.
오픈AI가 2021년 선보인 달리2는 텍스트를 입력하거나 이미지를 업로드하면 이에 적합한 이미지를 자동 생성하는 모델이다. 바비인형으로 유명한 장난감 제조사 마텔(Mattel)이 장난감 자동차 핫휠의 신규 모델 디자인에 활용하기도 했다.
웹사이트에 자연어 형태의 텍스트 입력만으로 사실적인 이미지를 생성해준다. 기본 해상도는 1024×1024다. 가입 시 50크레딧을 제공하고, 입력어에 따른 기본 4장의 이미지를 만드는 데 1크레딧이 소요된다. 이미 만들어진 예시작을 활용할 수도 있다. 메인 화면에 제시된 그림 중 하나를 고르고 ‘Try this example’을 클릭하면, 화풍을 유지한 채 사물의 위치를 변경하거나 색감을 바꾼 이미지 4장이 들어진다.
다단계(?)처럼 줄지어 이미지를 만드는 것도 가능하다. 텍스트 입력과 예시작 활용 방식 모두 제시된 4장 가운데 1장을 골라 에디트(Edit)를 선택하면 일부분을 지우거나 추가로 프레임을 붙이는 등 수정 작업을 할 수 있다. 베리에이션(Varlations)을 선택하면 골랐던 버전을 토대로 다시 이미지 4장이 추가 생성된다.
한국어를 인식하긴 하지만 영어로 입력하는 게 좋다. ‘Mike Tyson by Egon Schiele’는 정확히 인식하지만 ‘에곤 쉴레가 그린 마이크 타이슨’은 아래와 같이 생뚱 맞은 그림을 내놓는다. 한글 제시어를 그대로 놓고 다시 ‘Generate’하면 다른 이미지를 제시하긴 한다. 하지만 정확도가 낮고 크레딧이 차감되기 때문에 영어를 바로 입력하는 것을 추천한다.
마이크로소프트는 최근 오픈 AI와 협업해 ‘애저(Azure) 오픈AI 서비스’를 공식 출시했다. 오픈 AI 웹사이트 뿐 아니라 마이크로소프트의 클라우드 환경에서도 달리2를 사용할 수 있다.
끈적한 화풍의 ‘미드저니’
미드저니는 미국의 한 미술대회에서 게임 기획자가 이를 활용해 만든 그림으로 1위를 차지해 유명세를 탔다. 딥러닝을 통해 웹 상의 이미지를 학습 시켜 키워드에 따른 이미지를 찾고, 이를 조합해 생성하는 구조다.
회원가입 후 메인 메뉴의 ‘Join the beta’를 누르면 디스코드(Discord)로 연결된다. 명령어 프롬프트를 입력하는 방식으로, 우선 좌측의 ‘Newcomers rooms’ 채널에 들어간 뒤 입력 박스에 슬래쉬를 입력하면 상단에 ‘/imagine prompt’가 뜬다. 이를 클릭하고 설명하는 텍스트를 넣으면 이미지를 만들어준다.
이미지는 달리2와 마찬가지로 4장이 기본 생성된다. U1~4 중에 하나를 골라 저장할 수 있고, V1~V4를 누르면 해당 그림과 비슷한 이미지를 다시 생성한다. U는 Upscale, 즉 업스케일링을 뜻하고, V는 해당 이미지를 토대로 베리에이션하는 메뉴다.
웹사이트에서의 직관적인 입력을 통한 사용자 편의성은 달리2가 앞선다. 미드저니는 디스코드 특성상 다른 사용자의 명령과 뒤섞인다. 내 이미지가 생성될 때까지 다른 사용자의 명령어가 계속 올라와 내 작품이 밀린다. 다만 다른 이가 주문한 이미지를 볼 수 있는 것은 장점이 되기도 한다.
글. 바이라인네트워크
<이진호 기자>jhlee26@byline.network
[무료 웨비나] API연결만으로 가능한 빠르고 쉬운 웹3 서비스 구축
- 내용 : API 연결을 통해 웹2와 웹3를 끊김 없이 연결하는 최신 융합 기술과 이를 통한 적용 사례를 다룹니다.
- 일시 : 2024년 10월 10일 (목) 14:00 ~ 15:10