3초 만에 고품질 이미지 뚝딱…카카오브레인 ‘칼로 2.0’ 공개
카카오브레인이 사실감을 높은 이미지를 3초 안에 그려내는 초거대 인공지능(AI) 이미지 생성 모델 ‘칼로(Karlo) 2.0’을 10일 공개했다.
칼로 2.0은 약 3억장 규모의 텍스트-이미지 데이터셋을 학습한 초거대 AI 아티스트 응용프로그래밍인터페이스(API)다. 높은 수준의 언어 이해력을 기반으로 완성도 높은 그림을 생성할 수 있는 성능을 보인다는 게 카카오브레인의 설명이다.
예를 들어 ‘밝은 파란 눈동자를 가진 고양이 (A cat has light blue eyes)’와 같은 복잡한 프롬프트를 입력해도 이를 명확히 이해하고 그려낼 수 있다. 해상도는 최대 2048×2048까지 지원한다. 카카오브레인 관계자는 “생성하는 이미지의 해상도가 높을수록 다양한 이미지 사이즈로 작업이 가능하다”며 “사용자는 표현하고자 하는 이미지를 보다 섬세하게 그려낼 수 있다”고 강조했다.
이미지 상의 공간감, 입체감, 동물의 털과 같은 텍스처를 디테일하게 표현하는 세밀함 등도 보강했다. 이미지 생성 속도 역시 기존 모델 칼로 1.4 대비 단축하며 약 3초 만에 사용자가 원하는 이미지를 만들어낼 수 있다.
카카오브레인은 칼로 2.0 공개 API를 카카오디벨로퍼스에 공개했다. 기존 칼로 1.4 모델의 공개 API를 2.0 모델로 업그레이드 하며, 기존 칼로 1.4에 비해 다양한 크기 및 비율의 이미지 생성이 가능하다고 설명했다.
칼로 2.0은 높은 프롬프트 이해도와 더불어 부정 명령어(Negative Prompt) 기능을 통해 이미지를 만들 때 제외해야 하는 표현이나 키워드를 사전에 제어한다. 특히 지금까지는 500장만 제공했던 무료 생성 이미지 수를 월 최대 60만장까지 늘려 더 많은 이들이 이미지 생성AI를 활용하도록 했다. 칼로 2.0 API에 대한 자세한 내용은 카카오디벨로퍼스 내 칼로 페이지에서 확인할 수 있다.
김일두 카카오브레인 각자대표는 “인체 비율 및 구도, 공간감과 입체감을 표현하는 투시도 등 다양한 이미지 데이터 학습 및 기술 고도화 과정을 거쳐 칼로 2.0을 선보이게 됐다”며 “많은 데이터와 사용자 피드백을 학습시켜사용자의 니즈를 반영할 수 있는 이미지 생성 모델로 발전시켜 나갈 것”이라고 말했다.
글. 바이라인네트워크
<이진호 기자>jhlee26@byline.network