카카오, 경량 멀티모달 언어모델 및 MoE 모델 오픈소스 공개
카카오(대표 정신아)는 경량 멀티모달 언어모델과 MoE 모델을 허깅페이스를 통해 오픈소스로 공개했다고 24일 밝혔다.
카카오는 ▲이미지 정보 이해 및 지시 이행 능력을 갖춘 경량 멀티모달 언어모델 ‘카나나(Kanana)-1.5-v-3b’와 ▲MoE 언어모델 ‘카나나-1.5-15.7b-a3b’을 선보였다.
카카오는 지난 5월 공개한 언어모델 카나나-1.5 4종에 이어 두 달 만에 추가 모델을 오픈소스로 공개했다. 카카오는 정부 추진 ‘독자 AI 파운데이션 모델 프로젝트’에 참여했으며, 자체 모델 개발 역량 및 카카오톡 등의 대규모 서비스 운영 경험 등을 토대로 전 국민의 AI 접근성을 높이고, 국가 AI 경쟁력을 강화하는데 기여한다는 방침이다.
경량 멀티모달 언어모델 카나나-1.5-v-3b
카나나-1.5-v-3b는 텍스트뿐만 아니라 이미지 정보도 처리할 수 있는 멀티모달 언어모델이다. 지난 5월 말 오픈소스로 공개한 카나나 1.5 모델을 기반으로 하고 있다. 카나나 1.5는 모델 개발의 처음부터 마지막 단계까지 카카오의 자체 기술을 바탕으로 구축하는 프롬 스크래치 방식으로 개발했다.
카나나-1.5-v-3b의 특징은 이용자의 질문 의도를 정확히 이해하는 높은 지시 이행 성능과 뛰어난 한국어·영어 이미지 이해 능력이다. 카카오는 경량 모델이지만 이미지로 표현된 한국어와 영어 문서 이해 능력이 글로벌 멀티모달 언어모델 GPT-4o와 견줄 수 있을 정도로 뛰어나다고 강조했다.
카카오에 따르면 해당 모델은 한국어 벤치마크에서 유사 사이즈의 국내외 공개 모델과 비교한 결과 최고 점수를 기록했다. 다양한 영어 벤치마크에서 해외 오픈소스 공개 모델과 비교했을 때 유사한 수준의 성능을 보였다. 지시 이행 능력 벤치마크에서는 국내 공개된 유사한 규모의 멀티모달 언어모델 대비 128% 수준 성능을 기록했다.
카카오는 인간 선호 반영 학습과 지식 증류를 통해 카나나-1.5-v-3b의 성능을 극대화했다고 설명했다. 지식 증류는 고성능의 대형 모델로부터 비교적 작은 모델을 학습하는 방식이다. 단순한 정답뿐 아니라 대형 모델의 예측 확률 분포까지 학습에 반영함으로써 작은 모델이 더 정교하고 일반화된 예측 능력을 갖추도록 돕는 기술이다. 이를 통해 상대적으로 경량화된 모델 구조임에도 정확도나 언어 이해 등의 능력에서 대형 모델의 높은 성능에 근접하거나, 이를 뛰어넘을 수 있는 능력을 발휘할 수 있다.
카나나-1.5-v-3b는 경량 멀티모달 언어모델의 강점을 토대로 ▲이미지 및 글자 인식 ▲동화 및 시 창작 ▲국내 문화유산 및 관광지 인식 ▲도표 이해 ▲수학 문제풀이 등 여러 분야에서 활용할 수 있다.
예를 들어, 장소 사진과 함께 “이 사진이 촬영된 장소에 대해 간단히 설명해 줘”라고 질문하면 “이 사진은 서울 청계천을 배경으로 하고 있습니다”와 같이 국내 지역에 대한 높은 인식력을 바탕으로 정확한 답변을 제공한다. 이미지 검색, 콘텐츠 분류 등 실시간성과 효율성이 요구되는 분야에서 효과적 사용이 가능하다.
카카오 측은 “모델의 성능에 집중하는 단계를 넘어 AI가 사람처럼 생각하고 행동할 수 있는 멀티모달 이해 능력, 사용자 지시 수행 능력, 추론 능력을 갖추도록 발전시키는 데 주력하고 있다”며 “하반기 중에는 에이전트형 AI 구현에 필수적인 추론 모델 성과도 공개할 예정”이라고 밝혔다.
MoE 구조 언어모델 카나나-1.5-15.7b-a3b
MoE(Mixture of Experts)는 입력 데이터 처리 시 모든 파라미터가 연산에 참여하는 기존 모델과 달리, 특정 작업에 최적화된 일부 전문가 모델만 활성화되는 방식이다. MoE 방식의 강점은 효율적인 컴퓨팅 자원 활용과 비용 절감이다. 카카오는 MoE 방식이 글로벌 시장에서 AI 모델 개발 트렌드로 자리 잡고 있다고 설명했다.
MoE 아키텍처를 적용한 카나나-1.5-15.7b-a3b는 전체 15.7B(157억)의 파라미터 중 추론 시 약 3B(30억) 파라미터만 활성화되어 동작한다. 카카오는 모델의 학습 시간과 비용을 절약하기 위해 자사의 3B 규모의 모델 ‘카나나-나노-1.5-3B’에 업사이클링 방식을 적용해 개발했다. 업사이클링은 기존 다층 신경망(MLP) 레이어를 복제해 여러 전문가 레이어로 변환하는 방식이다. 업사이클링 방식은 모델을 처음부터 개발하는 방식에 비해 효율적이다. 카카오는 활성화되는 파라미터가 3B에 불과하지만 성능은 ‘카나나-1.5-8B’와 동등하거나 상회하는 수준을 기록했다고 강조했다.
카카오는 이번 MoE 모델을 통해 고성능 AI 인프라를 저비용으로 구축하고자 하는 기업이나 연구 개발자들에게 실용적인 도움을 줄 수 있다고 설명했다. 추론 과정에서 제한된 파라미터만 사용하는 구조적 특성 덕분에 저비용, 고효율 서비스 구현에 유리해 활용도를 높였다.
카카오는 이번 경량 멀티모달 언어모델과 MoE 모델의 오픈소스 공개를 통해 AI 모델 생태계에 새로운 기준을 제시하고, 더 많은 연구자와 개발자가 효율적이고 강력한 AI 기술을 자유롭게 활용할 수 있는 기반을 마련해 갈 계획이다. 자체 기술 기반 모델을 지속적으로 고도화하고, 모델 스케일업을 통해 글로벌 플래그십 수준의 초거대 모델 개발에 도전한다. 이를 통해 국내 AI 생태계의 자립성과 기술 경쟁력 강화에 기여할 전망이다.
김병학 카카오 카나나 성과리더는 “오픈소스 공개는 비용 효율성과 성능이라는 유의미한 기술 개발의 성과를 거둔 것으로, 단순한 모델 아키텍처의 진보를 넘어 서비스 적용과 기술 자립이라는 두 가지 측면의 목표에 부합하는 결과물”이라고 강조했다.
글. 바이라인네트워크
<최가람 기자> ggchoi@byline.network