SKT, A.X 기반 멀티모달 및 범용 문서 해석 기술 공개

SK텔레콤은 자사 LLM A.X(에이닷 엑스)를 기반으로 한 시각-언어모델(VLM)과 LLM 학습을 위한 범용 문서 해석 기술을 29일 발표했다.

SKT는 오픈소스 커뮤니티 허깅페이스에 모델 ‘에이닷 엑스 인코더(A.X Encoder)’와 ‘에이닷 엑스 4.0 비전 랭귀지 라이트(A.X 4.0 VL Ligh)’ 2종을 공개했다.

SKT는 이번에 LLM을 산업 영역에 보다 폭넓게 활용하기 위한 기술 2종을 추가했다. 최근 공개한 대규모 학습 기반 모델 에이닷 엑스 4.0 2종(표준, 경량)과 프롬 스크래치 방식 모델 에이닷 엑스 3.1 2종(표준, 경량)을 합쳐 총 6개의 모델 라인업을 갖췄다.

SKT는 프롬 스크래치 방식 LLM 개발과 에이닥 엑스 4.0 추론형 모델 등 지속적으로 개발 중인 LLM의 활용도와 성능을 높여갈 계획이다.

SKT는 에이닷 엑스 모델에 필요한 데이터의 전 과정 처리 프로세스에 적용하기 위해 에이닷 엑스 인코더를 개발했다. 에이닷 엑스 인코더는 긴 문서도 빠르고 효율적으로 처리 가능해 대규모 LLM 학습에 적합하다.

에이닷 엑스 인코더는 1억4900만개(149M) 매개변수를 바탕으로 작동한다. SKT에 따르면 자연어 이해 성능지표 평균 85.47점을 달성해 글로벌 최고수준(SOTA)급 성능을 확인했다. 기존 글로벌 오픈소스 모델을 기반으로 KLUE(한국어 자연어 벤치마크) 팀에서 공개한 ‘RoBerTa-base’의 성능지표(80.19점)를 상회했다.

에이닷 엑스 인코더는 1만6384개 토큰 처리가 가능해 기존 모델들보다 최대 3배의 추론속도와 2배의 학습속도를 구현할 수 있다. 대규모, 고속 문서 처리 기술로 LLM 학습 외에 AI 기반 다양한 문서 처리에 효율적으로 적용할 수 있다.

에이닷 엑스 4.0 비전 랭귀지 라이트는 대규모 멀티모달 한국어 데이터셋이 학습된 시각-언어모델(VLM)이다. 한국어와 관련된 시각정보 및 언어 이해뿐만 아니라, 표·그래프 이해, 제조 도면 이해와 같은 기업용 애플리케이션에서 사용할 수 있다.

SKT는 에이닷 엑스 4.0 비전 랭귀지 라이트를 70억개(7B) 매개변수의 에이닷 엑스 4.0 라이트 모델 기반으로 개발해 사용자 시스템에 쉽게 적용 가능하면서도 중형 모델 수준의 강력한 성능을 낸다고 설명했다.

에이닷 엑스 4.0 비전 랭귀지 라이트는 한국어 시각 벤치마크에서 평균 79.4점을 기록해 큐원 2.5-VL32B(73.4점)보다 작은 모델 크기지만 더 우수한 성능을 보였다. 한국어 텍스트 벤치마크에서는 평균 60.2점을 기록해 경량모델임에도 국내 모델 중에서 높은 순위에 올랐다.

에이닷 엑스 4.0 비전 랭귀지 라이트는 동일한 한국어 데이터입력 시 큐원2.5-VL32B 대비 약 41% 적은 텍스트 토큰을 사용해 사용하는 기업들의 비용을 낮출 수 있다.

김태윤 SK텔레콤 파운데이션 모델 담당은 “독자적인 기술력 확보가 소버린 AI의 핵심인 만큼, 자체 역량을 높이고 컨소시엄 기업들과의 협업에도 박차를 가해 글로벌 최고 수준의 AI 경쟁력을 확보할 것”이라고 밝혔다.

글. 바이라인네트워크
<최가람 기자> ggchoi@byline.network