업스테이지 글로벌 승부처 ‘문서 특화 SLM’

“업스테이지는 문서 업무 분야에 특화된 AI 기술과 언어모델을 개발해 세계 1위를 놓고 맹렬하게 싸우고 있다. 도큐먼트 AI의 성능과 정확도는 세계 1등이고, GPU 1장에서 높은 정확도와 빠른 속도를 낼 수 있는 소형언어모델(SLM)에서 세계 1등을 해보려고 한다.”

김성훈 업스테이지 대표(표지 사진)는 16일 서울 여의도 콘래드 호텔에서 개최된 ‘미디어 데이’에서, 업무용 인공지능(AI) 기술과 제품 업데이트와 글로벌 진출 전략을 발표하며 이같이 밝혔다.

이날 행사에 김성훈 대표, 이활석 최고기술책임자(CTO), 권순일 사업총괄 부사장, 최홍준 엔터프라이즈 솔루션 부사장, 마츠시타 히로유키 일본 법인장 등 주요 임원이 참석했다.

김성훈 대표는 “국내 약 2900만 경제활동인구의 업무생산성이 단 1%만 향상돼도 연간 14조원 규모의 경제적 효과를 창출할 수 있다”며 “산업계의 AI 자동화 도입은 생산성 향상과 산업 및 국가 경쟁력 강화로 직결된다”고 강조했다.

업스테이지는 이를 위한 핵심 전략으로 자체 개발한 ▲AI 기반 광학문자인식(OCR) 문서 처리 기술 ‘도큐먼트 파스(Document Parse)’와 ▲언어모델(LLM) ‘솔라’를 내세운다.

업스테이지는 딥러닝 기반 OCR 기술을 활용하는 ‘도큐먼트AI’로 문서에서 정보를 인식하고 추출한 뒤 AI 모델에서 이해할 수 있는 마크업 언어로 변환한다. 추출된 문서 속 정보를 입력받은 솔라 모델은 사용자 맥락에 맞게 정확한 답변을 내놓는다.

문서에서 컴퓨터로 인식가능한 구조화된 데이터를 뽑아내는 과정을 ‘파싱(Parsing)’이라 하는데 업스테이지의 도큐먼트 파스는 문서 파일 속의 복잡한 표나 테이블, 차트 등에서 정확하게 구조를 파악하고 정보값을 추출해낸다.

업스테이지의 도큐먼트 파스는 전세계 기업의 제품과 성능과 정확성 경쟁에서 우위를 보이고 있다. 국내 금융회사 다수가 도큐먼트 파스를 활용중이다. 특히 보험 업계에서 인기다.

이와 함께 업스테이지의 주력 분야는 언어모델이다. LLM은 전세계적으로 치열한 경쟁이 벌어지는 영역이다. 오픈AI, 구글, 앤트로픽 등이 범용 LLM을 경쟁적으로 선보이는 상황. 업스테이지는 ‘솔라’를 GPU 1개에서 구동 가능하면서 강력한 성능을 내는 소형언어모델(SLM)의 위치로 설정한다.

김성훈 대표는 최근 가트너에서 발표한 한 미래 전망 보고서를 소개했다. 가트너는 2027년까지 전세계 기업의 SLM 사용량이 LLM의 3배를 초과할 것이라고 전망했다. 빅테크 기업의 LLM은 일반적이고 범용성인 AI를 추구하지만, 업스테이지는 특정 목적과 분야에 특화된 SLM에서 높은 성능과 정확도로 승부를 보겠다는 것이다.

작년 10월 출시한 ‘솔라 프로 프리뷰’ 모델은 매개변수 40B 미만의 크기로, 허깅페이스 트렌딩 3위까지 기록했다.

업스테이지는 이날 ‘솔라 프로 1.3’ 모델을 출시했다. 솔라 1.3은 구조화된 형태의 문장을 생성하며, 한국어 구사 능력도 전보다 자연스러워졌다.

이어 오는 6월 ‘솔라 프로 1.5’를 출시할 예정이다. 솔라 프로 1.5 모델은 기존 220억(22B) 매개변수에서 330억개로 확장한 버전이다. 아직 학습을 완료하지 않은 상태에서 업계 선두로 평가되는 알리바바의 큐웬(Qwen) 2.5 72B 모델에 버금가는 벤치마크 테스트 결과를 낸다고 한다. 업스테이지는 또한 솔라 프로 1.5 버전과 함께 ‘오픈AI-o 시리즈’, ‘딥시크 R1’처럼 ‘사고 사슬(CoT)’을 구현한 첫 추론(Reasoning) 모델도 공개할 예정이다.

업스테이지는 OCR와 LLM을 통합한 멀티모달로도 확장을 꾀한다. 현재 솔라 프로에서 문서 데이터 추출과 변환까지 할 수 있도록 ‘멀티모달리티’ 역량을 갖춘 솔라 모델을 개발하고 있다. 6월 공개 예정인 ‘비전언어모델(VLM)’은 도큐먼트 파스와 솔라를 결합해 정보 요약, 질의응답, 보고서 작성 등 문서 기반의 다양한 LLM 작업을 단일 모델로 실행해준다. ‘솔라 DocVLLM’으로 명명된 이 모델은 문서 이미지 입력부터 보고서 작성까지 전 흐름을 하나의 엔진으로 처리할 수 있다. 문서 업무 자동화가 더 효율적이고 더 빠르면서 더 정확하게 할 수 있다고 김성훈 대표는 설명했다.

김성훈 대표에 따르면, 솔라 DocVLLM은 한번에 수십장의 문서를 한번에 입력해도 정확하게 처리할 수 있다. 일반적인 멀티모달 AI 모델은 문서 이미지를 한번에 많이 넣으면 메모리 부족으로 정확하게 인식하지 못한다. 미완성 단계의 내부 테스트에서 라마4 스카우트와 제미나이 2.5보다 우월한 성능을 내는 것으로 나타났다고 한다. 김 대표는 “업스테이지가 문서 분야에 집중하기에 가능하다”고 강조했다.

김 대표는 “업스테이지는 어떤 형태의 문서도 AI 학습용 데이터로 전환할 수 있는 DP와, 자체 사전학습을 통해 개발한 솔라를 앞세워 국내 AI 업무 표준을 정립하고 이를 글로벌 시장으로 확산시키고 있다”고 밝혔다.

그는 산업계 적용 사례도 소개했다. 업스테이지는 지난해 솔라를 출시한 이후, 조선일보와 AI 교열 모델, 한컴과 ‘한컴어시스턴트’, 로앤컴퍼니와 법률 특화 모델을 구축하며 250여억 원 규모의 계약을 성사시켰다. 이는 2023년 대비 약 5배 증가한 것이다.

업스테이지는 한국에서 쌓은 AI 업무 자동화 역량과 제품을 글로벌로 확산하기 위한 해외 진출 전략도 구체화하고 있다. 최근 업스테이지는 KT와 함께 태국 IT 전문 기업 자스민 테크놀로지 솔루션(JTS)에 태국어 특화 LLM을 성공적으로 구축하며, 국내 최초로 해외 소버린 AI 사업 사례를 남겼다. 글로벌 시장에서 업스테이지의 기술력을 인정받고, 동남아 AI 시장에서 영향력을 확대하는 계기로 보고 있다.

아울러, 작년 미국에 이어 지난 3월 일본 법인을 추가 설립했다. 업스테이지 일본법인은 현지 파트너 생태계를 구축해 일본 기업 고객에게 맞춤화된 제품과 서비스를 제공한다는 계획이다. 현지 기업 ‘카라쿠리’와 합작해 일본어 특화 LLM ‘신(Syn)’을 개발해 공개했으며, 후쿠오카 현지기업인 퓨직(Fusik)과 큐슈 지역 시장 공략을 위한 업무협약도 체결했다. 이날 행사에 참석한 마츠시타 히로유키 일본 법인장은 “일본 AI 솔루션 시장은 2030년 17조 원 규모로 성장할 전망”이라며 “글로벌 시장에서도 경쟁력있는 업스테이지의 문서 처리 기술과 소형언어모델을 기반으로 현지 맞춤형 전략을 강화해 시장을 선도하겠다”고 밝혔다.

김성훈 대표는 마지막으로 생태계 확장을 위한 노력을 강조했다. 최근 아마존웹서비스(AWS)와 함께 ‘AI 이니셔티브’를 출범하고 국내 초중고등학교 및 대학교와 대학병원, 비영리단체에 AI 모델을 무상 제공하고, 다양한 교육 활동과 인재 양성 사업을 진행하고 있다.

김성훈 대표는 “업스테이지는 압도적인 기술력과 AI 제품으로 이미 많은 실제 사례를 만들고 있다”며 “일하는 방법의 새로운 표준을 만들어가겠다”고 포부를 밝혔다.

글. 바이라인네트워크
<김우용 기자>yong2@byline.network

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다