“토큰은 많이, 비용은 낮게”…코난테크놀로지, 자체 개발 LLM 출시
코난테크놀로지가 자체 개발한 새로운 거대언어모델(LLM) 제품을 공개했다. 비용 효율성과 보안을 강점으로 내세운 ‘코난(Konan) LLM’은 한국어 문서 작성에 특화한 것이 특징이다. 네이버의 ‘하이퍼클로바X’가 출격을 앞둔 가운데 국산 LLM 시장도 경쟁이 심화할 전망이다.
코난테크놀로지는 17일 서울 여의도 콘래드호텔에서 기자간담회를 열고 코난 LLM을 선보였다. 코난테크놀로지 측은 “한국어 특성에 기반한 구조로 답변 성능이 매우 뛰어나고, 보고서 초안 생성에 특화한 LLM”이라고 밝혔다.
코난 LLM은 파라미터(매개변수) 수 131억(13.1B)개와 410억(41B)개 등 두 가지 버전으로 제공한다. 이번에 공개한 LLM은 13.1B 버전이다. 학습에 활용한 토큰은 4920억개로, 이 중 한국어 토큰 수는 2840억개다. 41.B 버전은 오는 11월 출시한다. 해당 버전은 전체 학습 토큰 7000억개 가운데 한국어 토큰 수는 3220억개다.
파라미터 수는 현재 시장에 나와있는 네이버 하이퍼클로바의 2040억개보다는 적지만, 많은 토큰 확보와 함께 최적화한 파라미터 사양을 적용해 비용 부담을 덜 수 있다는 게 회사의 주장이다.
코난 LLM의 토큰 규모는 국내 최대 수준으로 전체 토큰 수는 하이퍼클로바보다 많고 오픈소스인 메타의 라마(LLamA)2와 비교해서는 한국어를 270배 많이 학습했다는 것이 코난테크놀로지의 설명이다.
또 많은 자체 데이터를 확보한 것도 특징이다. 2007부터 국내외 데이터를 수집 분석해 온 온라인 미디어 심화분석 서비스 ‘펄스케이(PulseK)’를 통해 205억개의 문서를 모았고, 이중 트위터(현 X)나 뉴스 댓글 등 단문을 제외한 20억건의 문서를 학습에 활용했다.
이를 통해 기업의 ▲문서 초안 생성 ▲문서 요약 ▲질의응답 등 문서 작성에 특화했다. 간단한 프롬프트 만으로 4000자 분량의 문서를 만들어내고, 문서 생성 중 추가적인 질의, 첨삭 및 참고자료 생성도 동시에 수행한다.
임완택 코난테크놀로지 상무는“문서 초안 생성 기능에 집중해 파인튜닝해 따라 각종 문서, 보고서, 보도자료 등의 초안을 빠르고 손쉽게 생성해 주는 데 최적화했다”고 말했다.
온프레미스 형태로 제공해 ‘보안’ 강화
임완택 상무는 “보안을 중요시하는 기업대기업(B2B), 기업대정부(B2G) 시장을 위한 LLM을 표방한다”고 밝혔다. LLM 활용 과정에서 일어날 수 있는 내부 데이터 유출 우려를 줄였다는 게 임 상무의 설명이다.
온프레미스 형태로 제공함으로써 클라우드를 통해 회사 기밀이 새거나 회사 데이터가 사용되는 것을 방지할 수 있다. 응용프로그래밍인터페이스(API)를 통해 회사의 내부 인트라넷이나 자체 문서 제작 프로그램 등 기업 자체 서비스에 물리는 것도 가능하다.
할루시네이션(환각)도 줄였다는 주장이다. 벡터 검색 기반의 ‘코난 서치(Konan Search)’를 연동해 답변과 함께 근거·출처를 참고문서 형태로 제공한다. 이를 통해 웹에 떠도는 자료를 가져와 진짜 답변처럼 내놓는 사례를 줄여 보다 신뢰성 높은 AI를 제작했다.
지난 2월 국내에서 가장 먼저 엔비디아의 그래픽처리장치(GPU) H100 8대를 발주한 회사는 지난 6월 13.1B 버전 학습을 시작한 이후 이날 두 달 만에 시장에 서비스를 선보일 수 있었다. 이달 중 학습을 시작하는 40B 버전은 11월 중 공개할 예정이다.
한편, 코난테크놀로지가 새 제품을 공개하며 국산 LLM 시장도 격전이 예상된다. 이달 말 네이버의 하이퍼클로바X가 출격을 앞두고 있고, 하반기 중으로 카카오의 ‘코(KO)-GPT’ 2.0도 출시될 예정이다.
김영섬 코난테크놀로지 대표는 “국내에서도 다양한 LLM 제품 출시가 예고된 가운데 우리 제품이 먼저 나와 감사드리는 마음”이라며 “시장 기대에 부응할 수 있도록 최선을 다하겠다”고 강조했다.
글. 바이라인네트워크
<이진호 기자>jhlee26@byline.network