[바스리] GPT 누른 ‘프라이빗 LLM’으로 기업 시장 노리는 업스테이지
바이라인네트워크에서 스타트업을 리뷰합니다. 줄여서 ‘바스리’. 투자시장이 얼어붙어도 뛰어난 기술력과 반짝이는 아이디어, 새로운 비즈니스 모델을 가진 스타트업은 계속해 탄생하고 있습니다. 이들을 바이라인네트워크 기자들이 만나봤습니다.
명실상부 생성 인공지능(AI) 전성시대다. 지난해 챗GPT가 생성AI 열풍의 신호탄을 쐈고, 잠재력이 확인되자 내로라하는 빅테크들이 생성AI의 바탕이 되는 거대언어모델(LLM)을 선보이기 시작했다. 화려한 수사를 덧붙인 제품 소개가 이어졌고, 잊을만하면 나오는 신제품 소식에 지난 1년은 그야말로 생성AI가 IT 업계의 핵심 테마가 된 모습이다.
마찬가지로 지난 1년을 무척 바쁘게 보낸 기업이 있다. 기업 업무에 특화한 LLM, 즉 ‘프라이빗(Private) LLM’으로 시장을 겨냥하는 ‘업스테이지’가 주인공이다. 2020년 10월 창업 이후 올 상반기 아숙업(AskUp)으로 시장을 놀라게 했던 회사는 기업 맞춤형 LLM 개발에 박차를 가하면서 다른 업체들과는 차별화 전략을 취하고 있다.
최홍준 업스테이지 부사장은 “도메인 특화와 최적화에 초점을 두고 정보 유출과 환각 현상을 방지할 수 있는 프라이빗 LLM 시장을 겨냥하고 있다”고 말했다.
앞서 내놓은 아숙업은 챗GPT 응용프로그래밍인터페이스(API)를 카카오톡에 물린 챗봇 서비스다. 별도로 챗GPT에 접속하지 않고도 익숙한 카카오톡을 통해 GPT 모델을 활용할 수 있어 주목받았다.
하지만 네이버에서 AI 분야 책임리더로 일했던 김성훈 대표를 비롯해 광학문자인식(OCR) 분야 전문가인 이활석 최고기술책임자(CTO) 등 회사의 화려한 진용에 비해 너무 단순한 서비스를 내놓은 것 아니냐는 시선이 없지 않았다. API 연동은 그리 어려운 게 아니라서 결국 챗GPT에 기대 생성AI 기술기업 흉내를 낸 것 아니냐는 지적이었다.
하지만 업스테이지는 아숙업은 정교한 프롬프트 엔지니어링과 파인튜닝을 통해 일반 챗GPT에 비해 더 정확한 답을 내놓고, 더 구체적인 답변을 내놓을 수 있다고 설명한다. 또한 쉽게 쓸 수 있는 서비스를 통해 생성AI 기술과의 접점을 늘렸다는 설명이다.
최홍준 부사장은 “아숙업은 50대 이상의 디지털 사각지대에 있는 연령층도 많이 사용하는 서비스로 ‘Making AI Beneficial’이라는 업스테이지의 비전처럼 AI로 세상을 더욱 이롭게 하기 위한 노력의 일환”이라고 강조했다. 그 결과일까. 아숙업은 현재 150만명 이상이 쓸 정도의 인기 서비스로 자리 잡았다.
상반기가 아숙업으로 업스테이지의 이름을 널리 알린 시기였다면 하반기는 LLM을 통해 본격적인 도약에 나섰다. 현재 업스테이지는 자체 개발한 LLM ‘솔라(Solar)’를 보유하고 있다. 다른 빅테크의 LLM과 다른 건 기업 데이터를 별도로 학습시키고, 정보 유출 가능성을 줄이는 프라이빗 LLM으로 설계했다는 점이다.
솔라는 기업대기업(B2B) 시장이 타깃이다. 금융을 비롯해 ▲커머스·유통 ▲통신 ▲의료·헬스케어 분야 대기업 고객군과 함께 보안과 안정성이 중요한 정부나 공공 분야 등을 주요 시장으로 설정했다. 오픈소스인 메타 ‘라마(LLaMa)2’를 파인튜닝해 개발한 솔라는 이미 머신러닝 플랫폼 ‘허깅페이스’가 운영하는 오픈소스 LLM 리더보드에서 GPT-3.5 모델의 벤치마크 점수를 뛰어넘는 성과를 보이기도 했다.
어떻게 가능한가
일단 성능은 검증했다고 치지만 그 과정이 궁금했다. 오픈소스를 기반으로 이렇게 높은 성능을 낼 수 있다면 반대로 누구나 시장에 뛰어들 수 있다는 뜻이기도 하다.
일단 오픈소스를 다듬은 LLM은 다른 기업도 만들 수 있다는 점은 업스테이지도 인정한다. 일정 수준 이상의 성능을 내기 위해서는 자본력 싸움도 불가피하다. 하지만 프라이빗 LLM이라면 이 같은 한계에서 보다 자유로워진다.
이활석 CTO는 최근 바이라인네트워크가 개최한 바이라인비즈니스네트워크(바비네) 강연에서 “비관적으로 보면 1000억원 이하의 자본력을 가진 회사는 초거대 모델 개발이 쉽지 않다”며 “우리는 당장 1000억원(을 가졌다기) 보다는 계속 매출을 내면서 개발에 매진하겠다는 전략”이라고 말한 바 있다. 이 CTO는 이어 “개인적인 생각으로는 초거대 LLM은 정말 자본력이 커야 할 수 있기 때문에 지금 이기기는 힘들다”고 말했다.
최 부사장 또한 “모델을 개발하는 데 상당한 비용을 감당해야 하고, 모델 학습 기간이 최소 수주에서 수개월이 걸리기 때문에 한번의 실수는 큰 비용 부담으로 돌아온다”며 “여러 테스트와 개발을 거쳐야 고객사에 좋은 모델을 전달할 수 있다. 내부 자원도 할당해서 테스트하고 있다 보니 높은 기회비용이 발생한다“고 말했다.
업스테이지가 프라이빗 LLM 개발에 집중하는 것은 이와 무관치 않다. “잘 할 수 있는 것을 먼저 하겠다”는 의지다. 프라이빗 LLM은 기업의 필요에 맞춰 설계하기 때문에 개발 비용이 상대적으로 적게 든다. 또 사용자가 원하는 방향으로 성능을 키울 수 있는 것도 장점이다.
또한 기존 OCR 사업 등을 통해 검증된 AI 솔루션 적용과 운영, 기술 지원이 가능한 전문가들을 보유하고 있어 자칫 대기업이나 빅테크 제품을 우선순위로 둘 고객사들도 끌어 올 수 있다는 게 최 부사장의 생각이다.
업스테이지는 한국어 데이터 확보를 통해서도 또 다른 돌파구를 마련한다. ‘1T(Trillion) 클럽’이 그것이다. 1Trillion, 즉 1조개의 한국어 토큰을 확보해 LLM 개발에 활용하는 프로젝트다.
토큰은 LLM이 인식하는 문자 데이터 단위로, 최대한 많이 확보해 학습할수록 LLM의 성능이 좋아진다. 업스테이지는 현재 언론사, 기업, 학계 등 다양한 분야에서 토큰 제공과 관련한 파트너십 협의를 진행하고 있다.
최 부사장은 “LLM 발전에 필요한 한국어 데이터가 절대적으로 부족한 실정”이라며 “한국 정서를 담아내는 AI 서비스를 위해 1T클럽 발족을 결정했다”고 말했다. 한국에서만 쓰는 용어나 어투 등에 대한 정보를 모으고 학습시켜 진정한 프라이빗 LLM을 만들겠다는 의미다.
“자유롭게 답을 찾자” …혁신적 사고 갖춘 인재 찾아
업스테이지는 기술 스타트업이면서도 짐짓 독특한 채용문화를 가졌다. 현재 120명이 다니는 회사에 이제까지 지원자만 4500명을 넘길 정도로 다니고 싶은 기업이 됐다. AI 기술에 대한 전문성도 중요하지만 업스테이지가 먼저 보는 부분은 따로 있다. 바로 ‘혁신적인 사고’다.
최 부사장은 “전문성보다 중요한 것은 문제 해결 능력과 혁신적인 사고”라며 “모두가 자유롭게 답을 찾고, 가장 좋은 방식을 빠르게 적용하는 문화를 뿌리내렸다”고 강조했다.
한편 업스테이지는 프라이빗 LLM과 아숙업 뿐 아니라 기존의 OCR 솔루션 제공도 지속한다. OCR 솔루션인 ‘다큐먼트(Document) AI’는 수작업 처리 방식 대비 82%까지 비용과 시간을 감축해 준다는 설명이다. API 형태로 클라우드에서 손쉽게 사용할 수 있는 ‘퍼스널(Personal)’버전과 기업 요구사항에 따라 도메인 맞춤형 인터페이스를 제공하는 ‘엔터프라이즈(Enterprise)’ 등 2가지 버전으로 제공한다.
최 부사장은 “결국 생성AI에 대한 원천기술을 보유하고 도메인에 맞는 도입 사례를 많이 발굴할 수 있는 기업이 시장을 선도할 것으로 예상한다”면서 “다양한 영역 확장에 속도를 내겠다”고 강조했다.
글. 바이라인네트워크
<이진호 기자>jhlee26@byline.network