|

래블업 신정규 대표 “AI의 대항해 시대가 끝나고 있다”

“인공지능(AI)의 대항해 시대가 막을 내리고 있다. 모험심으로 떠났던 사람들이 가치를 찾아 본국으로 돌아가 진상해야 하는 시기다. 그리고 산업혁명이 동시에 일어나고 있다. AI 기술의 병목은 시대를 따라 이동하고, 래블업은 그 병목들을 따라가며 해결해왔다. 그동안 접근성의 병목을 해결해왔다면, 이제 확장성이 해결해야 하는 문제다.”

신정규 래블업 대표는 최근 본지와 인터뷰에서 현재 AI 시장의 변화와 회사의 전략 업데이트를 소개하며 이같이 밝혔다.

래블업은 수많은 GPU를 묶어 AI 개발 인프라를 구성하고 운영, 관리하는 플랫폼과 기술을 제공하는 회사다. 대형언어모델(LLM)을 훈련하고, 추론하려면 수백, 수천, 수만대의 GPU 혹은 전용 칩이 필요하다. 래블업의 백엔드닷AI 플랫폼은 이런 AI 인프라를 쉽고 효율적으로 할당, 관리할 수 있게 해준다. GPU의 가격이 갈수록 천정부지로 뛰는 상황에서 특정 AI 작업에 최대한 효율적으로 GPU를 할당하면 전반적인 인프라 비용을 줄일 수 있다.[⇒지난 기사 바로가기]

신정규 래블업 대표

신정규 대표는 “챗GPT 후 2년, 그 사이 어마어마하게 바뀌었다”며 “과거 딥러닝은 기존 기술의 연장 관점이었다면, 챗GPT와 스테이블디퓨전은 못하던 걸 새로 하는 것이기에 그 가능성을 본 자본이 엄청나게 투입되고, AI가 IT의 새 이름으로 자리잡고 있다”고 말했다.

그는 최근까지 AI 시장을 고전게임 ‘대항해시대’로 비유했다. ‘대항해시대’가 여러 버전으로 나왔지만 그 본질은 ‘후추팔이’ 즉, 접근성에 있었다는 것이다.

신 대표는 “변화의 시기에 자본이 크게 들어가는 곳은 기술에서 만들어지는 접근성 차이를 줄이는 쪽이고, 그래서 10년전 래블업을 시작할 때 ‘Make AI Accessible’을 모토로 했다”며 “시기마다 컴퓨트, 에너지, 네트워크, 스토리지 등으로 병목이 이동, 반복돼 왔고, 지금은 확장의 문제라 ‘Make AI Scalable’을 이야기한다”고 말했다.

래블업은 전세계적으로 엔비디아의 인정을 받은 파트너다. 엔비디아 GPU를 대규모로 묶고, 효율적으로 프로비저닝할 수 있는 기술을 가장 먼저 시작했고, 가장 성숙한 기술력을 보유한 덕이다. 현재 한국에서만 1만3000개의 GPU가 래블업의 ‘백엔드닷AI’로 운영되고 있다. 국내 클라우드서비스프로바이더(CSP)와 대기업의 GPU 인프라는 사실상 모두 래블업 백엔드닷AI로 돌아가고 있다고 봐도 무방할 정도다.

래블업의 ‘백엔드닷AI’ 플랫폼은 단순히 GPU 가상화를 넘어 실질적인 AI 모델 개발과 배포까지 한번에 할 수 있는 플랫폼이다. 신 대표가 말한 AI의 확장 문제는 다양한 영역으로 AI 모델이 퍼져나가고 있는 상황을 지원한다는 의미다. 그런 차원에서 래블업의 협력 파트너가 AI 인프라 전영역의 플레이어로 확대되고 있다.

신 대표는 “칩 차원에서 엔비디아뿐 아니라 리벨리온, 인텔, 퓨리오사 등과 협력하고 있고, AMAX, 교세라, 보스턴, PTC 등의 하드웨어에 백엔드닷AI 플랫폼을 같이 공급하고 있으며, 웨카, 퓨어스토리지, 넷앱 같은 초고속 스토리지 회사와도 협력하고 있다”며 “가속기가 한대부터 수천대까지 늘어나는 상황에서 래블업은 확장에 방해되는 요소를 없애고 새 필수요소를 더하면서 발전하고 있다”고 강조했다.

래블업은 기본적으로 오픈소스 소프트웨어 회사다. 래블업의 모든 개발품은 오픈소스로 공유된다. 백엔드닷AI도 오픈소스 소프트웨어 버전이 있다. 오픈소스 버전은 ‘백엔드닷AI코어’로 불린다. 구체적인 플랫폼 외에도 파이썬 생태계에도 기여하고 있다.

파이썬에서 백엔드닷AI를 비롯해 callosum, aiodocker, aiomonitor, aiotools 등은 래블업에서 만들어 기부한 프로젝트다. 러스트재단의 raftify도 래블업에서 만든 오픈소스 프로젝트다. 메시징 영역의 aiohttp, zeromq, pyzmq, googletest와, 운영체제 및 인프라 영역의 DPDK, FreeBSD, 오픈스택, NBA, 머신러닝 및 AI 영역의 vLLM, bitsandbytes, tensorflow, numpy, python, openblas 등에도 적극적으로 기여하고 있다.

신 대표는 “올해 백엔드닷AI 설치를 단순화하는 터미널용 도구인 ‘백엔드닷AI CLI 인스톨러’도 오픈소스화해 규모 상관없이 설치를 자동화하는데 도움을 주고 있다”며 “백엔드닷AI 개발환경을 만드는 도구인 ‘bndev’도 공개했다”고 밝혔다.

백엔드닷AI 코어는 매 6개월마다 새 버전을 내놓고 있다. 내년부터 출시 주기가 더 짤아질 것이라고 한다.

백엔드닷AI 코어의 구성

백엔드닷AI코어 24.09는 엔비디아의 마이크로서비스 형태의 AI 추론 컨테이너인 ‘NIM’, 허깅페이스나 NIM에서 모델을 가져와 바로 실행할 수 있는 ‘모델 스토어’, 사용자가 직접 만든 모델의 만드는 레시피를 공유할 수 있는 ‘ION’ 등을 포함하고 있다. ION은 공유받은 레시피를 실행하면 로컬에서 실행되며, 백엔드닷AI용 모델이 바로 만들어진다.

신 대표는 “클라우드 네이티브 통합이 많이 이뤄져서 실리움이란 클라우드 네이티브 네트워크 스택을 통합했다”며 “내년을 목표로 쿠버네티스를 자체적으로 만들어서 각 노드의 컨테이너를 제어하게 하고, 지금 제공중인 도커 기반 서비스와 쿠버네티스 클러스터, KVM까지 네이티브로 지원하도록 엔진 아키텍처를 멀티로 확장할 것”이라고 밝혔다.

백엔드닷AI의 ‘젠AI 데스크톱’은 웹브라우저 안에서 창을 띄워 앱을 실행하는 기능을 테스트 중이라고 했다.

또한 UX 디자인 전문업체와 협력해 백엔드닷AI의 사용자인터페이스(UI)를 새롭게 개편할 예정이다. 신 대표는 “사람이 생각하는 대로, 여기 뭐 있을 것 같다고 해서 누르면 거기 해당 기능이 나타나도록 UX 패턴에 따라 규칙적으로 따라가게 배열한다”며 “사용자 흐름을 재설계하고, 옵션도 순차적으로 제공하게 할 것”이라고 설명했다.

백엔드닷AI 엔터프라이즈

엔터프라이즈 버전의 경우 전문 사용자가 원하는 AI 작업을 바로 시작하게 하는 걸 목표로 하고 있다. 백엔드닷AI코어 인프라 위에 엔비디아 NIM, 허깅페이스, 래블업 ION 등을 제공하는 ‘빨리(PALI)’, ML옵스의 ‘패스트트랙’, ‘포크리프트’, ‘레저보이어’. 서비스의 ‘AI 앱스’, ‘토커티봇(Talkativot)’, ‘젠AI 데스크톱’, ‘래블업 파인튜닝(Finetun.ing)’ 등이 포함된다.

신 대표는 “백엔드닷AI코어를 인프라로 해서 아래부터 위로 올라가는 형태로 발전하고 있다”며 “ML옵스 플랫폼인 ‘패스트트랙’, ‘포크리프트’, ‘레저보이어’ 등이 작년 진행됐다면, 올해는 개발 말고 서비스를 빨리 하고 싶지만 오픈AI를 쓸 수 없는 환경에서 추론 플랫폼을 쓸 수 있는 ‘빨리’, 파인튜닝 서비스 스택 등을 제공한다”고 말했다.

빨리는 ‘퍼포먼트 AI 런처 포 인퍼런스(Performent AI Launcher for Interface)’의 약자다. 추론 서비스를 빠르게 내놓을 수 있는 서비스다.

신 대표는 “미리 다듬어진 모델을 카탈로그에서 바로 시작하거나, 모델 가져오기로 허깅페이스나 내가 만든 것, 혹은 만들어진 컨테이너 안 모델을 따로 vLLM에 넣었다가 런타임에서 합치는 방식”이라며 “런타임을 바꿔서 성능을 비교하거나, 칩마다 중복 개발하지 않고 통합해서 할 수 있는 여러 가지 기능을 제공한다”고 설명했다.

그는 “NIM과 허깅페이스, ION 등으로 레시피를 지원하고 전세계 모델은 거의 지원한다”며 “모델스토어나 래블업 GPU 가상화에서 동작한다”고 덧붙였다.

백엔드닷AI 엔터프라이즈의 ‘빨리(PALI)’ 기능 화면

빨리스퀘어는 빨리를 파트너사의 하드웨어에 미리 설치해서 완전한 박스 형태로 제공하는 상품이다. 지난 9월부터 일본에서 판매를 시작했고, 여러 파트너가 테스트를 거쳐 출시를 앞두고 있다.

언어모델을 빠르게 시작하는 ‘빨리’와 함께 언어모델 파인튜닝을 빠르게 수행하는 기능인 ‘빨랑(PALANG)’도 나올 예정이다. 신 대표는 “언어모델을 파인튜닝할 때 토커티브봇으로 API 연결해 서빙하게 되는데 이걸 멀티모달을 지원하는 채팅 인터페이스를 활용해 할 수 있다”며 “현재 국내 기관의 첫 사례가 나왔다”고 말했다.

그는 “최근 ML옵스 플랫폼인 패스트트랙2를 출시했는데 언어모델을 만들고 싶을 때 모든 파운데이션 모델의 레시피와 파인튜닝 레시피를 활용할 수 있다”며 “패스트트랙으로 라마를 쓰다가 추가 데이터로 파인튜닝하거나 용어나 표현을 자기식으로 바꾸고자 할 때 활용 가능한 기능도 들어간다”고 설명했다.

래블업 파인튜닝은 별도의 미세조정 인프라 없이 래블업의 자원으로 파인튜닝을 해주는 서비스다. 합성 데이터 생성도 래블업에서 하며, 어떤 것을 생성할 지 챗 인터페이스에서 정하게 된다. 다음달 공식 출시를 예정하고 대기자신청을 받고 있다.

신 대표는 “데이터 샘플을 만들어주고 성격을 만들어갈 수 있다”며 “직접 래블업의 데이터를 넣는 옵션도 있다”고 말했다. 그는 “메뉴는 3가지로 단순한데, 어떤 모델을 쓸 지, 합성 데이터에서 자신의 데이터로 할 지, 파인튜닝 알고리즘을 뭐로 할 지 등만 고르면 하루정도 뒤면 결과를 볼 수 있다”고 덧붙였다.

AI용 GPU 클러스터를 자유롭게 디자인하고 성능치도 계산해주는 도구 ‘백엔드닷AI 디자이너’도 개발중이다. GPU 몇개를 묶었을 때 어느정도 성능을 내는 지 계산해주며, 비용도 계산해준다고 한다.

자연어로 명령하면 나머지 클러스터 작업을 자동화하는 ‘헬름스만(HELMsman) 에이전트’도 개발되고 있다. 신 대표는 “만들어진 클러스터를 자연어로 제어하는 기능”이라며 “서버 관리가 매우 복잡하므로 아예 AI에 맡기자는 아이디어로 만든 것”이라고 설명했다.

백엔드닷AI 엔터프라이즈는 기본적으로 엔비디아의 GPU 시리즈 12종을 지원하고, IoT용 디바이스 ‘젯슨’도 지원한다. x86, Arm V9 외에 RISC-V도 지원하고 있으며, 그록(Groq)도 지원한다. 아마존웹서비스(AWS)의 트레이니움과 인퍼런시아, AMD 인스팅트와 RDNA도 지원한다.

래블업이란 회사도 확장을 추진한다. 내년초 미국 법인을 설립해 글로벌 활동범위를 넓힐 예정이다. 그동안 인프라 파트너와 주로 협력해왔다면 애플리케이션 개발 파트너와 협력도 늘려갈 계획이다.

신 대표는 “스케일링, 가속, 인퍼런스 다 결국 AI라고 할 때, 래블업은 AI를 아주 쉽게 만들자라는 목표로 하고 있다”며 “기술 자체는 어렵지만, 사용자는 쉽게 하도록 착각을 주는 플랫폼을 제공할 것”이라고 밝혔다.

그는 “지금 AI는 너무 빠르게 발전하고 있고, 늦게 시작하더라도 빨리 따라잡을 수 있는 시장”이라며 “래블업의 역할은 산업혁명이 동시에 일어나는 시기에 여러 파트너와 협력하면서 디지털의 산업혁명 시대에 누구든 쓸 수 있는 오픈소스 엔진과 그를 최적화해 AI 인프라의 엔진을 제공하는 것”이라고 강조했다.

글. 바이라인네트워크
<김우용 기자>yong2@byline.network

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다