레드햇, AI 인퍼런스 서버 출시 ‘엔터프라이즈 vLLM’

레드햇이 vLLM 기반의 AI 추론 전용 인프라를 출시했다. 레드햇이 vLLM을 엔터프라이즈 수준의 생성형 AI 서비스에서 활용할 수 있게 다듬고 관리해준다는 의미다.

레드햇은 생성형 AI의 대중화에 중요한 역할을 할 ‘레드햇 AI 인퍼런스 서버’를 21일 발표했다.

레드햇 AI 포트폴리오의 신규 제품인 이 엔터프라이즈급 추론 서버는 vLLM 커뮤니티 프로젝트와 레드햇의 뉴럴매직 기술 통합으로 탄생했다. 더욱 향상된 속도와 가속기 효율성 및 비용 효율성을 제공함으로써 모든 클라우드 환경의 AI 가속기에서 모든 생성형 AI 모델을 실행할 수 있게 지원한다.

이 플랫폼은 독립형 배포 또는 ‘레드햇 엔터프라이즈 리눅스 AI(RHEL AI)’ 및 ‘레드햇 오픈시프트 AI’의 통합 구성 요소 배포 여부와 관계없이 조직이 보다 안전하게 생성형 AI를 프로덕션 환경에 배포 및 확장할 수 있도록 지원한다.

추론은 사전 학습된 모델이 데이터를 실질적인 영향력으로 전환되는 과정으로 AI의 핵심 실행 엔진이다. 이는 사용자 상호 작용을 위한 핵심 지점이 되며 신속하고 정확한 응답을 필요로 한다. 생성형 AI 모델의 복잡성이 폭발적으로 증가하고 프로덕션 배포가 확장됨에 따라, 추론은 심각한 병목 현상을 일으켜 하드웨어 자원을 과도하게 소모하고 응답성을 저하시키며 운영 비용을 증가시킬 수 있다. 강력한 추론 서버는 이제 AI의 진정한 잠재력을 큰 규모로 실현하고 근본적인 복잡성을 보다 쉽게 탐색하기 위한 필수 요소가 됐다.

레드햇은 고성능을 위해 설계되고 선도적인 모델 압축 및 최적화 도구를 갖춘 개방형 추론 솔루션인 레드햇 AI 인퍼런스 서버를 통해 이러한 과제들을 직접적으로 해결한다. 이러한 혁신은 훨씬 더 반응성이 뛰어난 사용자 경험과 AI 가속기와 모델 및 IT 환경을 선택함에 있어 비교할 수 없는 선택의 자유를 제공함으로써 조직이 생성형 AI의 변혁적인 힘을 완전히 활용할 수 있도록 지원한다.

레드햇 AI 인퍼런스 서버는 2023년 중반 캘리포니아대학교 버클리 캠퍼스에서 시작된 업계 선도적인 vLLM 프로젝트를 기반으로 구축됐다. 이 커뮤니티 프로젝트는 높은 처리량의 생성형 AI 추론, 대규모 입력 컨텍스트 지원, 다중 GPU 모델 가속화, 연속 배치 지원 등을 제공한다.

vLLM은 공개적으로 사용 가능한 모델을 폭넓게 지원한다. 딥시크, 젬마, 라마, 미스트랄, 파이 등 선도적인 프론티어 모델 및 라마 네모트론과 같은 개방형 엔터프라이즈급 추론 모델에 대한 제로데이 통합을 제공한다. 선도적인 프론티어 모델 제공업체들이 점점 더 vLLM을 채택함에 따라 생성형 AI의 미래 형성에 있어 vLLM의 핵심적인 역할이 더욱 공고해지고 있다.

레드햇 AI 인퍼런스 서버는 vLLM의 선도적인 혁신을 패키징해 엔터프라이즈급 기능으로 제공한다. 레드햇 AI 인퍼런스 서버는 컨테이너화된 독립형 제품 또는 RHEL AI 및 레드햇 오픈시프트 AI의 일부로 제공된다.

지능형 LLM 압축 도구는 기본 및 미세 조정된 AI 모델의 크기를 대폭 축소하고 컴퓨팅 자원 소비를 최소화하는 동시에 모델 정확도를 유지하거나 잠재적으로 향상시킨다. 모델 저장소가 허깅페이스의 레드햇 AI 조직에서 호스팅되며, 추론 배포가 준비된 검증되고 최적화된 선도적 AI 모델 컬렉션에 즉시 액세스할 수 있다. 모델 정확도 저하 없이도 효율성을 2~4배 가속화할 수 있다고 한다. vLLM에 대해 레드햇의 엔터프라이즈 지원과 서드파티 지원을 받을 수 있다.

AI의 미래는 인프라 사일로에 의해 제한되지 않고 무한한 가능성을 유지해야 한다. 레드햇은 조직이 모든 클라우드에서 모든 가속기에 모든 모델을 배포할 수 있어, 과도한 비용 없이 탁월하고 더 일관된 사용자 경험을 제공할 수 있는 미래를 지향한다. 생성형 AI 투자의 진정한 잠재력을 실현하기 위해 기업은 현재 및 미래에 걸쳐 보다 원활하고 고성능의 AI 혁신을 위한 표준이 될 범용 추론 플랫폼을 필요로 한다.

레드햇은 리눅스를 현대 IT의 기반으로 전환해 개방형 엔터프라이즈를 개척한 것처럼 이제 AI 추론의 미래를 설계하는 데 앞장서고 있다. vLLM의 잠재력은 표준화된 생성형 AI 추론의 핵심이며 레드햇은 vLLM 커뮤니티뿐만 아니라 대규모 분산 추론을 위한 ‘llm-d’를 중심으로 번창하는 생태계를 구축하기 위해 노력하고 있다. 레드햇은 AI 모델, 기본 가속기 또는 배포 환경에 관계없이 vLLM을 새로운 하이브리드 클라우드 전반에서 추론을 위한 확실한 개방형 표준으로 자리매김할 계획이다.

조 페르난데스 레드햇 AI 사업 부문 부사장 겸 총괄 매니저는 “추론은 생성형 AI의 진정한 잠재력이 발휘되는 부분”이라며 “사용자 상호 작용이 주어진 모델에 의해 빠르고 정확한 응답으로 충족돼야 하는 동시에 효과적이고 비용 효율적인 방식으로 제공돼야 한다”고 밝혔다.

그는 “레드햇 AI 인퍼런스 서버는 대규모의 응답성이 뛰어나고 고성능의 추론에 대한 수요를 충족하면서 리소스 요구 사항을 낮게 유지하고 모든 환경의 모든 가속기에서 실행되는 모든 모델을 지원하는 공통 추론 레이어를 제공한다”고 덧붙였다.

글. 바이라인네트워크
<김우용 기자>yong2@byline.network