오케스트로, AI 추론 운영 플랫폼 ‘콘체르토 AI’ 공개
오케스트로(대표 김범재, 김영광)는 보유 GPU 인프라의 활용 효율을 높여 기업 AI 서비스의 추론 병목을 줄이는 AI 추론 운영 플랫폼 ‘콘체르토 AI(CONCERTO A.I.)’를 29일 발표했다.
기업 AI 인프라의 핵심 과제는 GPU 확보에서 추론 운영 효율화로 옮겨가고 있다. AI 챗봇, 업무 자동화 에이전트, 검색증강생성(RAG) 기반 서비스처럼 상시 활용되는 AI 서비스가 늘어나면서 모델 호출과 추론 연산도 함께 증가하고 있다. 특히 에이전트형 AI 환경에서는 하나의 요청이 여러 모델 호출과 반복 연산으로 이어져 처리해야 할 추론 작업이 빠르게 늘어날 수 있다.
문제는 GPU를 보유하고 있어도 모든 자원이 항상 효율적으로 쓰이는 것은 아니라는 점이다. 추론 요청이 일부 자원에 집중되면 병목으로 인한 응답 지연이 발생하고, 다른 자원은 충분히 활용되지 못해 운영 비용 부담이 커질 수 있다. 이 때문에 기업 AI 인프라 운영에서는 GPU 증설보다 보유 자원을 효율적으로 배분하고 안정적으로 운영하는 체계가 중요해지고 있다.
콘체르토 AI는 에이전트형 AI 확산으로 늘어나는 추론 트래픽에 대응하고 GPU 자원을 효율적으로 운영하도록 설계됐다. 대규모 추론 요청을 분산 처리하고 GPU·NPU 등 가속기 자원을 작업 특성에 맞춰 배분해 보유 인프라의 활용 효율을 높인다. 기업은 이를 통해 GPU 추가 확보 부담을 줄이면서 기존 인프라의 처리 효율을 높이고, AI 서비스 운영 과정에서 발생하는 응답 지연과 자원 낭비를 줄일 수 있다.
핵심은 분산 서빙 기반의 추론 최적화다. 기존 단일 처리 방식은 질문을 분석하는 작업과 답변을 생성하는 작업을 같은 GPU 자원에서 함께 처리한다. 이 경우 요청이 몰리면 한 작업의 지연이 다른 작업까지 영향을 주면서 전체 응답 속도가 떨어질 수 있다. 콘체르토 AI는 이 두 작업을 나눠 처리하고 각 작업에 맞는 자원을 배치해 병목을 줄인다.
여기에 키-값 캐시(KV Cache) 최적화와 메모리 재사용 기술을 적용해 초기 응답 시간과 토큰 처리 속도를 개선한다. 실시간 대기열과 자원 상태를 반영한 지능형 라우팅 기능을 결합해 고부하 환경에서도 안정적인 응답 성능을 유지하도록 지원한다.
성능 개선 효과는 자체 온프레미스 AI 인프라 환경에서 진행한 벤치마크 테스트에서도 확인됐다. 동시 요청이 집중되는 고부하 환경에서 기존 단일 처리 방식은 응답 대기 시간이 크게 늘어난 반면, 콘체르토 AI의 분산 서빙 방식은 토큰 출력 속도를 기존 방식 대비 2.2배 빠르게 유지했다. 이는 같은 하드웨어 환경에서도 자원 배분을 최적화하면 AI 서비스의 응답 지연을 줄이고 추론 처리 안정성을 높일 수 있음을 보여준다.
복잡한 LLMOps 환경을 쉽게 구성하고 관리할 수 있도록 운영 자동화 기능도 강화했다. 콘체르토 AI는 AI 모델 배포부터 추론 요청 처리, 자원 배분, 성능 모니터링까지 LLMOps에 필요한 기능을 하나의 플랫폼에서 제공한다. 표준화된 모델 패키징 기술을 기반으로 쿠버네티스 파드(Pod) 생성부터 엔드포인트 연결까지 배포 과정을 자동화하고, 배포 이후에는 초기 응답 시간, 토큰 처리 속도, 자원 사용량 등 주요 지표를 통합 모니터링 환경에서 확인할 수 있다.
콘체르토 AI는 운영 자동화를 넘어 국내 유일의 이기종 AI 가속기 지원 구조로 인프라 선택권을 넓힌다. 특정 GPU 생태계에 머무르지 않고 리벨리온, 퓨리오사AI 등 국산 NPU 환경까지 포괄한다. 국내에서 GPU와 국산 NPU를 아우르는 상용화 수준의 AI 추론 운영 플랫폼은 콘체르토 AI가 유일하다. 이를 통해 기업과 기관은 프라이빗 AI와 소버린 AI 환경에서 특정 하드웨어 벤더에 대한 의존도를 낮추고, 서비스 특성과 보유 인프라에 맞춰 AI 추론 자원을 유연하게 구성할 수 있다.
오케스트로는 콘체르토 AI를 기반으로 기업과 기관의 AI 추론 병목과 LLMOps 관리 부담을 낮추고, 프라이빗 AI 환경에서 요구되는 성능과 보안을 확보하며 운영 효율을 높일 수 있도록 지원할 계획이다.
오케스트로 김범재 대표는 “생성형 AI가 실제 업무로 확산되고 에이전트형 AI 서비스가 늘어나면서 기업 AI 인프라의 과제는 더 많은 GPU를 확보하는 것에서 보유 자원을 얼마나 효율적으로 운영하느냐로 옮겨가고 있다”며 “오케스트로는 콘체르토 AI를 기반으로 기업이 보유한 AI 인프라의 활용 효율을 높이고, 프라이빗 AI 환경에서도 안정적인 AI 서비스 운영을 지원하겠다”고 밝혔다.
글. 바이라인네트워크
<김우용 기자>yong2@byline.network



