(출처=달파)

달파, AI 벤치마크 3개서 1위 기록…”구글·오픈AI 등 앞서”

인공지능(AI) 에이전트를 개발하는 스타트업 달파는 글로벌 AI 벤치마크 3개에서 1위를 기록했다고 22일 밝혔다.

달파에 따르면 이번 성과는 시계열 예측과 딥리서치 분야의 글로벌 벤치마크인 ‘GIFT-Eval’, ‘딥리서치 벤치’, ‘딥리서치 벤치 II’에서 나왔다.

‘GIFT-Eval’은 세일즈포스가 공개한 시계열 예측 벤치마크다. 28개 데이터셋과 약 14만 개의 시계열 데이터를 기반으로 모델 성능을 평가한다. 달파는 자체 에이전트 시스템이 데이터독과 세일즈포스 등의 시계열 모델보다 높은 종합 성적을 기록했다고 설명했다. 시계열은 시간의 흐름에 따라 쌓인 과거 데이터를 분석해 미래를 예측하는 인공지능(AI) 기술이다.

‘딥리서치 벤치’에서는 22개 분야의 연구 과제를 대상으로 AI 에이전트를 평가한다. 달파는 이 벤치마크에서 구글 제미나이와 오픈AI, 퍼플렉시티, xAI 그록 등을 제치고 종합 1위를 기록했다.

‘딥리서치 벤치 II’는 전문가 리포트에서 도출한 9430개의 평가 기준으로 성능을 측정하는 벤치마크다. 달파는 해당 평가에서 오픈AI와 구글, 엔비디아, 화웨이, 알리바바, 바이트댄스보다 높은 종합 점수를 기록했다.

달파는 앞서 지난 5월 오픈AI의 에이전트 평가 지표인 ‘MLE-벤치(MLE-bench)’에서도 자체 평가 결과 79.11%를 기록했으며, 구글과 바이두보다 높은 점수를 받았다.

김도균 달파 대표는 “서로 다른 세 분야의 벤치마크에서 동시에 1위를 기록했다”며 “현재는 인간의 행동을 이해하는 ‘소셜 월드모델(Social World Model)’ 개발을 진행하고 있다”고 밝혔다.

글. 바이라인네트워크
<김원민 기자>wmkim627@byline.network

일간 바이라인 구독하기

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다


The reCAPTCHA verification period has expired. Please reload the page.