오픈AI, 챗GPT 에이전트 출시

오픈AI가 챗GPT의 범용 에이전트 기능을 출시했다. 웹브라우저 구동과 딥리서치 기능을 합쳐 사용자를 대신해 컴퓨터를 다루고, 웹브라우저나 캘린더를 탐색하고, 프리젠테이션과 슬라이드쇼를 생성하며, 코드를 실행한다.

오픈AI는 17일(현지시간) 챗GPT 에이전트 기능을 출시하고, 챗GPT 프로, 플러스, 팀 등 유료 구독자에게 제공한다고 밝혔다.

챗GPT 에이전트는 기존의 여러 기능을 결합한 것이다. 웹사이트와 상호작용하는 ‘오퍼레이터(Operator)’, 웹에서 정보를 검색해 연구 보고서를 작성하는 ‘딥리서치(Deep Resarch)’ 기능 등을 포함한다.

에이전트는 사용자의 요구에 따라 질문을 여러 단계로 쪼갠 뒤    필요한 작업을 차례로 수행하면서 최종적인 작업 완료까지 나아간다. 사용자는 에이전트에게 작업을 맡기고 다른 일에 집중할 수 있다.

오픈AI에 따르면 ‘내 달력을 보고 최근 뉴스를 바탕으로 다가오는 클라이언트 미팅에 대해 요약해줘’ 또는 ‘경쟁사 세 곳을 분석하고 슬라이드쇼를 만들어줘’ 같은 요청을 지시하면, 챗GPT가 웹사이트 탐색, 날짜 선택, 결과 필터링, 로그인, 코드 실행, 결과 요약, 슬라이드쇼나 스프레드시트 작성 등까지 수행한다.

챗GPT는 중요한 작업을 수행하기 전 사용자에게 권한을 요청한다. 사용자는 에이전트 작업에 개입해 브라우저를 직접 다루거나 작업을 중단시킬 수 있다.

챗GPT 에이전트는 GUI를 통한 시각적 브라우징, 단순한 추론 기반 웹 쿼리를 위한 텍스트 브라우징, API 접속 등의 도구를 모두 탑재했다. 챗GPT는 주어진 문제에 최적의 방법을 택해 업무를 수행한다.

에이전트는 다양한 커넥터를 사용해 깃허브, G메일, 캘린더 등의 앱을 연결하고, 요청과 관련된 정보를 찾는다.

오픈AI는 챗GPT 에이전트가 웹브라우징 및 실제 작업 완료 능력을 측정하는 학술적 평가에서 높은 성과를 얻었다고 강조했다.

다양한 주제에서 전문가 수준의 질문에 답하게 함으로써 AI의 성능을 측정하는 평가인 ‘인류의 마지막 시험Humanity’s Last Exam)’에서 챗GPT 에이전트를 구동하는 모델이 43.1점으로 신기록을 달성했다. 데이터 분석과 모델링 등 실제 데이터과학 작업으로 에이전트를 평가하는 DSBench에서 이전 최첨단모델보다 더 높은 성능을 보였다. 데이터 분석 작업의 경우 인간을 훨씬 더 뛰어넘었다. 스프레드시트를 편집하는 모델의 능력을 평가하는 SpreadsheetBench에서 챗GPT 에이전트는 GPT‑4o보다 2배 높은 점수를 받았다.

스프레드시트를 직접 편집할 수 있는 권한을 제공했을 때 챗GPT 에이전트는 45.5%로 더 높은 점수를 얻었다. 수학 벤치마크 중 하나인 FrontierMath에서 챗GPT 에이전트는 코드 실행 터미널과 같은 도구를 사용할 때 27.4%의 점수를 기록했다. 이전 최고 점수는 오픈AI o4-mini의 6.3%였다.

챗GPT 에이전트가 익스피디아에서 항공권 예약 작업을 수행하는 모습

오픈AI는 챗GPT 에이전트에서 사용자 제어와 안전 기능을 최우선으로 삼았다고 강조했다. 모델이 실제 세상에 영향을 주는 작업을 수행하는 만큼 많은 비용을 수반하는 모델의 실수를 예방하는 데 중점을 뒀다고 했다.

챗GPT는 양식 제출, 예약, 구매, 개인데이터 입력 등의 민감 작업을 수행하기 전 권한을 사용자에게 요청한다. 민감한 작업의 경우 각 단계마다 사용자의 적극적인 감독과 승인을 요구한다. 금융 거래나 법적 문제의 작업을 거절할 수 있다.

적대적인 조작과 남용을 방어하는 기능도 있다. 챗GPT의 메모리 기능을 비활성화했으며, 프롬프트 인젝션 등 에이전트의 행동을 악의적으로 조작하는 행위를 차단하도록 신뢰할 수 없는 지침을 무시하도록 했다. 유해하거나 불법적인 요청을 일관적으로 거부한다. 챗GPT는 웹사이트 쿠키를 언제든 삭제할 수 있다. 챗GPT의 브라우저를 사용자가 구동할 때 모든 활동을 비공개로 유지하고, 이를 챗GPT가 캡처할 수 없다.

챗GPT 에이전트의 안전장치는 사용자와 모델의 상호 작용을 실시간으로 모니터링한다. 모든 프롬프트에 분류기를 실행해 위험 요소를 판별한다. 챗GPT 생성 콘텐츠의 위험도도 실시간으로 모니터링한다.

오픈AI는 챗GPT 엔터프라이즈, 에듀케이션 등의 사용자의 경우 이달 중 에이전트 기능을 제공할 계획이라고 밝혔다.

프로 구독자는 매월 무제한에 가까운 작업을 수행할 수 있다. 플러스와 기타 유료 구독자는 월 50건의 작업을 요청할 수 있다. 크레딧 기반 옵션을 사용해 추가 작업을 할 수 있다.

글. 바이라인네트워크
<김우용 기자>yong2@byline.network

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다


The reCAPTCHA verification period has expired. Please reload the page.