네이버 신무기 ‘서치GPT’, 챗GPT보다 강력한 이유 [DEVIEW 2023]

국내 최대 개발자 콘퍼런스 ‘데뷰(DEVIEW) 2023’ 개최
차세대 검색 ‘서치GPT’, 한국어 특화에 신뢰성·최신성 강화
다양한 출처 기반으로 거짓말 문제 해결
“입체적 피드백 활용한 강화학습 답변, 정확성 지속 개선”
오는 7월 전문영역 생성AI 프로덕트 가능한 ‘하이퍼클로바X’ 공개

“정보의 신뢰성(trustworthy), 네이버 서비스와의 연결성(connected), 효과적인 정보 제공을 위한 멀티모달(multimodal) 세 가지를 중점으로 프로젝트를 진행 중입니다.”

김용범 네이버 서치US 최고과학자(Chief Scientist)<사진>는 27일 서울 코엑스에서 네이버가 주최한 개발자 콘퍼런스 ‘데뷰(DEVIEW) 2023’에서 차세대 검색 프로젝트인 서치GPT를 구체적으로 소개했다. 서치GPT는 올 상반기 중에 선보인다.

앞서 최수연 네이버 대표가 2022년 4분기 실적발표 콘퍼런스콜에서 서치GPT에 대해 “한국어로는 가장 고품질의 검색 데이터를 가장 많이 보유했다”며 “생성형 AI의 단점인 신뢰성·최신성 부족 그리고 해외 업체들의 영어 기반 개발 모델을 한국어로 번역해 발생한 정확성 저하를 해결할 수 있다”고 말한 바 있다.

현재 챗GPT는 할로시네이션(hallucination·환각) 문제에 직면해 있다. 정보의 관계성을 분석해 답을 생성하는 형태로 정답 여부를 따지지 않고 때로는 거짓말을 결과로 내보인다. 네이버 서치GPT는 검색 엔진과 연결, 다양한 출처 기반으로 거짓말 문제를 해결한다. 이를 통해 최신 정보도 반영할 수 있다. 텍스트에 국한된 챗GPT(GPT-3.5 기반)와 달리 멀티모달을 지원해 이미지와 사운드 등 다양한 형식의 입출력도 가능하다.

서치GPT 구조도 (사진=네이버)

서치GPT 프로젝트는 하이퍼클로바를 네이버 검색에 특화한 검색대규모언어모델(Search LLM)인 ‘오션(OCEAN)’을 백본(back-bone)으로 활용한다. 네이버가 20년간 축적한 사용자의 검색 흐름 데이터를 모델링해 사용자가 검색 목적을 달성할 수 있게 최적의 경로를 안내, 이를 통해 검색 의도와 결과를 더 잘 이해하고 신뢰성이 강조된 답변을 생성할 수 있게 하는 기술이다.

김용범 과학자는 “서치GPT는 ‘올씽서치(All thing search)’, 검색과 관련한 모든 문제에 대응할 수 있다”며 “텍스트와 이미지, 오디오 등 다양한 모델을 입력과 출력에 사용하면 새로운 환경의 적응력도 빠르게 갖추고 있다”고 강조했다.

네이버는 서치GPT에 서치LLM을 통한 팩트검증 모델을 적용했다. ▲사실 기반의 수많은 콘텐츠 생산자들이 실시간 업데이트하는 블로그와 같은 최신 이슈 및 트렌드 정보 ▲네이버 통계 기반 정보 ▲외부 회사 홈페이지 ▲레퍼런스 문서를 지속적으로 수집한 지식 데이터 등을 조합해 사실성 검증을 거친다.

김 과학자는 “서치GPT에서 가장 중요하게 생각하고 있는 가치가 바로 신뢰할 수 있는 결과”라며 “좋다 나쁘다 피드백만 아니라 서로 다른 유형의 입체적인 피드백을 활용한 강화학습 모델을 적용한 답변은 정확성을 지속적으로 개선하는데 기여할 수 있다”고 설명했다.

서치GPT 이용자가 코로나 백신 정보와 방역 기준을 요구하면, 네이버 내 다양한 출처와 검증 경로를 통해 정보를 확인한다. 이용자가 결과를 보고 곧바로 추가 질문도 가능하다. 식당 추천엔 네이버 플레이스 정보를, 과일이나 쇼파 구매 요구엔 쇼핑 정보에 구매 데이터까지 연결하는 식이다.

예를 들어, ‘성수동 밤 10시에 카페 사진 잘 나오는 곳’이라고 다소 복잡한 질문에 네이버 플레이스와 블로그 문서를 참조하고, 해당 정보를 보여주면서 다음 질문(넥스트 액션)을 할 수 있게 도와준다. ‘제철 과일 2박스 이상 할인하고 수요일까지 도착 가능한 곳’이라고 질문하면 쇼핑과 블로그 등 문서를 참조해 수요일까지 과일을 배송받을 수 있게 답변을 만들어준다.

텍스트로 표현이 힘든 ‘인테리어 추천’의 경우 거실 사진을 입력하면, 해당 사진 기반으로 인테리어 공간을 생성해주고, 파란색 쇼파를 추가 요청할 경우 해당 정보를 노출한 뒤 구매 경로까지 연결한다.

김 과학자는 “음악과 웹툰 등 네이버 생태계의 다양한 서비스와 연결해 줄 수 있다”며 “정확하고 신뢰성 높은 검색 결과에 검색 목적을 예측해 최적화된 서비스 연결을 해준다”고 힘줘 말했다. 덧붙여 “질문과 응답에 맞는 최적화 모델리티, 편리하고 새로운 검색 결과들이 여러분을 찾아갈 것”이라고 자신감을 보였다.

데뷰(DEVIEW) 2023 현장 (사진=이대호 기자)

한편 올해 15회차를 맞이한 데뷰2023은 오는 28일까지 이틀간 삼성동 코엑스에서 3500여명이 참가자들과 함께 진행된다. AI/ML, 클라우드, 웹, 검색, 모바일, NLP, 데이터, 추천, 인프라 등 총 46개 세션으로 구성됐다.

이날 네이버는 DEVIEW 2023에서 고객의 목적에 맞춰 최적화할 수 있는 초대규모AI ‘하이퍼클로바X’를 7월 중 공개하겠다고 밝혔다. ‘누구나 활용 가능한 AI’를 목표했다.

성낙호 네이버 하이퍼스케일AI 기술 총괄은 “하이퍼클로바X는 챗GPT 대비 한국어를 6500배 더 많이 학습하고 사용자가 바라는 AI의 모습을 발현시킬 수 있도록 개선된 AI인 만큼, 작은 양의 데이터라도 고객이 보유한 데이터와 결합하면 특정 서비스나 기업 등 해당 영역에 최적화된 초대규모AI 프로덕트 구축이 가능하다”며 “사용자 니즈에 맞는 응답을 다양한 인터페이스로 즉각 제공할 수 있도록 업그레이드했다”고 말했다.

글. 바이라인네트워크
<이대호 기자>ldhdd@byline.network

관련 글

첫 댓글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다