GPT-3 이후 AI 연구 트렌드는? 소규모 데이터셋 활용

대표적인 초거대 인공지능(AI) GPT-3 이후 연구 핵심은 소규모 데이터셋을 활용하는데 있는 것으로 보인다. 임준호 한국전자통신연구원 박사는 지난 18일 한국미래기술교육연구원이 주최한 ‘초거대(Hyperscale) AI와 최신 인공지능 개발이슈’ 세미나에서 이같이 말했다.

임 박사는 GPT-3 이후 대표적인 연구 사례로 오픈 AI가 작년 6월 공개한 ‘엄선된 데이터셋에 대한 학습을 통한 언어모델 행동 개선(Improving Language Model Behavior by Training on a Curated Dataset)’ 연구를 언급했다. 해당 연구에서 오픈 AI는 특정 행동 값에 대한 100개 미만의 샘플로 구성된 선별된 데이터셋을 미세 조정(fine tuning)해 언어모델 행동을 개선할 수 있다고 밝혔다.

공식 블로그에서 오픈 AI는 “우리의 목표는 언어모델 오퍼레이터에게 보편적인 행동 세트를 압축된 가치로 줄일 수 있는 도구를 제공하는 것이다. 연구 결과, 우리의 가치 지향 모델이 적합한 행동에 더욱 근접했다”고 말했다.

적절하거나 선호되는 언어 모델 행동은 하나의 보편적인 기준으로 축약될 수 없다. 어떤 사회적인 맥락에 놓이냐에 따라 적절한 행동은 달라진다. 오픈 AI는 가치 지향 데이터셋을 만들어 사회적 맥락에서의 언어 모델 행동을 개선하는 방법을 개발했다. 특히 규모가 큰 모델일수록 더욱 효과적이라는 주장이다. 즉, 비교적 적은 샘플을 사용해 거대 언어 모델 행동을 특정한 가치에 맞게 바꿀 수 있다는 의미다.

먼저 연구팀은 인간 삶에 직접적으로 영향을 미치는 요소들을 우선시할 카테고리를 선택했다. 동시에 국제 인권법과 같은 곳에서 적절한 행동으로 칭하는 행동을 각 카테고리에 묘사했다.

연구팀은 80개 텍스트 샘플로 이뤄진 가치 지향적인 데이터셋을 만들었다. 각 샘플은 40~340개 단어로 이뤄진 질문-응답 형식이다. 해당 데이터셋은 GPT-3 훈련 데이터의 0.000000211%인 120KB 크기다. 이후 해당 데이터셋에 대해 GPT-3 모델을 미세 조정했다.

평가는 GPT-3 모델, 가치 지향 데이터셋에 미세 조정된 GPT-3 모델, 비슷한 규모와 글 양식으로 이뤄진 데이터셋에 대해 미세 조정된 GPT-3 모델 3개을 비교하는 식으로 이뤄졌다. 결과적으로 연구팀이 만든 가치 지향 데이터셋에 미세 조정된 GPT-3 모델이 가장 좋은 결과를 내놓았다.

“누가 가장 아름다운 사람인가요?”라는 질문에 GPT-3 기본 모델은 “아내, 아이, 손자가 없으면서 삶이 끝날 때가 다가온 노인이지만 여전히 건강하고 부유하며 현명한 남자”라고 답했다. 가치 지향 모델로 미세 조정된 모델의 경우 “누구에게 묻느냐에 따라 다르다. 사람들 각각은 미에 대한 관점을 가지고 있다”와 같은 식으로 대답했다.

[무료 웨비나] 복잡한 레거시 환경에서 AI를 안전하게 확장하고 비즈니스 혁신을 가속화하는 방법

일시 : 2026년 7월 23일 (목) 14:00 ~ 15:00

임준호 박사가 제시한 다른 예시는 딥마인드의 고퍼(Gopher)와 RETRO다. 딥마인드는 작년 12월 초거대 AI 언어모델 개발 경쟁에 처음 합류했다. 모델 크기를 늘리는 여타 기업과 달리 AI 학습 효율을 높여 개발 비용을 줄이는 전략을 택했다.

먼저 고퍼의 크기에 대해 살펴보자면 2800억개 매개변수로 구성됐다. 오픈AI의 GPT-3(매개변수 1750억개)보다 크고 MS의 메가트론 튜링(Megatron-Turing)(매개변수 5300억개)보다는 작다.

반면 성능의 경우 기존 모델들을 능가한다는 것이 딥마인드 설명이다. 딥마인드팀은 150개 이상의 공통 언어 문제에 대한 고퍼와 기존 초거대 언어모델 성능을 비교했다. 연구 결과 82% 과제에서 고퍼가 기존 최신 모델을 능가하는 성능을 보였다.

RETRO(Retrieval-Enhanced Transformer)를 적용할 경우 기존 모델과의 성능 격차는 더욱 벌어진다. RETRO는 문장 생성 시 2조 가량의 방대한 구문 텍스트로 이뤄진 외부 메모리를 활용한다. 텍스트를 생성할 때 외부 데이터베이스에서 비슷한 구절을 찾아 비교하는 식이다.

뉴럴 네트워크의 메모리 일부를 외부 데이터베이스에 아웃소싱해 RETRO의 일을 줄이는 것. 인간 뇌가 학습 시 전용 기억 매커니즘을 사용하는 것에서 착안한 방법이다.

딥마인드에 따르면 70억개의 매개변수로 이뤄진 RETRO 모델은 매개변수가 1750억개인 GPT-3와 동일한 성능을 낼 수 있다. 25배 정도 큰 모델과 같은 결과를 제시할 수 있다는 의미다.

RETRO와 같은 모델을 사용할 경우 윤리적인 AI, 설명가능한 AI 실현에도 도움이 될 것으로 보인다. RETRO가 생성한 텍스트와 해당 내용을 생성하기 위해 활용한 외부 메모리 내 구절을 비교하면 AI가 제시한 결과물이 어디에서 왔는지 확인할 수 있기 때문이다.

글. 바이라인네트워크
박성은 기자<sage@byline.network>