생성AI 뼈대는 여기서 시작했다...구글 ‘트랜스포머’

챗GPT 열풍 속 생성 인공지능(AI)기술이 봇물처럼 쏟아지는 현재. 지금이야 오픈AI가 생성AI의 대표적인 기업으로 여겨지지만, 사실 오픈AI에 앞서 생성AI의 씨앗을 뿌린 회사는 따로 있다.

지금 시장에 나온 생성AI 기술은 기본적으로 구글이 잉태했다고 해도 과언이 아니다. 2017년 구글은 ‘Attention is all you need’ 논문을 통해 ‘GPT(Generative Pre-trained Transformer)’의 기반이 된 트랜스포머 모델을 제시했다. GPT의 ‘T’도 이 트랜스포머에서 따왔다.

논문을 들여다보면 현재의 다양한 생성AI 기술의 뼈대를 그려볼 수 있다. 논문에 따르면 트랜스포머는 문장 내 단어 사이의 관계를 수월하게 파악하는 데 초점을 맞춘다. 자연어로 프롬프트를 입력하면 이를 바탕으로 답을 내는 지금의 생성AI 모두가 여기서 파생됐다.

구체적으로 어텐션(Attention)으로 불리는 방식이다. 어텐션 방식은 기존의 순환 신경망(RNN ·Recurrent Neural Network)의 단점을 개선했다. RNN은 순차적으로 시퀀스 각각을 따와 연산하면서 연산량 증가 문제나 시퀀스에 담긴 데이터 간의 상관관계를 파악하기 어려웠다. 하지만 어텐션 방식은 문장을 병렬로 번역해 서로 거리가 떨어진 단어까지도 연관성을 알아내 이해 능력을 높였다는 설명이다. 긴 문장을 써도 생성AI가 이를 해석해 답변을 내는 것도 이 덕분이다.

널리 알려진 GPT-3와 버트(BERT)가 대표적으로 어텐션 방식에서 파생된 모델이다. 2018년 10월 발표된 버트는 양방향으로 자연어를 분석한다. 여기서 방향이란 문장을 읽어나가는 순서다. 앞에서 뒤로 읽어가거나 뒤에서 앞으로 읽어가며 문장을 분석해 문맥을 이해하는 데 유리하다.

2020년 발표된 GPT-3는 단방향 분석 방식을 따른다. 자연어 이해도 자체는 버트에 비해 떨어질 수 있지만 차례로 문장을 이어나가는 데는 GPT-3이 앞선다. 챗GPT가 이를 뼈대로 한 GPT-3.5 모델을 쓰는 것도 이 때문이다.

이경전 경희대 경영학·빅데이터응용학과 교수는 “버트는 분석이나 번역용, GPT-3는 문장 생성에 주로 쓰여 용도가 다르다”며 “버트는 트랜스포머 구조에서 인코더만을, GPT-3는 디코더만을 활용한다고 보면 쉽다”고 말했다.

2021년 5월 구글은 람다(LaMDA) 기술을 발표했다. 구글의 초거대 언어 생성AI 모델 바드(Bard)는 이 람다를 기반으로 한다. 실시간 정보를 바탕으로 답하는 람다는 1370억개의 파라미터(매개변수)를 써서 대화를 익혔다. 구글은 GPT-3보다 더 자연어 처리에 적합한 모델이라고 주장한다. 여기에 지난해 4월 구글은 또 한 단계 진보한 팜(PaLM) 모델을 발표하며 5400억개의 파라미터를 사용했다고 밝혔다.

여기서 알아야 할 게 바로 파라미터다. 사람의 뇌로 치면 사고 과정에 관여하는 ‘시냅스(Synapse)’에 해당한다. 통상 파라미터 수가 많을 수록 AI 성능이 뛰어난 것으로 인식된다.

하지만 반드시 유려한 답변이나 빠른 응답 등 파라미터 수가 AI의 퍼포먼스와 반드시 비례하는 것은 아니다. 현재 네이버 하이퍼클로바의 파라미터 수는 2040억개. 하지만 1750억개를 가진 GPT-3.5가 더 좋은 기술로 인식된다. 지난 2월 메타가 독자 개발한 AI모델 ‘라마(LLaMa)’도 가장 최근의 모델이지만 매개변수는 650억개에 그친다. 또 오픈AI는 최근 발표한 GPT-4의 정확한 매개변수 숫자를 공개하지 않았다.

결국 파라미터 수는 기본적인 데이터 틀일 뿐 성능 그 자체로 받아들여서는 안된다는 설명이다.

이경전 교수는 “파라미터 수가 꼭 (생성AI 모델의) 성능과 연결되지는 않는다. 어떻게 학습을 시켰느냐가 좌우한다”며 “파라미터 수만 볼 것이 아니라 여러 벤치마크를 활용했을 때 각 모델의 성능을 정확히 파악할 수 있다”고 말했다.

글. 바이라인네트워크
<이진호 기자>jhlee26@byline.network