[그게 뭔가요] 어려운 ‘생성AI’ 용어, 정리했습니다
생성형 인공지능(AI)이 IT 환경에 깊게 뿌리내렸지만 여전히 어려운 용어들은 제대로 된 이해를 막는 걸림돌이 된다. 말부터 혼란스러우면 어렵다고 느낄 수밖에 없다. 적용 과정에서도 어려움이 발생한다.
암호 같은 용어가 머리를 지끈거리게 하고, 기업들도 용어를 섞어 쓰면서 같은 이야기를 다르게 하는 경우가 있다. 꼭 알아야 할 생성AI 용어들의 개념을 정리해봤다.
LLM: ‘Large Language Model’의 머리글자를 땄다. 우리말로는 ’거대언어모델’이라고 한다. 풀어 표현하자면 거대한 언어 뭉치들을 분석해 언어로 질문 답변을 내는 AI다.
흔히 챗GPT를 연상하지만 정확히 말하면 이 챗GPT의 기반인 ‘GPT(Generative Pre-Trained Transformer)’ 모델이 LLM이다. 프롬프트(질의 문구)를 사람이 입력하면 LLM은 수많은 파라미터(매개변수)를 가동시켜 적절한 답변을 찾아낸다. 일각에서는 다양한 생성AI 서비스의 바탕이 된다는 점에서 ‘기반 모델(Foundation Model·FM)’이라고도 표현한다.
오픈AI의 GPT를 비롯해 메타의 ‘라마(LLaMa), 구글의 ‘제미나이(Gemini)’, 앤트로픽의 ‘클로드(Claude)’ 등이 대표적인 LLM이다. 구글과 앤트로픽은 ‘챗’을 앞에 붙인 오픈AI와 달리 LLM의 이름과 AI 챗봇 이름이 동일하다. 메타의 라마는 타사와 다르게 오픈소스로 공개해 누구나 사용할 수 있다.
국내 기업이 만든 LLM으로는 네이버의 ‘하이퍼클로바X’가 대표적이다. 네이버는 이를 활용해 챗봇 ‘클로바X’를 제공한다. 뿐만 아니라 대화형 검색이 가능한 ‘큐(Cue:)’ 서비스도 출시했다. 코난테크놀로지도 자체 개발한 ‘코난 LLM’을 지난해 공개했다.
LLM의 성능은 일차적으로 파라미터 수로 가늠할 수 있다. 하지만 파라미터 수가 많으면 그만큼 학습에 필요한 컴퓨팅 리소스 부담이 커진다. 때문에 꼭 필요한 데이터만 학습시켜 경량이라는 뜻의 ‘s(small)’을 붙인 sLLM도 등장했다. 단 이는 경량(s)와 거대(L)가 배치되는 개념이라 일부에서는 SLM(Small Language Model)으로 표기하기도 한다.
파라미터(Parameter): 우리말로는 매개변수로 풀이한다. LLM 성능의 핵심 요소다. 말 그대로 정확한 답변에 이르기까지의 변수 숫자로 이해하면 빠르다. 대표적인 AI 챗봇인 챗GPT 무료 버전의 GPT-3.5 파라미터 수는 1750억개다.
AI 챗봇의 응답 구조를 살펴보면 개념을 이해하는 데 더 도움이 된다. AI 챗봇 질문창에 “네 발이 달리고 눈이 동그랗고 혼자 놀기 좋아하는 데 강아지는 아닌 대표적인 반려동물의 종류는?”을 넣었다고 치자.
사람들은 자연스럽게 고양이를 떠올리겠지만 생성AI는 이러한 사전 지식이 없다. 생성AI는 사람이 뇌 기능을 모방한 인공신경망(Artificial neural network)이 기반이다. 때문에 적합한 답을 내놓도록 인공신경망을 ‘미리 훈련’ 시키는 것이 필요하다.
파라미터는 AI 모델의 정확한 답변을 뒷받침하는 설정값의 수라고 할 수 있다. 우리 뇌로 치면 신경세포 뉴런(Neuron)을 연결해주는 통로 ‘시냅스(Synapse)’에 해당한다. 네 발이 달린 동물은 황소도 있고 호랑이도 있다. 하지만 사람들의 머릿속 상식처럼 고양이로 답하려면 AI 알고리즘이 고양이를 답으로 내놓도록 훈련해야 한다.
고양이라는 답변을 내놓는 알고리즘에 가중치(Weight)와 편향(Bias)를 줘야 복잡한 질문이라도 제대로 이해하고 답을 내놓는다. 이에 파라미터를 가중치(weight)와 편향치(bias)을 주는 시냅스 수로 보는 견해가 있다. GPT-3.5라면 1750억개의 시냅스가 있는 셈이다. 황소에 10억, 호랑이에 10억개의 파라미터가 배정되더라도 나머지 1430억개의 파라미터(통로)가 고양이를 향해 정확한 답으로 유도하는 구조다.
프롬프트(Prompt): 컴퓨터에 명령을 입력할 수 있도록 요청하거나 안내하는 메시지를 의미한다. 쉽게 질문 또는 요청으로 이해하자. 생성AI에서는 좀 더 넓은 의미로 사용되는데 위의 고양이 관련처럼 답변을 요구하는 질문 자체가 프롬프트다.
사전학습(Pre-Trained): 아까 인공신경망을 미리 훈련시켜야 한다고 했다. 더 정확한 답변을 원할수록 양질의 데이터를 넣어 생성AI를 똑똑하게 만들어야 한다.
강아지는 무엇이고 고양이는 무엇인지, 또 어떻게 다른지 등 기초 데이터와 패턴을 미리 알고 있어야 파라미터도 이를 기반으로 가중치와 편향치를 줄 수 있다. LLM이라면 텍스트 데이터를 토큰화(Tokenization)해 모델에 활용한다. 데이터를 사전에 넣어 문장의 구조나 단어 관계 등을 이해해 파라미터 작동의 기반을 마련하는 과정이다.
토큰(Token): AI 모델에서 텍스트를 학습할 때 사용하는 기본 단위다. AI 챗봇이라면 사전학습 단계에 넣는 텍스트 데이터를 단어 단위로 쪼갠 게 토큰이라고 보면 쉽다. 한국어든 영어든 언어는 관계가 없지만 한국어 토큰을 많이 활용하면 그만큼 한국어 프롬프트의 이해도가 높아지는 식이다.
미세조정(Fine-Tuning): 기본적인 데이터가 사전학습된 정도로는 일반적이고 상식적인 답변에 그칠 가능성이 크다. 어떤 특정 기업만 쓰는 용어가 있다면 사전학습만으로는 제대로 반영하지 못한다. 미세한 정보까지 이해하고 답해야 한다. 이 미세조정 단계에서 한 번 더 새로운 데이터 특징을 학습시켜야 해당 작업에 대한 예측이나 답변 생성을 정확히 수행할 수 있다.
프라이빗(Private) LLM: 기업이나 기관, 개인 등 각자 다른 업무에 ‘특화’한 LLM이다. 별도의 사전학습과 더불어 업무에 특화한 데이터로 미세조정해 파라미터수는 조금 작더라도 해당 도메인 분야에서만큼은 정확한 답변을 내도록 설계한 LLM이다.
매스프레소와 생성AI 스타트업 업스테이지의 협력 사례를 보면 이해가 빠르다. 바로 이 프라이빗 LLM 제작에 협력하기로 했다. 매스프레소가 수학 학습 플랫폼 콴다를 제공하는 만큼 업스테이지는 수학 공식과 개념을 파인튜닝해 수학에 특화한 LLM을 내놓기로 했다.
환각(Hallucination): 생성AI의 가장 큰 맹점으로 꼽힌다. 많은 토큰으로 사전학습하고 추후 미세조정을 거치더라도 100% 정확한 답변이 나오지 않을 수 있다. 현재의 LLM은 답을 ‘찾아’낸다기보다는 사전학습과 미세조정 과정을 거친 텍스트 데이터간 관계를 보고 답을 ‘만들어’내는 형태다. 학습 데이터를 기반으로 답을 내놓는 LLM의 한계이기도 하다.
멀티모달(Multi-modal): 빠른 AI 기술 발전으로 멀티모달 모델도 등장했다. 어원이 된 모달은 형태나 유형이라는 뜻의 명사 ‘Mode‘의 형용사형이다. 모드가 여러개라는 뜻이다. 텍스트를 입력해 이미지나 영상을 만들거나, 반대로 이미지를 업로드하고 설명을 넣어 영상으로 만드는 등 텍스트·이미지·영상 등 여러 모드를 지원하는 형태를 말한다.
글. 바이라인네트워크
<이진호 기자>jhlee26@byline.network
※ 이 기사는 한빛미디어의 도서 ‘멀티모달 생성 AI 인사이드(홍정한 ·변형균 저)’의 내용을 일부 참조했습니다.