[그게 뭔가요] 생성AI의 우물…‘LLM’

챗GPT 이후 열풍을 이어온 생성인공지능(AI). 놀라움의 시선은 생성AI가 만들어 낸 결과물에 향하지만 사실 그 바탕은 따로 있다. 사람의 의도를 읽고 생성AI 솔루션을 통해 답을 내놓는 데 도움을 주는 거대 언어모델(LLM)은 생성AI의 시작을 맡는 씨앗이나 마찬가지다.

이 LLM이라는 녀석은 어떤 기술을 바탕으로 하고 어떤 기능을 수행할까.

LLM은 무엇? 관계 파악해 문장 추론”

LLM은 ‘Large Language Model’의 약자로 우리말로 풀면 ‘거대 언어모델’이라는 뜻이다. 그 방대한 처리능력을 강조하기 위해 초거대 언어모델이라고 표현하기도 하는 LLM은 문장 내 단어 사이의 관계를 파악하고 이어 나가는 데 초점을 맞추는 기술이다. 어떤 텍스트가 입력되면 다음 텍스트는 어떻게 이어져야 할지 예측해 내고, 다시 다음 텍스트를 잇는 과정을 되풀이한다. 사람이 일상적으로 쓰는 자연어처리(NLP)에 특화한 모델로써 단어 간 상관관계를 읽어 적확한 문장을 뽑는 게 핵심이다.

LLM의 1차적인 성능은 파라미터(매개변수)로 가늠한다. 파라미터는 사람의 뇌로 치면 사고 과정에 관여하는 ‘시냅스(Synapse)’에 해당한다. 단 파라미터 수를 성능 그 자체로 받아들여서는 안 된다. IQ가 높다고 꼭 정확한 답을 내는 게 아닌 것처럼 파라미터가 반드시 정확성을 담보하지는 않는다.

토큰의 개념도 알아두면 좋다. 파라미터가 생각을 맡는 뇌의 기능이라면 토큰은 LLM이 인식하는 문자 데이터 단위를 뜻한다. 컴퓨터가 입력값을 이해하는 데 용이하도록 텍스트를 쪼개놓은 단위로 생각하면 쉽다. LLM을 학습시킬 때 바로 이 토큰의 수가 많아야 더 많은 것을 학습한 LLM으로 본다. 최근 국내 AI 스타트업 업스테이지가 토큰 1조개를 모으는 ‘1T(Trillion) 클럽’을 발족하기로 한 것도 한국어 토큰을 더 많이 확보하기 위해서다.

LLM을 쓰임새에 맞게 미세조정하는 과정은 ‘파인튜닝(Fine-Tuning)’이라고 한다. 학습한 데이터를 그대로 따라가게 되면 적용 시 현실과 괴리가 생기거나 애먼 답변을 내놓을 수 있다. 데이터를 생성물의 원천으로 삼되 선정적이고 폭력적인 단어를 필터링하거나 편향된 답변을 걸러내는 일종의 후처리 작업에 해당한다.

또 최근에는 경량이라는 뜻의 ‘s(small)’을 붙인 sLLM 개념이 나오며 특정 분야를 위한 경량 거대언어모델도 각광 받고 있다. 수억개의 파라미터를 돌리기 위한 컴퓨팅 리소스를 절약하고 특화한 튜닝 작업으로 특정 분야에 적합한 답변을 내놓는 LLM이다. AI 모델을 개발할 떄는 파라미터수와 비례해 추론 서버가 필요해 비용도 많이 든다. 이에 파라미터 수를 줄여 더 가볍게 꼭 필요한 부분에 맞도록 특화한 게 sLLM이다.

생성AI와 함께 언급되는 장치도 있다. 그래픽처리장치(GPU)는 이 LLM을 학습시키는 데 꼭 필요한 하드웨어다. 본래 게임 같은 고성능 그래픽 구현을 위한 장치이지만 많은 데이터를 동시에 처리할 수 있어 AI 모델 학습에도 높은 성능을 발휘한다. GPU 시장의 90% 이상을 장악한 것으로 알려진 엔비디아가 현재 주목받는 것도 GPU가 이 LLM 학습에 필수적인 요소라서다.

오픈소스 모델도…업무 생산성 향상의 토대

LLM의 대표적인 활용 분야는 생성AI 챗봇이다. 지난해 11월 출시한 챗GPT는 오픈AI의 챗GPT, 올해 출시된 구글의 바드(Bard)는 ‘팜(PaLM)’를 기반으로 구동된다. 생성AI챗봇 뒤에서 돌아가며 사람의 프롬프트를 인식, 가장 적절한 답변을 찾도록 돕는 게 현재 LLM의 가장 대표적인 쓰임새다.

현재 GPT의 최신 버전은 ‘GPT-4’다. 1750억개의 파라미터를 보유했던 GPT-3.5와 달리 GPT-4의 구체적인 파라미터 수는 공개되지 않았다. 일각에서는 파라미터 수로 성능을 가늠하는 풍토 탓에 공개하지 않았다는 분석도 나온다. 구글의 팜2는 5400억개의 매개변수를 갖췄는데 특히 수학적 추론에 강하다는 게 회사의 설명이다.

이 밖에 비교적 후발주자인 메타(구 페이스북)는 최신 버전인 ‘라마(LLaMa)2’를 오픈소스로 공개했다. 70억개, 130억개, 700억개의 파라미터를 갖춘 3가지 모델로 선택의 폭을 넓힌 가운데, 누구나 코드를 확인하고 수정할 수 있도록 해 활용 폭을 높인다. 알리바바클라우드 또한 70억개 파라미터를 갖춘 ‘쿠안(Qwen)-7B’를 오픈소스로 공개했다.

LLM은 오피스SW나 검색에도 활용된다. 마이크로소프트는 검색엔진 빙에 챗GPT를 통합한 빙챗을 내놨고, 생성AI 기능을 대거 붙인 ‘마이크로소프트365 코파일럿(Copilot)’ 출시 계획을 잡은 상태다. 마이크로소프트의 클라우드 서비스인 애저(Azure)에서도 GPT의 API를 제공한다. 구글은 바드가 내놓은 답을 지메일이나 구글 시트, 독스 등으로 내보내는 기능을 통해 자사 SW와 연결함으로써 생산성을 높이는 데 활용하도록 했다.

국내 기업도 이미 마중물을 떴다. LG AI연구원은 지난달 말 ‘엑사원(EXAONE)’ 2.0을 공개한 바 있다. 엑사원 2.0은 한국어와 영어를 동시에 이해하고 답변할 수 있는 이중 언어(Bilingual) 모델로 개발한 것이 특징이다. 네이버 또한 자사 LLM 하이퍼클로바 X를 기반으로 한 대화형 AI 서비스 ‘클로바X’를 선보일 예정이다. 카카오도 오는 10월 이후 ‘코GPT 2.0′(가칭)과 sLLM 모델인 ‘코GPT 라이트'(가칭) 개발에 한창이다. 카카오의 경우 60억개부터 많게는 650억개의 파라미터 모델을 테스트하고 있는 것으로 전해졌다.

‘환각’은 LLM의 맹점

할루시네이션(Hallucination·환각) 문제는 모든 LLM이 해결해야 할 문제다. 정확하지 않은 정보를 진짜처럼 내놓는 할루시네이션 현상은 학습 데이터를 기반으로 답을 내놓는 LLM의 태생적 한계다. 파라미터보다 토큰값과 파인튜닝의 중요성이 상대적으로 더 강조되는 것도 이 때문이다.

현재의 LLM 기술은 구글이 2017년 제시한 트랜스포머(Transformer) 개념이 바탕이다. 단어의 문맥 관계를 파악하는 어텐션(Attention) 메커니즘이 트랜스포머의 뼈대인데, 이는 답을 ‘찾아’낸다기보다는 문장의 관계를 보고 답을 ‘만들어’내는 형태다.

어떤 단어가 있으면 이를 둘러싼 문맥을 보고 다른 단어를 계속 붙이는 구조로, 통계적으로 확률이 낮은 건 스스로 오답으로 인식하며 할루시네이션이 발생할 수 있다. 또한 가짜 뉴스나 과거 데이터가 끼어있을 경우 아예 생뚱맞은 답을 낼 수도 있다. 쉽게 말해 맞는 답이 아니라 가장 확률이 높은 답을 제시하는 구조다. 이 확률을 높이고 정확도를 잡는 게 앞으로 LLM의 기술력을 좌우할 숙제다.

보안 문제도 현재 LLM이 해결해야 할 요소로 꼽힌다. LLM 사용이나 학습 과정에 쓰인 데이터가 유출되는 데 따른 우려다. 많은 생성AI 서비스 기업이  이 같은 우려를 일축하지만, 해킹 등 외부 공격으로 데이터셋이 탈취되거나, 반대로 LLM 기반의 챗봇으로 해킹 소스코드를 만들어내는 등 보안 이슈는 앞으로 반드시 개선해나가야 할 과제다.

글. 바이라인네트워크
<이진호 기자>jhlee26@byline.network

관련 글

첫 댓글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다