오프라인 구동 가능한 기업용 AI…구글 ‘젬마4 12B’ 공개

기업의 내부 데이터를 외부 클라우드 서버로 보내지 않고도 일반 업무용 기기에서 고성능 인공지능(AI)을 구동할 수 있는 모델이 출시됐다. 인터넷 연결이 차단된 사내망이나 오프라인 환경에서도 민감한 데이터를 처리할 수 있어, 데이터 유출 방지가 필수적인 기업 간 거래(B2B) 시장을 겨냥했다.

구글 딥마인드는 3일 외부 통신 없이 기기 자체에서 돌아가는 오픈소스 AI 모델 ‘젬마(Gemma) 4 12B’를 공개했다.

회사는 이 모델이 약 120억개 매개변수를 갖추고 있고, 16GB 메모리(VRAM) 사양의 일반 기업용 노트북만 있으면 인터넷 연결 없이도 작동한다고 설명했다.

제한된 사양의 기기에서 대규모 AI 모델을 매끄럽게 움직이게 할 수 있는 비결은 ‘인코더 프리(Encoder-free)’ 아키텍처다. 기존 멀티모달 AI는 별도의 인코더 모듈을 반드시 거쳐야 했다. 이미지나 음성 데이터를 언어 모델이 이해할 수 있도록 한 번 번역해 줘야 하기 때문이다.

반면 젬마 4 12B는 이 인코더를 과감히 제거하고, 시각 및 청각 원시 데이터를 AI 중심부인 대규모언어모델(LLM) 백본으로 직접 입력하는 통합형 구조를 채택했다. 레이턴시(데이터 처리 지연 시간)를 줄이면서도 기기의 메모리 사용량을 대폭 낮출 수 있었다.

구동 환경은 가벼워졌지만 처리 능력은 향상됐다. 젬마 4 12B는 크기를 줄였음에도 자사의 상위 모델인 ‘26B 혼합전문가모델(MoE)’에 근접한 벤치마크 성능을 기록했다. 특히 AI가 한 번에 처리할 수 있는 정보량을 뜻하는 ‘컨텍스트 윈도우’는 25만6000토큰을 지원한다. 이는 분량이 많은 재무 보고서나 방대한 코드 저장소 등을 한 번에 분석할 수 있는 수준이다. 별도의 변환 과정 없이 오디오 입력을 기본적으로 지원해, 오프라인 기기 내에서 직접 음성을 문자로 변환하거나 번역하는 작업도 가능하다.

무조건 만능은 아니다. 기기 사양을 극도로 압축한 탓에 오디오 입력은 최대 30초, 비디오 분석은 최대 60초까지만 처리할 수 있는 하드웨어적 제약이 존재한다. 방대한 범용 지식을 묻고 답하는 용도보다 주어진 사내 문서를 요약하거나 짧은 지시를 수행하는 엔진 역할에 특화됐다.

글. 바이라인네트워크
<김원민 기자>wmkim627@byline.network