[그게 뭔가요] 뮤즈 스파크, AI 경쟁 탈락했던 메타의 반전 카드
메타가 새로운 AI 모델 ‘뮤즈 스파크(Muse Spark)’를 공개했다. 지난해 수조 원 규모의 AI 조직 개편과 인재 영입 이후 처음 내놓는 결과물이다. 뮤즈 스파크는 무엇이고, 왜 주목받으며, 어떤 평가를 받고 있을까.
뮤즈 스파크, 어떤 모델인가
뮤즈 스파크는 메타의 새 AI 연구 조직 ‘메타 슈퍼인텔리전스 랩스’가 개발한 첫 번째 모델이다. 메타는 뮤즈 스파크를 뮤즈 시리즈의 첫 모델로 소개하며, 각 세대가 다음 세대의 토대가 되는 체계적 접근법으로 개발됐다고 밝혔다. 현재 더 큰 후속 모델도 개발 중이다.
가장 큰 특징은 텍스트와 시각 정보를 처음부터 통합해 설계한 ‘네이티브 멀티모달 추론 모델’이라는 점이다. 이전 세대 모델들이 시각과 언어 기능을 이어 붙인 방식이었다면, 뮤즈 스파크는 내부 추론 과정 자체에 시각 정보가 녹아들어 있다.
예를 들어 기존 AI 모델들은 이미지를 입력받으면 일단 ‘이 사진에는 고양이가 있고, 소파가 있고, 창문이 있다’는 식으로 텍스로 변환하고, 그 텍스트를 기반으로 추론했다. 비전(시각)과 언어가 별개의 파이프라인으로 돌아가다가 중간에 합쳐지는 구조였다.
뮤즈 스파크는 이 구조를 바꿨다. 이미지를 텍스트로 변환하는 과정 없이, 시각 정보 자체를 추론의 재료로 직접 활용한다. 사람이 이미지를 볼 때 언어로 변환하지 않고 그냥 존재를 이해하는 것과 비슷하다고 볼 수 있다.
회사 측은 이를 통해 ‘시각적 사고 연쇄’가 가능하다고 설명했다. 기존 모델들은 텍스트를 기반으로 연쇄적으로 사고했지만, 이젠 시각 정보로 가능하다는 것이다.
입력 방식은 텍스트, 이미지, 음성을 모두 지원하며, 도구 사용과 다중 에이전트 오케스트레이션도 기본 탑재됐다.
메타는 모델의 효율성도 강조했다. 기존 라마4 매버릭과 동등한 성능을 10분의 1 이하의 컴퓨팅 자원으로 달성했다고 밝혔다.
뮤즈 스파크는 질문의 복잡도에 따라 세 가지 모드로 작동한다. 간단한 질문에는 빠른 답변 모드, 법률 문서 분석이나 식품 영양 정보 추출처럼 복잡한 과제에는 고급 추론 모드를 사용할 수 있다. 가장 복잡한 작업에는 컨템플레이팅 모드(Contemplating mode)가 적용된다.
컨템플레이팅 모드는 여러 AI 서브에이전트를 병렬로 실행해 동시에 문제를 추론하는 방식이다. 예를 들어 가족 여행 계획을 세울 때 한 에이전트는 일정을 짜고, 다른 에이전트는 목적지를 비교하며, 또 다른 에이전트는 아이들이 즐길 수 있는 활동을 찾는 식으로 동시 작업이 이루어진다. 메타는 이 기능이 구글의 제미나이 딥 씽크나 오픈AI의 GPT 프로급 확장 추론 모드에 대응할 수 있는 수준이라고 밝혔다. 다만 컨템플레이팅 모드는 출시 첫날 전면 공개되진 않고, 단계적으로 적용될 예정이다.
라마4 실패와 대규모 개편
사실 뮤즈 스파크는 실패의 산물이다. 메타가 지난해 4월 공개한 라마4로 오픈AI나 앤트포릭, 구글과 경쟁하려고 했다. 하지만 라마4는 좋은 평가를 받지 못했다. 더 심각한 문제는 ‘벤치마크 조작 의혹’이다. 공개 벤치마크에서 좋은 모델을 사용하고, 실제 사용자에게는 다른 버전을 제공한 것으로 알려졌다.
이 사태 이후 저커버그는 대대적인 AI 조직 개편에 나섰다. 그는 자사의 AI 모델이 경쟁사에 뒤쳐지는 것에 불만을 갖고 있었기 때문에 벤치마크 조작의혹은 칼바람의 도화선이 됐다.
저커버그는 스케일AI 지분 일부(49%)를 인수하고, 공동창업자인 알렉산드르 왕을 최고AI책임자(CAIO)로 영입했다. 왕 CAIO에게 메타 슈퍼인텔리전스 랩스를 맡겼다. 이후 오픈AI, 앤트로픽, 구글 출신 AI 연구자들을 대거 스카우트했다. 일부 인물의 경우 영입에 주식 포함 수억 달러를 쓴 것으로 전해지기도 했다. 메타 슈퍼인텔리전스 랩스는 모델 아키텍처, 최적화, 데이터 큐레이션을 포함한 AI 스택 전체를 처음부터 다시 구축했다.
메타는 2026년 AI 관련 설비투자로 1150억~1350억 달러를 집행할 계획이라고 밝혔다. 전년 대비 약 두 배 수준이다.
오픈소스 철학과의 결별
뮤즈 스파크에서 가장 논란이 되는 지점 중 하나는 클로즈드(비공개) 모델로의 전환이다. 메타의 이전 모델들은 오픈소스를 추구했다. 모든 학습데이터와 소스코드를 공개한 것은 아니지만, 가중치를 공개한 오픈웨이트 모델이었다.
하지만 이번에는 모델 가중치를 공개하지 않았다. 라마4의 경우 오픈웨이트로 공개했더니 경쟁사들은 가져다 쓰고, 정작 메타 자신은 벤치마크 조작 논란만 얻었다. 공개가 항상 이득은 아니라는 걸 뼈저리게 배웠다.
또 알리바바, 딥시크 같은 중국 기업들이 라마를 기반으로 경쟁 모델을 만들어 역으로 메타를 추격하는 상황이 됐다. 라마 다운로드의 41%가 중국 모델 허브에서 이뤄지고 있다는 통계가 있다. 오픈웨이트가 경쟁자에만 이익을 준 모습이다.
오픈소스로 공개했더니 경쟁사들이 가져다 쓰고, 정작 메타 자신은 벤치마크 조작 논란만 얻었다. 공개가 항상 이득은 아니라는 걸 뼈저리게 배웠다.
성능은 어느 수준?
메타가 공개한 벤치마크 기준으로는 경쟁사 주요 모델과 대등한 수준이지만 전 영역에서 앞서지는 못한다. 박사급 추론 능력을 측정하는 GPQA 다이아몬드 벤치마크에서 뮤즈 스파크는 89.5%를 기록했다. 구글 제미나이 3.1 프로(94.3%), 앤트로픽 클로드 오퍼스 4.6(92.7%), 오픈AI GPT-5.4(92.8%)에는 미치지 못했다. 반면 의료 분야 벤치마크 ‘헬스벤치 하드’에서는 42.8%로 모든 경쟁 모델을 앞섰다.
메타 스스로도 장기 에이전틱 시스템과 코딩 워크플로에서 성능 격차가 존재한다고 인정했다.
저커버그는 모델 출시에 앞서 이미 기대치를 낮춰뒀다. “첫 모델이 좋은 성능을 보이겠지만, 더 중요한 것은 우리가 얼마나 빠른 속도로 나아가는지를 보여주는 것”이라고 했다. 뮤즈 스파크가 완성형이 아니라 더 큰 모델로 가는 출발점이라는 뜻이다.
메타는 라마4의 실패로 AI 헤게모니 전쟁에서 이탈한 상태였다. 다시 참전을 하기 위해서는 새로운 무기의 존재감이 확고해야 한다. 과연 뮤즈 스파크가 메타에게 참전의 기회를 제공할 수 있을지 주목된다.
글. 바이라인네트워크
<심재석 기자>shimsky@byline.network



