오픈소스에 대한 AI 업계의 딜레마

오픈소스와 같은 ‘개방성’은 현재의 AI 수준을 만든 원동력이었습니다. 외부의 개방 기술 없이 독자적으로 개발한 기술만으로 AI를 만든 회사는 없습니다. 예를 들어 오픈AI의 GPT는 구글이 처음 만들어 공개한 트랜스포머라는 생성모델에 기반을 두고 있으며, AI 개발에 사용되는 프레임워크 등도 대부분 오픈소스 소프트웨어입니다.

이처럼 ‘개방 정신’은 AI 기술의 빠른 향상을 가져온 원동력이지만, 그럼에도 현재 AI 업계에서 오픈소스를 바라보는 관점은 다소 오묘합니다. 개방정신을 외면하기는 어렵지만, 오픈소스처럼 핵심 기술을 공개하는 것도 부담스러워 합니다. 빅테크 사이에서 워낙 기술경쟁이 치열하기 때문입니다. 또 오픈소스와 같은 개방성은 ‘안전한 AI’를 해친다는 의견도 적지 않습니다.

구글이 21일 젬마(Gemma)라는 오픈 AI 모델을 공개한 것은 이런 고민을 보여줍니다. 젬마는 구글이 최근 발표한 대규모 생성형 AI 모델 제미나이(Gemini)를 가공해 작은 규모로 만든 모델입니다. 제미나이와 젬마는 모델의 규모가 다르고, 개방성도 다릅니다. 제미나이는 폐쇄적인 반면 젬마는 개방 모델입니다.

[무료 웨비나] 아이덴티티 보안 없는 보안 전략은 더 이상 안전할 수 없습니다

◎ 일시 : 2025년 7월 15일 (화) 14:00 ~ 15:30
◎ 장소 : https://bylineplus.com/archives/webinar/53537

구글은 젬마를 발표하며 ‘오픈 모델’이라고 호칭했습니다. 의도적으로 ‘오픈소스’라는 표현을 사용하지 않았습니다. 재닌 뱅크스 구글 부사장은 “젬마 모델은 전통적으로 오픈소스라고 부르는 것과 차이가 있다”면서 “(오픈소스 대신) 오픈 모델이라고 부르는 것이 가장 합리적이라고 결정했다”고 밝혔습니다.

그에 따르면, 오픈모델은 개발자와 연구자가 모델을 맞춤형으로 가공하고 미세조정할 수 있도록 광범위한 접근을 제공하지만, 재배포나 변형 모델의 소유권 같은 것은 제한될 수 있습니다. 오픈소스의 경우 대부분 자유로운 이용과 변형 및 재배포를 허용한다는 점에서 젬마를 일반적인 오픈소스라고 부르기 어렵다고 설명했습니다.

이를 해석하면 이 오픈 모델을 활용하는 것은 대체로 자유롭지만, 이를 재배포하거나 변형하는 것은 구글이 정책적으로 막을 수 있다는 의미로 이해됩니다.

구글이 제미나이를 폐쇄적으로 보호하면서 젬마는 오픈 모델을 따르고 있다는 점은 AI 분야에서 어떤 전략이 더 적합한지 아직 명확한 입장을 정리하지 못했다는 것을 보여줍니다. 구글 딥마인드의 데미스 하사비스 CEO는”AI는 폐쇄적 접근이 더 적합하다”고 주장한 바 있습니다.

오픈소스에 대한 오묘한 태도를 보이는 것은 구글만이 아닙니다. 페이스북의 모회사 메타가 지난 해 발표한 ‘오픈소스’ 언어모델 라마2(Llama2)도 비슷합니다.

라마2가 오픈소스를 표방하고 있지만, 미국 전기전자학회(IEEE)가 발간하는 매거진 ‘IEEE 스펙트럼’에 따르면, 라마2는 일반적인 오픈소스보다 상당히 폐쇄적입니다. OSI(Open Source Initiative)의 정의에 따르면, 오픈소스는 무료 재배포, 소스 코드에 대한 액세스, 수정 등을 허용해야 하고, 특정 제품에 묶여서는 안 됩니다. 반면 Llama2는 모델의 훈련 데이터나 훈련에 사용된 코드를 공유하지 않습니다. 또 Llama2를 확장해 애플리케이션을 만들 수는 있지만, 모델을 분해하는 것은 제한을 두고 있습니다.

이 때문에 메타가 라마2를 오픈소스라고 발표하자 일각에서는 그게 “무슨 오픈소스냐”며 부정적 목소리가 나옵니다. 메타 역시 라마2가 전통적으로 정의되는 오픈소스와 다르다는 점은 인식합니다.

메타 부사장 조엘 피노는 더버지와의 인터뷰에서 “”AI 모델은 소프트웨어와 달리 더 많은 위험이 수반되기 때문에 현재 가지고 있는 사용자 라이선스를 AI 모델에 더 적합하도록 발전시켜야 한다”고 말했습니다.

그럼에도 메타가 ‘오픈소스’임을 강조하는 이유는 오픈AI의 폐쇄성을 공격하고 시장에서 경쟁 기술로 자리매김하고자 하는 전략적 표현으로 분석됩니다.

오픈소스에 대한 가장 명확한 입장을 보유한 곳은 오픈AI입니다. 오픈AI는 ‘오픈’이라는 이름과 어울리지 않게 가장 폐쇄적인 정책을 운영합니다. 챗GPT를 비롯해 GPT3.5, GPT4 오픈AI의 핵심 기술은 자체적으로 운영하는 서비스나 API 를 통해서만 이용할 수 있습니다. 심지어 모델의 규모도 밝히지 않고 있습니다.

이런 오픈AI를 오픈소스 추종자 입장에서 보면 일종의 배신(?)입니다. 오픈AI는 ‘오픈’ 가치를 핵심으로 내걸고 설립된 회사이기 때문입니다. 오픈AI는 창립 선언문에서 “(오픈AI) 연구자들은 논문, 블로그 게시물, 코드 등 어떤 형태로든 자신의 연구를 발표할 것을 적극 권장하며, 특허는 전 세계와 공유할 것”이라고 밝힌 바 있습니다.

오픈AI 창립자 중 한 명이었던 일론 머스크 테슬라 CEO는 오픈AI의 변신을 두고 “오픈AI는 구글의 대항마 역할을 하기 위해 비영리 기업 오픈소스(그래서 ‘오픈’ AI로 이름 붙였다)로 만들어졌지만, 지금은 마이크로소프트가 실질적으로 지배하는 폐쇄적인 소스, 최대 수익 기업이 되었다”고 비난하기도 했습니다.

이에 대해 오픈AI 측은 AI라는 기술의 위험성과 경쟁상황 때문에 오픈소스를 포기했다고 밝힙니다. 무궁구진한 가능성을 가진 AI의 소스코드를 공개할 경우 악의적 해커에게 무기를 제공하는 것이나 마찬가지라는 것입니다. 일리아 수츠케버 전 오픈AI 수석과학자는 “어느 시점에서는 마음만 먹으면 이러한 AI 모델로 큰 피해를 입히는 것이 아주 쉬워질 것”이라며 “기능이 높아질수록 공개하고 싶지 않은 것은 당연한 일”이라고 말한 바 있습니다.

이처럼 대형 AI 기업들은 AI 모델을 완전한 오픈소스로 공개하는 것은 부정적이거나 다소 조심스러워 합니다 .

반면 허깅페이스와 같은 AI 스타트업은 완전한 오픈소스를 추구합니다. 허깅페이스는 모든 회사가 AI에 접근할 수 있어야 한다고 주장합니다. 클레망 들랑게 CEO는 비즈니스 인사이더와의 인터뷰에서 “우리가 개방성, 오픈 사이언스, 오픈 소스 AI를 지원하지 않는다면 소수의 기업만이 이를 수행할 수 있을 것”이라고 말했습니다.

오픈소스는 오랫동안 소프트웨어 분야에서 혁신을 주도해온 전략입니다. 과연 이 오픈소스 전략이 AI 시대에도 유효할까요. 빅테크 기업들이 오픈소스에 대해 조심스러운 입장을 보이는 것은 기득권을 지키기 위함일까요, 아니면 그들의 설명처럼 AI 기술이 공개되면 정말 위험할 수도 있기 때문일까요.

글. 바이라인네트워크
<심재석 기자>shimsky@byline.network