‘라마, 믹스트랄은 기준 미달’ 오픈소스 AI 정의 1.0 발표

오픈소스 인공지능(AI)의 첫 정의(Definition)가 1년의 논의를 거쳐 마침내 발표됐다.

오픈소스이니셔티브(OSI)는 28일 ‘오픈소스 AI 정의(Open Source AI Definition, 이하 OSAID)’ 1.0 버전을 공개했다.

그동안 대형언어모델(LLM)의 가중치와 다운로드 파일만 공개하는 AI 모델에 오픈소스란 용어를 쓸 수 있느냐를 두고 많은 논쟁이 있었다. 대표적으로 메타는 ‘라마’를 발표하면서 오픈소스 AI란 용어를 사용해왔다. 사용자는 라마 모델의 코드를 무료로 다운로드 받고 미세조정할 수 있지만, 코드 수정과 변경을 통한 새 모델 개발은 불가능하다. 모델 개발에 사용된 학습 알고리즘과 소프트웨어 요소도 비공개다. 라이선스도 특정 규모 이상의 사용자를 대상으로 하는 상용 서비스 개발 시 별도 권한을 사야한다는 제한을 뒀다. 라마를 ‘오픈 웨이트’라고 불러야 한다는 의견도 있었다.

OSI는 “AI의 경우 최소한 AI 개발자, 배포자, 최종사용자가 자율성, 투명성, 마찰없는 재사용, 협력적 개선 등의 이점을 누릴 수 있도록 오픈소스와 동일한 필수적 자유가 필요하다”고 취지를 설명했다.

공개된 OSAID에 의하면, 오픈소스로 간주되기 위해 시스템, 모델, 가중치, 매개변수, 기타 구조적 요소 등에 동일한 요구사항이 있다.

오픈소스 AI는 다음과 같은 자유를 허용하는 조건과 방식으로 제공되는 AI 시스템이다.

어떤 목적으로든 시스템을 사용할 수 있으며, 허가를 받지 않아도 된다.

시스템의 작동 방식을 연구하고 구성요소를 검사할 수 있다.

출력을 변경하는 것을 포함해 어떤 목적에서든 시스템을 수정할 수 있다.

수정 여부와 관계없이 다른 사람이 사용할 수 있도록 시스템을 공유해야 한다.

이런 자유는 완전히 기능하는 시스템과 그 개별 요소에 모두 적용된다. 이런 자유를 행사하기 위한 전제 조건은 시스템 수정에 선호하는 양식으로 접근할 수 있어야 한다.

OSAID는 머신러닝 시스템 수정에 권장되는 양식도 설명한다. 머신러닝 시스템을 수정하기 위한 선호되는 형태에 데이터 정보, 콛, 매개변수 등이 포함돼야 한다.

숙련자가 실질적으로 동등한 시스템을 구성할 수 있도록 훈련에 사용된 데이터에 대한 충분히 자세한 정보를 OSI 승인 조건에 따라 제공해야 한다. 특히 교육에 사용된 모든 데이터에 대한 완전한 설명(공유 불가능한 데이터를 사용하는 경우 포함), 데이터 출처, 범위 및 특성, 데이터 수집 및 선택 방법, 레이블 지정 절차, 데이터 처리 및 필터링 방법 공개, 공개적으로 사용 가능한 모든 교육 데이터 목록 및 획득 장소 제3자로부터 얻을 수 있는 모든 교육 데이터 목록 및 유료를 포함한 획득 장소 등을 포함해야 한다.

시스템 훈련과 실행에 사용되는 전체 소스코드가 제공돼야 하며, 코드는 데이터 처리 및 필터링 방법과 훈련 수행 방법 등에 대한 전체 사양을 담아야 한다. 예를 들어 사용하는 경우 데이터 처리 및 필터링에 사용되는 코드, 인수, 설정 등을 포함한 학습에 사용되는 코드, 검증 및 테스트, 토크나이저, 하이퍼파라미터 검색 코드 등의 지원 라이브러리, 추론 코드, 모델 아키텍처 등이 포함돼야 한다.

매개변수는 가중치, 기타 구성 설정 같은 정보를 담아야 한다. 최종 최적화 상태뿐 아니라, 학습의 주요 중간 단계의 체크포인트도 포함될 수 있다.

AI 모델은 아키텍처, 모델 매개변수(가중치 포함), 모델 실행을 위한 추론 코드로 구성된다. AI 가중치는 주어진 입력에서 출력을 생성하기 위해 모델 아키텍처에 중첩되는 학습된 매개변수 집합이다.

한편으로 “OSAID는 모델 매개 변수가 모든 사람에게 자유롭게 제공되도록 보장하는 특정한 법적 메커니즘을 요구하지 않는다”며 “본질적으로 자유로울 수도 있고, 자유를 보장하기 위해 라이선스나 다른 법적 수단이 필요할 수 있으며 법률 체계가 오픈소스 AI 시스템을 다룰 기회가 많아지면 더 명확해질 수 있다”고 설명했다.

종합하면, 오픈소스 AI라 부를 수 있는 AI 모델은 소스코드와 데이터, 매개변수, 관련 구성 요소 등을 공개해야 한다. 사용자가 공개된 코드를 재컴파일해 원본과 동일한 모델을 구현할 수 있어야 한다. 다만 데이터 공개는 선택적으로 이뤄질 수 있다.

OSI는 “OSAID는 AI 시스템이 오픈 소스 AI로 간주될 수 있는지 여부를 검증하기 위해 커뮤니티 주도의 개방적이고 대중적인 평가를 수행하는 표준을 제공한다”며 “OSAID의 첫번째 버전은 1년 간의 공동 설계 프로세스의 결과”라고 강조했다.

카를로 피아나 OSI 이사회 의장은 “OSAID 1.0으로 이어진 공동 설계 프로세스는 잘 개발되고 철저하며 포괄적이고 공정했다”며 ”이사회는 이 프로세스가 오픈소스 정의와 4가지 필수 자유에 정의된 오픈소스 표준을 충족하는 정의로 이어졌다고 확신한다”고 밝혔다.

모질라의 AI 전략 담당 아야 브데이르는 “새로운 정의는 오픈소스 모델이 ‘숙련된 사람이 동일하거나 유사한 데이터를 사용해 실질적으로 동등한 시스템을 재생성할 수 있도록’ 충분한 정보를 제공하도록 요구한다”며 ”이것은 AI 교육 데이터를 처리하는 방법의 복잡성을 해결하는 출발점이며, 오픈 데이터 세트를 AI 생태계의 보다 흔한 부분으로 만들기 위해 노력하는 동시에 전체 데이터 세트를 공유하는 과제를 인정한다”고 설명했다.

OSI에 따르면, OSAID 검증과 테스트를 통과한 AI 모델은 Pythia(Eleuther AI), OLMo(AI2), Amber 및 CrystalCoder(LLM360), T5(구글) 등이다.

라이선스와 법적 조건을 변경하면 통과할 가능성이 있는 모델은 BLOOM(빅사이언스), Starcoder2(빅코드), Falcon(TII) 등이다.

필수 구성요소가 없거나 법적 계약이 오픈소스 원칙과 호환되지 않아 통과하지 못한 모델은 라마2(메타), Grok(X), Phi-2(마이크로소프트), Mixtral(미스트랄) 등이다.

마이크로소프트와 구글은 OSAID 원칙에 맞지 않는 모델에 오픈소스 AI란 용어를 쓰지 않기로 했다. 메타는 협의에 참여했지만 최종적으로 오픈소스 AI 용어 사용 중단을 거부했다.

OSI에서 제공하는 ‘정의’는 참조 사항일 뿐 어떤 법적 효력을 갖지 않는다. OSI가 별도의 법적 분쟁을 진행하거나 정의 준수를 압박하지도 않는다.

글. 바이라인네트워크
<김우용 기자>yong2@byline.network

[컨퍼런스] AI 에이전트와 지능형 인터페이스 시대

◎ 일시 : 2025년 3월 27일 오후 12:30 ~
◎ 장소 : 서울 강남구 테헤란로7길 22 ST Center (과학기술컨벤션센터) 지하 1층 대회의실 2

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다