오픈소스 초거대 AI 규모, 200억개 매개변수로 커졌다

누구나 사용할 수 있는 공공 초거대 인공지능(AI) 모델 크기가 업그레이드됐다. 초거대 AI 오픈소스화에 주력하는 연구 단체 엘레우테르AI(EleutherAI) 가 최근 GPT-NeoX-20B를 발표한 것. 200억개 매개변수(parameter)를 가진 이 모델은 오는 9일(현지시간)부터 사용 가능하다.

GPT-NeoX-20B는 엘레우테르AI가 자체 구축한 825GB 텍스트 데이터셋과 GPT-NeoX 프레임워크를 사용해 훈련됐다. 컴퓨팅 인프라는 암호화 자산 채굴 업체 코어위브(CoreWeave)로부터 무상 공급받은 GPU를 사용했다.

엘레우테르AI는 공식 사이트에서 “GPT-NeoX-20B는 공공으로 사용할 수 있는 사전학습된 범용 자귀회귀 언어 모델 중 가장 크다. 여러 태스크에서 잘 작동하는 것을 확인했다”고 말했다.

엘레우테르AI는 AI 발전을 위해 핵심 기술에 접근이 제한되는 것에 반대하는 이들이 2020년 7월 자체 설립한 연구 단체다. 이 단체는 2021년 1월 각종 AI 학습에 사용 가능한 825GB 규모의 영어 텍스트 데이터셋 더파일(The Pile)을 무료 공개했다.

이후 2021년 3월 오픈 소스 버전의 초거대 AI GPT-Neo를 처음 공개했다. 당시 GPT-Neo는 13억, 27억개 매개변수를 가진 규모였고 더파일을 통해 훈련됐다. 3개월 뒤인 2021년 6월 엘레우테르AI는 60억개 매개변수를 지닌 GPT-J를 선보였다. 이번 GPT-NeoX-20B은 GPT-J 이후 모델 크기를 더욱 늘린 성과다.

오픈소스 초거대 AI를 만드는 이유는 기술로 인한 위험을 감소시키기 위해서다. 엘레우테르AI는 GPT-NeoX-20B 공개 이유로 “AI 시스템을 안전하게 사용하는 것에 도움이 된다”고 언급했다.

그러면서 “사전훈련된 대규모 모델을 사용해야만 할 수 있는 중요한 안전 연구가 있다. 이러한 연구를 리소스가 부족한 연구자들이 쉽게 진행할 수 있도록 돕고 싶다”고 강조했다.

GPT-3와 같은 초거대 AI가 강인공지능(AGI)이 되어 위험해지기 전에 대형 모델을 연구할 수 있어야 한다는 것이 단체의 입장이다.

엘레우테르AI에 따르면 GPT-3로 인한 데미지 대부분은 논문이 발표되는 순간 발생했다. 여러 기업에서 경쟁적으로 초거대 AI 개발 시작했고 막을 수 없다. 언제 더 강력하고 위험한 능력을 보이기 시작할지는 불분명하다.

연구 자체를 하지 못하도록 검열하는 것은 보안책을 제공하지도 못할뿐더러 불가능한 방법이라는 주장이다. 어떤 공격이 들어올지에 대해 미리 연구를 하고 대책을 세우는 것이 중요하다는 의미다. 결론적으로 엘레우테르AI는 위험에 대한 대비책을 세우기 위해 초거대 AI를 오픈소스로 공개하고 있다.

초거대 AI를 오픈 소스로 제공하는 행위 자체가 위험하다는 우려도 나왔다는 설명이다. 엘레우테르AI는 “이 프로젝트에 대한 안전 우려가 여러 번 제기됐다. 우리는 위험-이익 트레이드오프에 대해 광범위하게 논의했다. 초거대 AI를 공개하는 것이 더 많은 안전 관련 연구가 수행될 수 있도록 도울 것이기 때문에 사회에 순이익이 될 것이라 확신한다”고 말했다.

초거대 AI 오픈소스를 활용해 연구가 아닌 상업적 목적으로 사용하는 것은 신중할 필요가 있다는 입장이다. 엘레우테르AI는 “GPT-NeoX-20B는 연구 결과다. 제품화 단계에서 신중한 고려 없이 배포하는 것은 권장하지 않는다. 특히 우리는 GPT-NeoX-20B 사용 전 논문과 학습 데이터에 대한 데이터시트를 읽어볼 것을 강력하게 추천한다”고 전했다.

‘오픈’하지 않는 오픈AI도 기술 공개 범위 넓히는 중

마이크로소프트(MS)가 독점 사용권을 가지고 있는 오픈AI의 GPT-3도 공개 범위를 점차 넓히고 있다. 오픈AI는 작년 11월 GPT-3 사용을 위한 대기자 명단을 완전 삭제했다. 2021년 11월 18일부터 오픈AI가 지원하는 국가 내 모든 개발자는 가입 절차만 거치면 바로 GPT-3를 사용할 수 있게 됐다.

GPT-3 API를 일반에 바로 개방할 수 있게 된 이유는 안전 문제를 개선했기 때문이다. 오픈AI가 마련한 대표적인 안전장치는 콘텐츠 필터다. 콘텐츠 필터는 GPT-3 API를 통해 생성된 텍스트 중 민감하거나 안전하지 않을 수 있는 것을 탐지하는 역할을 한다. 해당 기술은 텍스트를 안전한 것, 민감한 것, 안전하지 않은 것 3가지 종류로 분류할 수 있다.

오픈AI는 공식 블로그에서 “개발자들이 그들이 만든 애플리케이션이 의도한 목적대로 사용되는지 확인하고, 잠재적인 오용을 막고, 우리의 콘텐츠 가이드라인을 준수하도록 돕기 위해 무료 콘텐츠 필터를 제공한다”고 말했다.

이어 “해당 작업은 우리가 활성화 이전 애플리케이션을 사전 검토하고, 오남용을 모니터링하며, 제품 규모에 따라 개발자를 지원하고, 이 기술의 효과를 더 잘 이해할 수 있도록 돕는다”고 전했다.

글. 바이라인네트워크
박성은 기자<sage@byline.network>