챗GPT가 더 진화했다…오픈AI, GPT-4 공개

오픈AI는 14일 초거대 언어모델 GPT-4를 공개했다. GPT 시리즈는 챗GPT의 기반이 되는 언어모델로, 지금까지 챗GPT는 3.5 버전을 기반으로 서비스돼 왔다. 샘 알트먼 오픈AI CEO는 “GPT-4는 이전 모델보다 더 창의적이고, 오류가 적으며, 덜 편향적”이라고 소개했다.

오픈AI는 6개월 동안 내부 적대적 테스트 프로그램과 챗GPT에서 얻은 교훈을 사용해 GPT-4를 “반복적으로 조정”했으며, 그 결과 사실성, 조종가능성, 가드레일을 벗어나는 것을 막아내는 “역대 최고의 결과”를 얻었다고 밝혔다.

이전 GPT 모델과 마찬가지로 GPT-4는 웹페이지 등 공개적으로 사용 가능한 데이터와 오픈AI가 라이선스를 획득한 데이터를 사용해 학습됐다.

멀티모달 도입

새롭게 공개된 GPT-4는 멀티모달을 지원하는 것이 가장 큰 특징이다. 텍스트뿐 아니라 이미지도 입력받을 수 있다. 예를 들어 식재료 이미지를 입력한 후, 이 이미지로 만들 수 있는 음식의 레시피를 알려달라고 할 수 있다. 오픈AI의 공동 설립자인 그렉 브록맨은 허블 우주망원경의 이미지를 어떻게 세밀하게 묘사할 수 있는지 시연했다.

다만 GPT-4의 멀티모달은 아직 초보적이다. 이미지를 입력받아도 출력은 텍스트로만 할 수 있다. 오디오나 비디오까지는 지원하지 않는다.

이미지 해석 기능은 완전히 공개되지 않았다. 아직은 테스트 단계인 셈이다. 오픈AI는 단독 파트너인 ‘비마이아이즈(Be My Eyes)’와 함께 이 기능을 테스트하고 있다.

향상된 품질

오픈AI는 GPT-4가 신뢰성, 창의성, 미묘한 명령어 처리 측면에서 이전 모델인 GPT-3.5보다 개선되었다고 설명했다. 오픈AI는 “인간 대상 모의 시험 등 다양한 벤치마크에서 이 모델을 테스트했으며, 그 결과 GPT-4가 기존의 대규모 언어 모델보다 뛰어난 성능을 발휘한다는 사실을 발견했다”고 밝혔다.

GPT-4는 미국 변호사 시험을 상위 10% 정도의 점수로 통과하는 것으로 나타났다. 이전 버전은 하위 10% 정도의 점수를 기록했다. 또한 SAT에서 1300점(1600점 만점)을 맞았고, 생물학, 미적분학, 거시경제학, 심리학, 통계학, 역사 과목의 고등과정 시험에서 5점(5점 만점)을 받았다.

뉴욕타임즈에 따르면, 한 의사는 GPT-4에게 심장병 환자 치료법을 물었고 정확한 답을 들을 수 있었다고 한다.

라트비아어, 웨일스어, 스와힐리어 등 이용자가 매우 적은 언어로도 대화를 할 수 있으며, 영어 이외의 언어에서도 우수한 성능을 발휘한다.

조종가능성

GPT-4의 또다른 특징 하나는 ‘조종가능성’ 기능이 도입됐다는 점이다. 오픈AI는 특정 방향을 설정할 수 있는 새로운 API를 도입했다. 예를 들어 아래와 같은 방향을 설정할 수 있다.

“귀하는 항상 소크라테스 스타일로 답변하는 선생님입니다. 학생에게 정답을 알려주지 않고 항상 적절한 질문을 통해 학생이 스스로 생각하는 법을 배울 수 있도록 도와줍니다. 항상 학생의 흥미와 지식에 맞게 질문을 조정하고, 학생에게 적합한 수준이 될 때까지 문제를 더 간단한 부분으로 나누어야 합니다.”

안정성 강화

오픈AI는 GPT-4가 악용되는 것을 막기 위한 다양한 조치를 취했다고 전했다. 예를 들어 위험한 화학 물질을 합성하는 방법에 대한 요청을 거부할 가능성이 높다고 오픈AI는 설명했다. 회사 측은 “GPT-4가 GPT-3.5에 비해 ‘허용되지 않는’ 콘텐츠 요청에 응답할 가능성이 전체적으로 82% 낮으며, 의학적 조언이나 자해와 관련된 요청 등 민감한 요청에 대해서는 OpenAI의 정책에 따른다고 전했다.

환각은 여전

많은 개선이 있지만 오픈AI는 GPT-4가 완벽하지 않다는 점을 인정한다. 사실과 전혀 다른 답을 천연덕스럽게 내놓는 할루시네이션(환각) 문제는 본질적으로 해결되지 않았고, 추론에서 적지 않은 오류를 범한다. 엘비스 프레슬리를 배우의 아들로 묘사하기도 하는 예를 오픈AI는 보여줬다.

학습한 데이터의 시기 문제도 여전하다. GPT-4는 2021년 9월 이후에 발생한 사건에 대한 지식이 부족하다. 오픈AI 측은 “때로는 수많은 영역에서 능력에 맞지 않는 단순한 추론 오류를 범하거나 사용자의 명백한 거짓 진술을 지나치게 쉽게 받아들일 수 있다”면서 “때로는 생성한 코드에 보안 취약점을 도입하는 등 인간과 같은 방식으로 어려운 문제에 실패할 수도 있다”고 전했다.

한편 GPT-4는 현재 챗GPT  유료상품인 ‘챗GPT 플러스’를 통해 사용할 수 있으며, 개발자는 대기자 명단 에 등록하여 API에 액세스할 수 있다.

글. 바이라인네트워크
<심재석 기자>shimsky@byline.network

관련 글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다