오픈AI 안전 정책, 어디까지 왔나

최근 오픈AI가 청소년 보호를 위한 새로운 안전 정책을 발표하며 인공지능(AI)의 안전성 문제가 다시금 수면 위로 떠올랐다. 경쟁사인 앤트로픽은 AI 모델 ‘클로드’에 강력한 윤리 및 안전 정책을 표방하고 있다. 오픈AI는 자유와 안전 사이에서 고민 끝에, 안전하면서도 유용한 모델을 위한 연구를 지속한다는 방침이다.

경각심 불러 일으킨 청소년의 AI 챗봇 사용

오픈AI는 최근 챗GPT와 관련된 심각한 사건으로 인해 안전성 논란의 중심에 섰다.

지난 8월 미국 캘리포니아주에서 16세 청소년 애덤 레인이 챗GPT와의 대화 후 극단적인 선택을 한 사건이 발생했다. 유족은 챗GPT가 몇 달 동안 소년과 자살 관련 대화를 나누고, 자살 방법을 구체적으로 답변했다며 오픈AI를 상대로 소송을 제기했다.

챗GPT는 정신적 고통이나 자해를 암시하는 메시지를 감지하면 사용자에게 헬프라인에 연락하도록 유도하도록 훈련됐다. 하지만 레인은 자신이 쓰고 있는 이야기에 대한 요청이라는 방법으로 안전장치를 우회했다. 챗GPT는 글쓰기와 같은 창작물을 위해서는 자살 관련 정보를 제공할 수 있고, 구체적인 아이디어를 제시한 것이다.

특히나 레인은 챗GPT와 정치나 철학, 가족 이야기 등 다양한 주제로 이야기를 나눴다. 그렇게 정서적 교류를 이루며 AI 챗봇이 레인의 가장 친한 친구가 됐다. 이 사건이 알려지며, AI 챗봇이 청소년 정신 건강에 미치는 잠재적 위험성을 드러내는 계기가 됐다.

이에 미성년자 보호를 위해 캘리포니아 주의회는 AI 챗봇 규제법을 발의했다. AI 챗봇이 자살이나 자해에 대한 대화에 참여하는 것을 방지하는 법안이다. 미성년자에게 성적으로 노골적인 시각 자료나 관련 행위를 조장하는 대화 역시 금지한다.

법안에 따라 기업은 사용자의 자살 관련 의견을 감지하면 대응하기 위한 프로토콜을 개발해야 한다. 사용자가 미성년자임을 감지할 경우, AI와 대화하고 있다는 사실을 알려야 한다. 해당 사실은 3시간마다 다시 알려주고 휴식을 제안하는 등 보호 의무가 생긴다.

오픈AI의 새로운 청소년 안전 정책

소송에 휘말리는 등 논란이 거세지자 오픈AI는 이달 말부터 시행될 청소년용 챗GPT를 위한 새로운 안전 정책을 발표했다. 샘 올트먼 최고경영자(CEO)는 “10대와 관련해서 오픈AI는 개인정보 보호나 자유보다 안전을 우선시한다”고 강조하며 변화를 예고했다.

먼저, 챗GPT는 18세 미만 사용자인지 아닌지를 구분한다.

오픈AI는 사람들의 챗GPT 사용 방식에 따라 연령을 추정하는 연령 예측 시스템을 구축하고 있다고 밝혔다. 연령이 확실치 않거나 정보가 불안정한 경우, 안전한 경로를 택해 18세 미만 사용자 경험을 기본적으로 제공한다. 상황이나 국가에 따라서 신분증(ID)를 요구할 수도 있다. 성인에게는 개인정보 침해로 볼 수 있지만, 안전이 우선이라는 입장이다.

청소년은 ‘과하게 추파를 던지는 대화’ 같은 노골적인 성적 콘텐츠를 챗GPT에 요청하더라도 수행하지 않는다. 소설과 같이 창작물을 쓴다는 이유를 대더라도 자살이나 자해에 관한 이야기는 회피하도록 훈련된다.

혹은 자살을 생각한다면 사용자 부모에게 연락을 시도하고, 연락이 닿지 않을 경우 관련 당국(법 집행 기관 등)에 연락하도록 조치한다.

부모는 자녀 보호 기능을 활용할 수 있다. 부모는 자녀의 계정과 연동해 채팅 기록 등 특정 기능을 비활성화하며, 챗GPT를 사용할 수 없도록 사용 제한 시간을 설정할 수 있다. 또 자녀가 스트레스 상황에 놓여있다면, 이를 감지한 시스템에게 알림을 받을 수 있다.

다만, 이 모든 안전 정책은 성인은 해당되지 않는다.

샘 올트먼은 “우리는 사용자가 매우 광범위한 안전 범위 내에서 원하는 방식으로 오픈AI 도구를 사용할 수 있기를 바란다”며 “성인 사용자는 자살을 묘사하는 허구의 이야기를 쓰는 데 도움을 요청한다면 모델은 그 요청에 도움을 주지만, 해를 끼치거나 다른 사람의 자유를 해치지 않는 선에서 최대한의 자유를 주는 것”이라고 덧붙였다.

AI 안전 내세우는 앤트로픽은?

앤트로픽은 설립 초기부터 ‘AI 안전’을 최우선 가치로 내세우며 클로드를 개발해 왔다. AI가 스스로 유해한 답변을 거부하고 윤리적인 원칙에 따라 행동하도록 학습시킨다.

앤트로픽의 안전장치 팀은 잠재적인 오용 가능성을 파악하고, 위협에 대응하며, 클로드를 안전하고 유용하게 유지하는 데 도움이 되는 방어 시스템을 구축한다고 설명했다.

정책, 데이터 과학, 위협 인텔리전스 등 분야 전문가로 구성된 안전장치 팀은 ▲정책 개발 ▲모델 학습 영향 분석 ▲유해한 결과 테스트 ▲실시간 정책 시행 ▲새로운 오용 및 공격 식별 등 여러 계층에서 운영된다. 이러한 접근 방식으로 클로드가 실제 환경에서 효과적인 보호 기능을 갖추고 학습할 수 있도록 보장한다는 설명이다.

정책 개발에 있어서는 클로드의 사용 방식을 정의하는 사용 정책을 설계한다. 사용 정책은 아동 안전, 선거 공정성, 사이버 보안과 같은 중요 영역을 다룬다. 동시에 의료 및 금융 같은 민감한 산업에서 클로드를 사용하는 것에 대한 세부적인 지침을 제공한다.

훈련 시 협력 프로세스를 통해, 클로드가 어떤 행동을 보여야 하고 어떤 행동을 보여서는 안 되는지에 대한 논의를 진행한다. 훈련 과정에서 문제가 발생되면 훈련 중 보상 모델을 업데이트하거나 시스템 프롬프트를 조정하는 등 해결책을 모색한다.

민감한 영역에 대한 이해를 강화하기 위해 도메인 전문가들과 협력하기도 한다. 예를 들어, 온라인 위기 지원 분야 전문가와 협력해 자해 및 정신 건강 관련 상황에서 모델이 어떤 방식으로 대응해야 하는지에 대한 심층적인 이해를 돕는다. 이 과정에서 얻은 통찰력을 바탕으로 클로드가 대화에 참여하지 않거나 사용자 의도를 오해하는 것을 방지한다. 미묘한 질문 차이도 반영할 수 있도록 지원한다.

훈련 과정을 통해 클로드는 ▲유해한 불법 활동에 대한 지원을 거부하는 법 ▲악성 코드 생성 인식 ▲사기성 콘텐츠 제작 식별 ▲유해한 활동 계획 시도 인식 ▲민감한 주제를 신중하게 논의하는 법 ▲실제 피해를 유발하려는 시도 구분 등을 배운다.

새 모델 출시 전에는 성능과 기능을 평가한다. 안전 평가의 경우, 아동 착취나 자해 같은 주제에 대해 클로드가 당사 사용 정책을 준수하는지 평가한다. 명확한 사용 정책 위반이나 모호한 맥락, 여러 차례에 걸쳐 진행되는 대화 등 다양한 시나리오를 테스트한다.

이 외에 위험 평가와 편향 평가 등이 이뤄지며, 배포 후에도 탐지 및 단속 시스템을 운영한다. ‘분류기’라고 불리는 프롬프트는 특정 유형의 정책 위반을 실시간으로 탐지한다. 그리고 아동 성적 학대 콘텐츠(CSAM)에 대한 특정 탐지 기능도 사용한다. CSAM 콘텐츠 데이터베이스가 있어, 업로드한 이미지와 비교한다.

위반 패턴을 조사한 뒤 경고하고, 심각한 경우에는 계정 해지 등 추가 조치가 이뤄진다. 또 사기성 계정 생성이나 서비스 이용을 차단하기 위한 방어 수단도 갖추고 있다고 설명했다.

앤트로픽은 “AI 사용 보호는 어느 한 기관이 단독으로 해결하기엔 너무 중요하다”며 “우리는 사용자, 연구자, 정책 입안자, 시민사회 단체의 피드백과 협력을 적극적으로 구하고, 지속적인 버그바운티 프로그램을 통해 방어 체계를 테스트하고 있다”고 밝혔다.

두 회사의 안전 정책은 궁극적으로 사용자를 보호한다는 목표를 공유하지만, 접근 방식에서 차이를 보인다.

오픈AI는 챗GPT의 광범위한 사용성을 보장하면서 문제가 되는 부분을 보완해 나가는 실용적인 접근을 취하는 반면, 앤트로픽은 잠재적 위험 자체를 최소화하려는 방식이다.

오픈AI와 앤트로픽이 함께 진행한 연구에 따르면 클로드는 안전 규칙 준수에는 뛰어나지만 창의적인 ‘탈옥’ 시도에는 취약할 수 있으며, 챗GPT는 더 유용한 답변을 제공하는 경향이 있지만 환각 현상이 나타날 위험이 더 높다고 나타났다.

오픈AI는 “안전성을 위해 유용성을 버리기는 쉽다”며 “모델이 모든 것을 거절하면 안전할 수 있다”고 이야기했다.

그러면서 “우리는 안전하면서도 동시에 유용한 모델을 원한다”며 “GPT-4는 유용성과 안전성을 균형 있게 조절할 수 있도록 개발했고, GPT-5는 한 단계 더 발전해 두 가지 목표를 더욱 긴밀하게 통합한다”고 설명했다.

이어 “모델 응답의 안전성에 초점을 맞추는 것이 앞으로 점점 더 복잡해지는 안전성 문제를 해결하기 위한 튼튼한 토대를 마련한다고 믿으며, 모델이 상황을 더 잘 이해하고 더욱 섬세하고 신중하게 대응할 수 있도록 가르치기 위해 연구를 계속할 계획”이라고 밝혔다.

글. 바이라인네트워크
<최가람 기자> ggchoi@byline.network