앤스로픽, AI의 블랙박스 열었나

앤스로픽은 21일(현지시각) AI가 작동하는 원리를 일정부분 알아냈다고 블로그에서 밝혔다. 지금까지 딥러닝 기반의 AI는 개발자조차 작동원리를 알지 못했다. 이용자가 무언가를 입력했을 때 AI가 내놓는 답이 어떤 과정을 거쳐 도출된 것인지 알 수 없었던 것이다.

이 때문에 AI를 ‘블랙박스’라고 부르기도 했다. 작동원리를 모르기 때문에 AI가 인간의 통제를 벗어나도 막을 수 없다는 두려움이 생기기도 했다. 작동 원리를 완전히 알아내면 유해한 결과물이 나오지 않도록 사전 조치하거나 환각증상(할루시네이션)을 줄일 수 있을 것으로 기대된다.

앤스로픽은 “AI 모델의 내부 작동을 이해하는 데 있어 상당한 진전을 이루었다”면서 “LLM 중 하나인 클로드 소넷(Claude Sonnet) 수백만 개의 개념이 어떻게 표현되는지 확인했다”고 발표했다.

앤스로픽에 따르면, 클로드 소넷의 중간 계층에서 수백만 개의 피처를 추출해 개념 지도를 만들었다. 그 결과 예를 들어 아래 이미지를 보면 ‘Golden Bridge’라고 언급할 때 한국어에서 ‘금문교’나 ‘캘리포니아’ ‘현수교’ ‘샌프란시스코’ 등의 단어나 단어의 일부가 활성화되는 것을 볼 수 있다.

지역이나 거리에 대한 개념도 찾을 수 있었다. ‘Golden Gate Bridge’라는 피처의 주변을 살펴보면 ‘알카트라즈 감옥’, ‘기라델리 광장’, ‘골든 스테이트 워리어스’, ‘캘리포니아 주지사 개빈 뉴섬’, ‘1926년 지진’, 샌프란시스코를 배경으로 한 알프레드 히치콕의 영화 ‘현기증’ 등이 활성화됐다. 모두 샌프란시스코와 가까운 단어들이다.

또 ‘내부 갈등’이라는 개념의 주변 피처를 보면 ‘관계 단절’, ‘충성심 상충’, ‘논리적 비일관성’ 등의 피처와 관련이 있음도 볼 수 있다. 앤스로픽은 이에 대해 “AI 모델에서의 개념이 인간의 개념과 유사하다는 것을 보여준다”며 “클로드가 비유와 은유를 만드는 기원이 될 수 있다”고 설명했다.

특히 앤스로픽은 특정 피처를 인위적으로 증폭하거나 억제해 AI 생성의 결과를 바꿀 수 있다는 사실도 확인했다. 원래 클로드에게 “너의 신체는 무엇인가”라고 물으면 “저는 신체가 없는 AI 모델입니다”라고 답을 했는데 ‘Golden Gate Bridge’의 피처를 증폭시키니 “나는 금문교입니다. 나의 물리적 형태는 상징적인 다리 그 자체입니다”라고 답했다.

또 원래의 클로드에게 사기 이메일을 써달라고 요청하면 거부했는데, 특정 피처를 조작해 사기 이메일 초안을 작성토록 할 수 있었다고 엔스로픽은 보고했다. 앤스로픽은 “우리 실험에서는 피처를 사용하여 모델 작동 방식을 변경할 수 있는 방법을 명확하게 보여줬다”고 설명했다.

앤스로픽은 이와 같은 연구가 안전한 AI를 만들기 위한 활동이라고 설명했다. 회사 측은 “앤스로픽은 창립 이래 해석 가능성 연구에 상당한 투자를 해왔다”면서 “모델을 깊이 이해하면 모델을 더 안전하게 만드는 데 도움이 될 것이라고 믿기 때문”이라고 밝혔다.

글. 바이라인네트워크
<심재석 기자>shimsky@byline.network