robots.txt 무시하고 해커처럼 행동한 퍼플렉시티 크롤러
AI 검색엔진 ‘퍼플렉시티’가 웹사이트의 robots.txt 지침을 무시하고 신분을 위장해 콘텐츠를 무단으로 수집하고 있다고 폭로했다. robots.txt는 웹사이트 소유자가 봇들에게 “여기는 들어와도 돼”, “여기는 들어오지 마”라고 알려주는 일종의 안내문이다.
클라우드플레어의 블로그 게시물에 따르면, 퍼플렉시티는 공식 크롤러가 차단될 경우 일반 브라우저 사용자 에이전트를 사용하는 등 은밀한(stealthy) 크롤링 전술을 사용해 웹사이트 규정을 회피한 것으로 드러났다.
클라우드플레어는 새로 생성된, 인덱싱되지 않은 도메인에 모든 크롤러를 차단하는 실험을 진행했다. 그럼에도 퍼플렉시티는 제한된 사이트임에도 접근해 콘텐츠를 가져갔다. 이는 선언되지 않은 크롤러가 여러 IP 주소와 ASN(자율 시스템 번호)을 바꿔가며 차단을 우회했기 때문이라고 클라우드플레어는 설명했다.
robots.txt는 웹사이트 운영자가 크롤러(봇)에게 ‘어떤 페이지는 수집해도 되고, 어떤 페이지는 수집하지 말아 달라’고 요청하는 일종의 국제적인 약속이자 지침이다. 구글이나 네이버 등 대부분의 ‘착한 봇(good bot)’은 이 규칙을 존중한다. 그러나 클라우드플레어의 폭로에 따르면, 퍼플렉시티는 이 robots.txt 파일을 의도적으로 무시하고 접근이 제한된 페이지까지 크롤링했다는 것이다. 이는 웹 생태계의 오랜 규칙을 위반한 행위다.
특히 퍼플렉시티는 여러 개의 IP 주소를 바꿔가며 자신을 일반 웹 브라우저 사용자처럼 위장하는 ‘스텔스 크롤링’을 사용했다. 이는 자신의 신원을 숨기고 웹사이트의 보안 조치를 우회하려는 악의적인 행위로 간주될 수도 있다. 한 트위터 이용자는 이에 대해 “북한 해커 같은 행동”이라고 비판하기도 했다.
퍼플렉시티의 은밀한 크롤링은 웹사이트에 예상치 못한 트래픽을 유발, 서버 성능에 악영향을 미칠 수 있다.
이러한 행위 때문에 클라우드플레어는 퍼플렉시티를 공식 ‘인증된 봇(verified bot)’ 목록에서 제외하고, 은밀한 크롤링 활동을 차단하는 규칙을 적용했다. 클라우드플레어는 웹사이트 소유자가 원치 않는 AI 크롤링으로부터 콘텐츠를 보호할 수 있는 방법을 제공하고 있다.
클라우드플레어는 웹사이트 규칙을 존중하는 OpenAI와 같은 기업을 ‘모범적인(well-behaved)’ 사례로 언급하며, 봇 운영자를 위한 명확한 기준을 수립하기 위해 노력하고 있다고 밝혔다. 이 사건은 웹 콘텐츠를 활용하는 AI 기업들의 윤리적 책임에 대한 논쟁을 불러일으킬 것으로 보인다.
글. 바이라인네트워크
<심재석 기자>shimsky@byline.network