클라우드플레어, 구글에 반기…“검색·학습 봇 구분하라”

클라우드플레어가 구글에 강력한 견제구를 던졌다. 클라우드플레어는 1일 검색 색인과 AI 모델 학습을 하나의 봇으로 동시에 수행하는 ‘혼합형 크롤러’를 오는 9월 15일부터 광고가 게재된 페이지에서 기본 차단하겠다고 발표했다.

클라우드플레어는 전 세계 웹사이트의 약 20%가 이용하는 인터넷 인프라 기업으로, 웹사이트와 인터넷 사용자 사이의 트래픽을 중계하고 사이버 공격을 방어하는 역할을 한다. 이 회사의 기본 설정 변경은 곧 수백만 개 웹사이트의 크롤러 접근 정책이 일괄 바뀌는 것을 의미한다.

클라우드플레어의 문제의식은 구글처럼 검색엔진과 AI를 함께 만드는 회사들이 웹사이트의 트래픽을 빼앗아간다는 데 있다. AI 때문에 광고로 수익을 올리는 웹사이트들의 트래픽이 줄면 클라우드플레어의 고객도 줄어든다.

클라우드플레어는 봇 관리 체계도 개편했다. 기존에는 ‘AI 봇 차단’이라는 단일 옵션만 제공했다. 웹사이트 운영자는 AI 크롤러를 일괄 허용하거나 일괄 차단하는 이분법적 선택만 가능했다. 클라우드플레어는 이번에 이를 ‘검색’ ‘에이전트’ ‘학습’이라는 세 종류의 봇으로 구별했다. 사이트 운영자가 용도별로 독립적인 봇 정책을 설정할 수 있도록 했다.

차단 범위를 ‘광고가 게재된 페이지’로 한정한 이유는 광고가 게재된 페이지는 사람이 방문해서 보는 것을 전제로 운영된다는 신호이기 때문이다. AI 크롤러가 이런 페이지의 콘텐츠를 가져가 자체 답변에 활용하면, 사용자가 원본 사이트를 방문할 이유가 줄어들고, 결국 웹사이트의 광고 수익 기반이 무너진다.

반면 기업 소개 페이지, 기술 문서, 오픈소스 프로젝트 문서처럼 광고가 없는 페이지는 검색 노출이나 브랜드 인지 자체가 목적인 경우가 많다. 이런 페이지까지 일률적으로 차단하면 웹사이트 운영자에게 오히려 손해다.

‘광고 유무’라는 기준은 AI 크롤링으로 실제 경제적 피해를 입는 콘텐츠만 선별적으로 보호하면서, 비상업적 콘텐츠에 대한 AI의 접근은 열어두는 실용적인 타협점인 셈이다.

현재 가장 문제가 되는 것은 혼합형 크롤러다. 이 봇들은 검색과 AI 학습을 동시에 수행한다. 대표적인 회사가 구글이다. 구글은 검색 색인, AI 오버뷰, AI 모드 등 모든 기능에 구글봇 하나를 사용한다. 구글봇을 차단하면 구글 검색 결과에서도 사라진다. 사이트 운영자 입장에서는 검색에서 제외될 것이냐, 구글 AI 학습에 콘텐츠를 제공할 것이냐를 두고 양자택일을 강요받는 구조다. 구글 검색에 노출되려면 AI 학습용 데이터 수집도 감수해야 한다.

클라우드플레어는 이를 ‘불공정’이라고 지적했다. 클라우드플레어는 크롤러를 역할별로 분리하면 구글식 끼워넣기가 작동하지 않게 된다고 봤다.

클라우드플레어 공동 창업자이자 CEO인 매슈 프린스는 “인터넷 트래픽의 과반이 이제 비인간(봇) 트래픽이 된 만큼, 지속 가능한 생태계를 위해 더 빠르게 행동해야 한다”면서 “혼합형 크롤러가 검색, 에이전트, 학습 용도를 각각 분리하도록 유도하는 것이 목표”고 밝혔다.

웹이 시작된 이래 검색엔진과 웹사이트 사이에는 일종의 암묵적 거래가 존재했다. 검색 크롤러가 콘텐츠를 수집하면, 검색엔진은 사용자를 해당 사이트로 보내주는 방식이다. 구글의 경우 크롤 대비 유입 비율이 약 14:1이다. 14번 크롤링할 때마다 1명의 방문자를 돌려보내는 셈이다.

AI 크롤러는 이 균형을 무너뜨렸다. 클라우드플레어가 2025년 6월 측정한 데이터에 따르면, 오픈AI의 크롤 대비 유입 비율은 1700:1이었다. 1700번 크롤링해야 1명의 방문자를 보내준다는 뜻이다. 앤트로픽은 7만3000:1이었다. 사실상 콘텐츠만 가져가고 트래픽은 돌려보내지 않는 구조다.

클라우드플레어의 자체 분석에 따르면 AI 크롤러 트래픽의 50% 이상이 변경되지 않은 페이지를 반복적으로 수집하는 데 소모되고 있다. 퍼블리셔의 대역폭과 서버 자원만 낭비되는 셈이다.

이번 조치의 배경에는 인터넷 트래픽 구조의 근본적 변화가 있다. 클라우드플레어 레이더 데이터에 따르면, 2026년 기준 전 세계 웹 HTTP 요청의 57.5%가 봇 트래픽이다. 사람이 만드는 트래픽(42.5%)을 이미 넘어섰다.

AI 크롤러 트래픽의 용도별 구성도 주목할 만하다. 클라우드플레어에 따르면 AI 크롤러 요청의 51.8%가 모델 학습 목적이고, 혼합 용도가 35.7%를 차지하는 반면, 순수 검색 목적은 9.3%에 불과하다. AI 봇이 주로 검색을 위해 웹을 돌아다닌다는 통념과는 거리가 있는 수치다.

클라우드플레어는 2027년 중반까지 혼합형 크롤러 트래픽 비중을 0%로 줄이겠다는 목표를 제시했다. AI 업계 대형 사업자들이 어떤 선택을 하느냐에 따라, 웹 콘텐츠 생태계의 경제학이 근본적으로 달라질 수 있다.

글. 바이라인네트워크
<심재석 기자>shimsky@byline.network