사람인, 잡코리아 웹사이트 크롤링 했다가…

2005년 지금은 사라진 검색엔진 엠파스가 ‘열린검색’이라는 서비스를 출시한 적이 있다. 이는 검색어를 입력하면 네이버, 다음, 야후, 네이트 등 경쟁 사이트의 DB에 담겨있는 정보까지 보여주는 서비스였다.

당시 네이버는 자신의 보물창고인 지식iN 데이터를 엠파스가 검색하는 것에 크게 반발하며 소송불사를 외쳤다. 이후 네이버 측이 기술적으로 엠파스 열린검색을 막으면서 흐지부지해졌지만, 열린검색은 인터넷 업계에 몇 개의 논쟁 거리를 던져줬다.

특히 robots.txt를 지키지 않는 것에 대한 논쟁이 적지 않았다. robots.txt는 외부의 검색로봇이 자사 웹사이트 정보 수집해도 되는지 안 되는지 여부를 적어 놓은 문서다. robots.txt에는 어떤 검색로봇의 접근을 허락하는지, 또는 허락하지 않는지 적혀있다.

일반적으로 검색엔진은 웹사이트의 정보를 수집하기 전에 robots.txt 파일을 보고 정보접근을 허락받았을 때만 가져간다.

하지만 엠파스는 이를 지키지 않았다. 네이버가 robots.txt에 자사의 웹사이트에 접근하지 말라고 적어놓았지만, 엠파스는 지식iN의 정보를 수집했다.

흥미로운 점은 네이버가 엠파스와 갈등을 벌이면서 robots.txt 위반을 문제 삼지 않았다는 점이다. 네이버는 엠파스가 저작권을 침해했다고 주장했을 뿐이다. 이 때문에 사용자가 쌓은 지식iN의 데이터에 대한 저작권을 네이버가 갖고 있는지 여부를 두고 또다른 논쟁이 벌어졌다.

네이버가 robots.txt 위배한 것을 내세우지 않은 이유는 robots.txt를 따라야 한다는 법이 없기 때문이다. robots.txt는 인터넷 업계 사이에 존재하는 암묵적 약속이지, 법률이나 국제적 규약으로 정해진 것이 아니다.

엠파스의 열린검색은 논쟁거리를 던졌지만, 사회적으로 결론이 나오지는 않았다. 엠파스의 비즈니스 상황이 좋지 않았기 때문이다. 엠파스는 이후 네이트와 통합되면서 역사속에서 사라졌다.

[무료 웨비나] 복잡한 레거시 환경에서 AI를 안전하게 확장하고 비즈니스 혁신을 가속화하는 방법

일시 : 2026년 7월 23일 (목) 14:00 ~ 15:00

이 가운데 robots.txt를 둘러싼 흥미로운 판결이 하나 나왔다.

이름 없음.jpg 취업정보업체 ‘사람인’은 ‘잡코리아’의 웹사이트 정보를 인터넷 검색로봇으로 수집(크롤링)했다. 수집한 정보중 자사의 DB에 없는 정보가 나오면, 그 데이터를 제공한 구인회사에 연락해 자사의 웹사이트에 그 정보를 올려도 되느냐고 물었다. 그 회사의 허락이 떨어지면 수집한 정보를 자사 웹사이트에도 올렸다.

사람인의 이같은 행보에 잡코리아가 기분 좋을 리가 없다. 자신들은 구인정보를 모으기 위해 시간과 노력을 투입했는데, 사람인은 별다른 노력없이 자신들이 애써 구축한 정보를 쏙쏙 빼가는 것이기 때문이다.

잡코리아는 네이버나 구글과 같은 검색엔진이 정보를 수집할 수 있도록 검색로봇의 크롤링을 허락해 두고 있었다. 물론 모든 것을 가져가도록 허락한 것은 아니었다.

하지만 사람인 검색로봇은 robots.txt에 들어가보지도 않았다. 잡코리아가 IP주소로 검색로봇의 접근을 막자 VPN을 통해 우회접근해서 데이터를 수집했다.

사람인의 행동은 법적인 문제가 없을까?

사람인은 웹 크롤링은 불법이 아니고, 수집한 정보를 무조건 자사 웹사이트에 올린 것이 아니라 구인회사의 허락을 얻어 올렸기 때문에 법적인 문제가 없다고 주장했다.

법원은 사람인의 행동에 대해 ‘부정경쟁행위’에 해당한다고 판단했다. 법원의 이야기를 들어보자.

“원고(잡코리아)는 자신의 정체를 명시하고 원고 웹사이트를 출처로 표시하는 아웃링크 기능을 통해 이용자를 원고 웹사이트로 보내주는 정상적인 검색로봇의 적법한 크롤링에 한해 선별적으로 크롤링을 허용하고 있을 뿐, 정체를 숨기고 원고 웹사이트의 정보를 무차별적으로 복제한 후 출처를 삭제해 이를 사용하는 피고(사람인)와 같은 방식의 크롤링은 허용하지 않다”

“피고는 가상사설망을 쓰는 VPN 업체를 통해 IP를 여러 개 로 분산한 뒤 검색로봇의 User-Agent에 피고의 정체를 명시하지 아니하고, 크롤링해서는 안되는 페이지를 설명하는 원고 웹사이트의 robots.txt를 확인하지도 아니한 채 원 고 웹사이트의 HTML 소스를 크롤링하였는 바, 이는 정상적인 크롤링방식과는 차이가 있다”

“피고가 원고 웹사이트의 HTML 소스를 기계적인 방법 을 사용해 대량복제하여 피고 웹사이트에 게재하고 자신의 영업에 무단으로 사용하는 행위는 부정경쟁방지법 제2조 제1호 차.목의 부정경쟁행위에 해당한다”

이번 소송을 담당한 법무법인 민후 김경환 대표변호사는 “본 건은 경쟁사의 웹페이지와 콘텐츠를 무단으로 크롤링한 다음 이를 사업기회로 유용한 행위에 대해 불법성을 인정한 판시로 크롤링에 대한 법적 기준을 세웠다는 점에서 의미가 있다”고 설명했다.

<심재석 기자> shimsky@byline.network