robots.txt로 차단해도 로봇이 크롤링하는 이유

하얀설표

2023.07.20. 15:59

(2023.07.20. 15:59 수정됨)

미리보는 결론

robots.txt에 강제성은 없다.

크롤러를 만드는 중이라면

국내외를 할 것 없이 크롤러를 통한 데이터 수집은 법적 공방이 발생하는 문제다.
자세한 내용은 이 글에서 확인할 수 있다.

robots.txt란?

robots.txt.란, 웹 스크래퍼, 웹 크롤러 등으로 불리는 웹사이트 방문 로봇에게 특정 페이지의 방문을 허용하거나 거부한다는 것을 알리는 페이지를 말한다.
기본적으로 호스트네임/robots.txt 경로에서 조회할 수 있는 페이지다.
네이버에서는 robots.txt에 대해 다음과 같이 말하고 있다.

robots.txt는 검색로봇에게 사이트 및 웹페이지를 수집할 수 있도록 허용하거나 제한하는 국제 권고안입니다. IETF에서 2022년 9월에 이에 대한 표준화 문서를 발행하였습니다.
robots.txt 파일은 항상 사이트의 루트 디렉터리에 위치해야 하며 로봇 배제 표준을 따르는 일반 텍스트 파일로 작성해야 합니다. 네이버 검색로봇은 robots.txt에 작성된 규칙을 준수하며, 만약 사이트의 루트 디렉터리에 robots.txt 파일이 없다면 모든 콘텐츠를 수집할 수 있도록 간주합니다.

robots.txt 설정방법

robots.txt의 작성법은 기본적으로 robotstxt.org를 따르지만,
네이버 웹마스터 가이드나, 구글 검색센터에서도 작성방법을 확인할 수 있다.
기초적인 내용은 다음과 같다.

User-agent : 크롤러의 이름
allow : 크롤러 방문을 허용하는 path 또는 uri
Disallow : 크롤러 방문을 허용하지 않는 path 또는 uri
Sitemap : 사이트맵

다음은 Yeti 봇에게는 모든 페이지 방문을 허용하고, Googlebot 봇에게는 /public/ 하위 url만 방문을 허용하는 robots.txt의 예시다.
그러나 이렇게 설정한다고 하더라도 Googlebot은 웹사이트의 모든 url을 탐색하기도 한다.

User-agent: Yeti Allow: / User-agent: Googlebot Disallow: / Allow: /public/

robots.txt가 무시되는 이유

robots.txt는 권고안일 뿐, 법적인 효력은 전혀 없기 때문이다.
다음은 robotstxt.org에서 제공하는 법적 효력 여부에 대한 안내문이다.

Can a /robots.txt be used in a court of law?
There is no law stating that /robots.txt must be obeyed, nor does it constitute a binding contract between site owner and user, but having a /robots.txt can be relevant in legal cases.
/robots.txt를 준수해야 한다고 명시하는 법률은 없으며 사이트 소유자와 사용자 사이에 구속력 있는 계약을 구성하지도 않지만 /robots.txt를 갖는 것은 법적 소송과 관련이 있을 수 있습니다.

http://www.robotstxt.org/faq/legal.html

구글과 네이버도 robots.txt를 참고한다고는 하지만 참고만 할 뿐이지, 반드시 지키는 것은 아니다.
예시로 찾기 쉬운 것은 네이버에서 robots.txt로 접근을 비허용한 페이지들을 찾아보는 것이다. 구글에 색인되어있는 네이버 문서들을 검색해보자.