robots.txt로 차단해도 로봇이 크롤링하는 이유

작성자: [관리자] 하얀설표

2023.07.20 15:59 (KST) 작성됨





미리보는 결론

robots.txt에 강제성은 없다.

 

크롤러를 만드는 중이라면

국내외를 할 것 없이 크롤러를 통한 데이터 수집은 법적 공방이 발생하는 문제다.
자세한 내용은 이 글에서 확인할 수 있다.

 

robots.txt란?

robots.txt.란, 웹 스크래퍼, 웹 크롤러 등으로 불리는 웹사이트 방문 로봇에게 특정 페이지의 방문을 허용하거나 거부한다는 것을 알리는 페이지를 말한다.
기본적으로 호스트네임/robots.txt 경로에서 조회할 수 있는 페이지다.
네이버에서는 robots.txt에 대해 다음과 같이 말하고 있다.

 

robots.txt는 검색로봇에게 사이트 및 웹페이지를 수집할 수 있도록 허용하거나 제한하는 국제 권고안입니다. IETF에서 2022년 9월에 이에 대한 표준화 문서를 발행하였습니다.
robots.txt 파일은 항상 사이트의 루트 디렉터리에 위치해야 하며 로봇 배제 표준을 따르는 일반 텍스트 파일로 작성해야 합니다. 네이버 검색로봇은 robots.txt에 작성된 규칙을 준수하며, 만약 사이트의 루트 디렉터리에 robots.txt 파일이 없다면 모든 콘텐츠를 수집할 수 있도록 간주합니다.

 

robots.txt 설정방법

robots.txt의 작성법은 기본적으로 robotstxt.org를 따르지만,
네이버 웹마스터 가이드나, 구글 검색센터에서도 작성방법을 확인할 수 있다.
기초적인 내용은 다음과 같다.

  • User-agent : 크롤러의 이름
  • allow : 크롤러 방문을 허용하는 path 또는 uri
  • Disallow : 크롤러 방문을 허용하지 않는 path 또는 uri
  • Sitemap : 사이트맵

 

다음은 Yeti 봇에게는 모든 페이지 방문을 허용하고, Googlebot 봇에게는 /public/ 하위 url만 방문을 허용하는 robots.txt의 예시다.
그러나 이렇게 설정한다고 하더라도  Googlebot은 웹사이트의 모든 url을 탐색하기도 한다.

User-agent: Yeti
Allow: /
 
User-agent: Googlebot
Disallow: /
Allow: /public/

 

robots.txt가 무시되는 이유

robots.txt는 권고안일 뿐, 법적인 효력은 전혀 없기 때문이다.
다음은 robotstxt.org에서 제공하는 법적 효력 여부에 대한 안내문이다.

Can a /robots.txt be used in a court of law?
There is no law stating that /robots.txt must be obeyed, nor does it constitute a binding contract between site owner and user, but having a /robots.txt can be relevant in legal cases.
/robots.txt를 준수해야 한다고 명시하는 법률은 없으며 사이트 소유자와 사용자 사이에 구속력 있는 계약을 구성하지도 않지만 /robots.txt를 갖는 것은 법적 소송과 관련이 있을 수 있습니다.

http://www.robotstxt.org/faq/legal.html

 

구글과 네이버도 robots.txt를 참고한다고는 하지만 참고만 할 뿐이지, 반드시 지키는 것은 아니다.
예시로 찾기 쉬운 것은 네이버에서 robots.txt로 접근을 비허용한 페이지들을 찾아보는 것이다. 구글에 색인되어있는 네이버 문서들을 검색해보자.






추천 (0)


글 목록

댓글을 달 수 없는 게시물입니다.


"분류없음" 카테고리 관련 게시물

분류없음
공휴일 여부는 어디서 발표하고 관리될까
수정 08.30 | [관리자] 하얀설표
👍 0
🗨️ 0
썸네일
분류없음
상장폐지된 스팩의 청산시 1주당 반환금액 확인용
수정 08.29 | [관리자] 하얀설표
👍 0
#주식
🗨️ 0
분류없음
예제)특정 조합이 리스트 요소에 반드시 포함되어야 한다는 사실만 알 때의 조건식
수정 08.20 | [관리자] 하얀설표
👍 0
#Python, #예제
🗨️ 0
분류없음
해결)사무실이 없는 경우 유사투자자문업 신고는 어떻게 해야 할까
수정 08.04 | [관리자] 하얀설표
👍 0
🗨️ 0
썸네일
분류없음
합격후기) 네이버 프리미엄 콘텐츠 판매회원 가입신청 승인
수정 07.26 | [관리자] 하얀설표
👍 0
🗨️ 0
썸네일
분류없음
네이버 프리미엄 콘텐츠 실시간 채팅 상담 신청 방법
수정 07.26 | [관리자] 하얀설표
👍 0
🗨️ 0
썸네일
분류없음
불법 유사투자자문 신고 포상금 최대 400만원
수정 07.26 | [관리자] 하얀설표
👍 0
🗨️ 0
썸네일
분류없음
주식시장 개장일과 휴장일 정보를 간단하게 가져오는 방법(엑셀, 파이썬)
수정 07.20 | [관리자] 하얀설표
👍 0
#Python, #주식
🗨️ 0
분류없음
로또 제외수를 맞춰보자
수정 07.13 | [관리자] 하얀설표
👍 0
🗨️ 0
분류없음
해결) 장고 bulk_update의 메모리 누수 문제(django orm bluk_update method memory leak)
수정 07.12 | [관리자] 하얀설표
👍 0
#Python, #Django
🗨️ 0