작성자 : 하얀설표
작성 시간 : 2023년 7월 20일 3:59 오후
공유
하기
미리보는 결론
robots.txt에 강제성은 없다.
크롤러를 만드는 중이라면
국내외를 할 것 없이 크롤러를 통한 데이터 수집은 법적 공방이 발생하는 문제다.
자세한 내용은 이 글에서 확인할 수 있다.
robots.txt란?
robots.txt.란, 웹 스크래퍼, 웹 크롤러 등으로 불리는 웹사이트 방문 로봇에게 특정 페이지의 방문을 허용하거나 거부한다는 것을 알리는 페이지를 말한다.
기본적으로 호스트네임/robots.txt 경로에서 조회할 수 있는 페이지다.
네이버에서는 robots.txt에 대해 다음과 같이 말하고 있다.
robots.txt는 검색로봇에게 사이트 및 웹페이지를 수집할 수 있도록 허용하거나 제한하는 국제 권고안입니다. IETF에서 2022년 9월에 이에 대한 표준화 문서를 발행하였습니다. |
robots.txt 설정방법
robots.txt의 작성법은 기본적으로 robotstxt.org를 따르지만,
네이버 웹마스터 가이드나, 구글 검색센터에서도 작성방법을 확인할 수 있다.
기초적인 내용은 다음과 같다.
- User-agent : 크롤러의 이름
- allow : 크롤러 방문을 허용하는 path 또는 uri
- Disallow : 크롤러 방문을 허용하지 않는 path 또는 uri
- Sitemap : 사이트맵
다음은 Yeti 봇에게는 모든 페이지 방문을 허용하고, Googlebot 봇에게는 /public/ 하위 url만 방문을 허용하는 robots.txt의 예시다.
그러나 이렇게 설정한다고 하더라도 Googlebot은 웹사이트의 모든 url을 탐색하기도 한다.
User-agent: Yeti
Allow: /
User-agent: Googlebot
Disallow: /
Allow: /public/
robots.txt가 무시되는 이유
robots.txt는 권고안일 뿐, 법적인 효력은 전혀 없기 때문이다.
다음은 robotstxt.org에서 제공하는 법적 효력 여부에 대한 안내문이다.
Can a /robots.txt be used in a court of law? |
구글과 네이버도 robots.txt를 참고한다고는 하지만 참고만 할 뿐이지, 반드시 지키는 것은 아니다.
예시로 찾기 쉬운 것은 네이버에서 robots.txt로 접근을 비허용한 페이지들을 찾아보는 것이다. 구글에 색인되어있는 네이버 문서들을 검색해보자.
목록 보기
댓글(0개)
댓글을 작성하려면 로그인해야합니다.
댓글이 없습니다. 첫 댓글을 남겨보세요!
목록 보기