크롤링이 불법 행위가 되는 경우는 따로 있다.

하얀설표

2023.07.20. 10:48

(2023.07.20. 15:59 수정됨)

읽기 전에

일반인의 관점에서 정리한 내용입니다.
법적인 근거를 필요로 한다면 이 글을 참조하지 말고, 전문가의 도움을 구하시길 바랍니다.

미리보는 결론

크롤링하는 행위 자체는 불법이 아니다.

크롤링으로 인한 법적 분쟁 사례

링크드인과 하이큐 랩스

美 항소법원 "인터넷 공개 정보, 자동 스크래핑은 합법" - 2022년 기사

항소법원은 인터넷에서 공개적으로 접속할 수 있는 데이터를 스크래핑하는 것은 미국 법에 따라 컴퓨터 해킹을 규율하는 컴퓨터 사기 및 남용법(CFAA)에 위반하지 않는다는 결론이다.
다시 말해 하이큐의 스크래핑에 있어 불법이 없다는 것이다.

엔하위키와 리그베다위키

법원 “무단 사이트 미러링은 위법”…임의 데이터 수집에 경종 - 2015년 기사

법원은 “엔하위키미러는 리그베다위키의 게시물을 그대로 복제해 게시하고 있을 뿐 독자적인 내용을 포함하고 있지 않은점, 리그베다위키의 옛 이름인 엔하위키에 ‘미러’라는 단어가 추가됐으나 여전히 ‘엔하위키’ 부분은 채권자의 권한에 포함”된다며 부정경쟁행위에 해당한다고 판결했다.

이에 대해 법원은 부정경쟁행위라는 점은 인정했으나 저작권법 위반에 대한 부분은 인정하지 않았다.
저작권 침해 주장이 법원에서 받아들여지지 않은 이유는 리그베다위키 사이트에 담긴 콘텐츠가 웹사이트 관리자가 아닌 불특정다수의 사용자들이 작성한 것이기 때문이다.

법원은 저작권권과 달리 부정경쟁방지법은 인정했다.

사람인HR과 잡코리아

업계에 따르면 구인구직 매칭플랫폼 사람인에이치알(HR)이 잡코리아에 합의금으로 120억원을 지불한 것으로 알려졌다.
불법 웹크롤링 행위를 두고 10여 년간 갈등을 빚어온 잡코리아와 사람인에이치알이 마침내 합의를 이뤘다.

사람인은 지난 2008년부터 잡코리아의 채용정보를 무단으로 복제, 게시해 왔다는 의혹을 받아왔다.
이에 대해 지난 2016년 2월 서울중앙지방법원이 사람인의 무단 크롤링(crawling) 행위는 부정경쟁 행위임을 판결하기도 했다.
사람인은 항소 했지만 지난해 2월과 8월에 열린 2심과 3심에서 법원은 결국 잡코리아의 손을 들어줬다.
이후 잡코리아는 동일한 사항에 대해 사람인을 상대로 추가 제기한 소송에서 결국 양사간의 합의를 이뤄냈다.

야놀자와 여기어때

대법원, 야놀자 정보 크롤링 한 여기어때 창업주 '무죄' - 2022년 기사

숙박, 여가 플랫폼 선두 사업자 야놀자의 영업 정보를 무단으로 빼돌린 혐의로 기소된 여기어때 관계자들이 최종 무죄 판결받았다.
사건의 쟁점은 심 전 대표 등이 정보 수집 프로그램(크롤링)으로 야놀자 서버에 접속한 것이 정보통신망 침입에 해당하는지 여부였다. 대법원은 이를 무죄로 판단했다.

재판부는 여기어때 측이 크롤링을 통해 확보한 야놀자 정보 대부분이 이용자에게 공개된 것으로 보고, 심 전 대표 등에게 무죄를 선고했다.
대법원은 컴퓨터등업무방해와 저작권법 위반 혐의도 무죄로 봤다. 이미 잘 알려진 정보로, 데이터베이스의 통상적인 이용을 방해하거나 회사 이익을 부당하게 해친 경우에 해당하지 않는다고 대법원은 판단했다.

1심에선 여기어때 측 크롤링 사용을 유죄로 보고, 심 전 대표에게 징역 1년2개월에 집행유예 2년을 선고했다. 관계된 직원들은 징역형의 집행유예와 벌금형을 받았다.

그러나 2심에서 판단이 뒤집혔다. 크롤링을 통해 가져간 정보가 공개된 정보란 취지다. 대법원 역시 원심 판단에 문제가 없다고 보고 상고를 기각했다.

여기어때가 야놀자 숙박정보 대량 빼갔다...2심도 ‘크롤링’ 불법 판정 - 2022년 기사

1심 재판부는 "여기어때는 야놀자가 오랜 시간 노력한 결과에 편승해 이익을 얻었고 이로 인해 야놀자는 경쟁력이 저하되는 손해를 입었다"며 여기어때의 손해배상 금액을 10억원으로 산정했다.
여기어때 측은 "공개된 정보를 검색했을 뿐이다"며 "정보의 검색은 자유주의 시장경제 체제에서 허용되는 정당한 사업 활동인 '시장 현황 파악'이다"고 항소했다.
2심 재판부도 여기어때의 주장을 받아들이지 않았다. 재판부는 "제휴 숙박업소 정보를 서비스 이용자를 위해 공개하고 있다는 사정만으로 누구나 어떤 목적과 방식으로든 자유롭게 복제해 사용할 수 있는 공공영역에 해당된다고 볼 수 없다"고 밝혔다.
이와 별개로 정보통신망 침해, 저작권법 위반 등 혐의 형사소송에선 지난 5월 대법원은 심명섭 전 위드이노베이션(현 여기어때컴퍼니) 대표에게 무죄를 선고했다.
대법원은 “피해자 회사의 앱을 통하지 않고 이 사건 서버에 접속했다거나 크롤링 등을 통해 정보를 수집했다는 사정만으로 접근권한이 없거나 접근권한을 넘어 피해자 회사의 정보통신망에 침입했다고 보기 어렵다”고 판단했다.

네이버와 위메프

[스페셜리포트]플랫폼 업계, 크롤링 법적 분쟁 앓이 - 2022년 기사

네이버는 1월 위메프에 가격비교 데이터를 동의 없이 무단으로 수집했다는 내용 증명을 발송했다.
위메프가 가격 비교를 위해 네이버에서 크롤링 방식으로 수집한 자사 데이터를 즉시 삭제하라 요구했고, 위메프가 정보를 내리며 사건은 일단락됐다.

직방과 방픽

[단독] 직방도 당했다…잡코리아 10년 싸운 '크롤링' 법정 논쟁 - 2023년 기사

부동산 정보 플랫폼 직방이 “스타트업 방픽이 ‘크롤링(crawling·자동으로 웹사이트 정보 수집 및 가공)’을 못하게 해달라”며 낸 소송에서 승소했다.
거대 플랫폼과 스타트업 사이 크롤링 분쟁이 늘어나는 가운데 법원이 ‘데이터베이스(DB)권’ 침해에 대해 엄격하게 판단한 결과다.
서울중앙지법 민사합의62부(부장 이영광)는 “방픽은 크롤링으로 얻은 데이터를 폐기하고, 직방에 2000만원을 지급하라”고 지난 3일 판결했다.

"크롤링"으로 패소했다는 것은 눈속임이다

크롤링으로 인한 법적 분쟁 사례는 의외로 많고, 다양하다.
내용을 대충 훑어보면 경쟁업체의 데이터를 "크롤링 행위"를 통해 얻은 데이터를 영업에 이용한 것에 대한 피해보상을 지급하라는 것으로 내용이 끝난다.
이유는 모르겠으나 많은 기사 제목들이 "ㅇㅇ기업 크롤링 법적 분쟁 패소(승소)"같은 식으로 작명되고 있다.

쟁점은 크롤링 행위가 아니다

"크롤링이 문제인 거 아닌가?"하는 생각이 있다면 다시 한 번 각 사례들을 확인해보길 바란다. 읽기 쉬우라고 중요한 부분만 발췌해오기도 했다.
제대로 읽어보았다면 눈치챘겠지만 법원에서 인정한 부분은 대부분 "크롤링 행위"가 아니라 크롤링을 통해 얻은 "다른 기업의 데이터를 사용하여 이득을 얻은 행위"를 중점으로 보았다는 것을 알 수 있다

왜 크롤링 행위는 넘어가는 걸까?

크롤링하는 행위 자체는 불법 행위로 볼 수 없다. 대부분 인터넷 상에 공개한 웹사이트 정보를 보는 것이기 때무니다.
이걸 불법 행위라고 단정한다면 지금 당신이 내 사이트의 이 글을 보는 것도 불법 행위라고 하는 것과 다를게 없다.

공개된 웹사이트 크롤링을 불법으로 단정하게 되었을 때를 비유하자면 다음과 같다.

사람들이 오가는 길거리(인터넷)에 사진이나 그림을 전시(웹사이트)해놓고,
길을 지나던 사람들이 그것을 쳐다보았다면(웹사이트 방문)

그들이 내 사진을 무단으로 보았다며 관람료를 요구하는 행위를 하게 될 수도 있기 때문이다.

이런 일이 가능해진다면 네이버나 구글과 같은 검색엔진에서 검색결과에 다양한 웹사이트를 보여주는 것도 불가능해지기 때문에 정상적인 것도 아니며, 누구도 원하는 결과가 아니다.

이런 이유로 일반적인 크롤링 행위는 불법 행위로 보지 않고 넘어가게 된다.
알고 있겠지만, 일반적인 접근권한을 넘어 침입하는 행위는 당연히 문제가 된다.

링크드인과 하이큐 랩스의 사례와 야놀자와 여기어때의 사례를 확인해보자.
하이큐의 웹 스크래핑 행위는 "데이터를 스크래핑하는 것은 미국 법에 따라 컴퓨터 해킹을 규율하는 컴퓨터 사기 및 남용법(CFAA)에 위반하지 않는다는 결론"이 나와 무죄 판결을 받았고,
여기어때의 웹 스크래핑 행위는 "야놀자 서버에 접속한 것이 정보통신망 침입에 해당하는지 여부였다. 대법원은 이를 무죄로 판단"하여 무죄를 받았다.
특히 여기어때의 경우 "크롤링을 통해 가져간 정보가 공개된 정보"였다는 부분을 확인하자.

참고로 여기어때의 경우 배상 판결과 무죄 판결 2가지가 있는데, 무죄 판결은 형사 사건이고 배상 판결이 난 것은 민사 사건이다.

그렇다고 크롤링을 막 해도 된다는건 아니다

"그럼 나 혼자 쓸 데이터니까 막 크롤링해도 문제될게 없겠네?"라고 생각할 수 있다. 아니다.

지금까지의 사례들은 기업과 기업, 공룡들간의 싸움이기 때문에 대부분 DB권 침해와 부당 경쟁 행위 같은 것들로 손해배상 청구를 한 것일 뿐이다.
일반인들도 크롤링 행위를 통해 기업에 피해를 주는 것이 가능한데, 대표적인 예시는 과도한 트래픽 요청으로 인해 서버가 먹통이 되는 경우다.

비슷한 사례로 디도스 공격이 있다.

디도스 공격 대행자, 5억 넘는 수익 올리고 13개월 징역

미국 일리노이 주에서 거주하던 한 남성이 13개월 징역형을 선고받았다. 서비스형 디도스(DDoS-as-a-Service) 사이트를 관리해왔기 때문이다.
이 사이트를 통해 지난 수년 동안 수백만 건의 디도스 공격이 발생했다고 한다.

robots.txt는 법적인 효력이 있을까?

크롤링 관련 뉴스를 찾다보면 다음과 같은 기사를 찾아볼 수 있다.
마치 robots.txt를 통해 크롤러의 접근을 허용하지 않는다면 위법한 행위가 된다고 해석할 수도 있는데, 이는 틀린 해석이다.

robots.txt는 어디까지나 크롤러에게 알려주는 권고사항일 뿐이지 법적인 효력을 발휘하는 것이 아니기 때문이다.

"경쟁사 웹사이트 무단 '크롤링'은 부정경쟁행위"

잡코리아는 네이버, 다음, 구글 등 정상적인 검색로봇만 접근할 수 있도록 'robots.txt'를 웹사이트에 설치해뒀다.
robots.txt는 검색로봇들의 접근을 허용하고 차단할 수 있는 일종의 스위치다. 설정에 따라 검색로봇의 접근을 모두 허용하거나 차단한다.

구글에서 사용하는 크롤러는 robots.txt를 확인한다고 하지만, robots.txt로 접근을 비허용한 페이지도 크롤러가 방문하고 색인이 되어있는 것을 알 수 있다.
앞서 이야기했듯이 robots.txt는 어디까지나 권고안일 뿐이지, 절대적인 것은 아니기 때문이다.

자세한 내용은 이 글에서 확인할 수 있다.

크롤러가 서버를 방문하지 않게 하려면?

크롤러가 특정 페이지를 방문하지 않도록 하고 싶다면 웹상에 공개하지 않는 것이 가장 좋은 방법이고,
여의치 않다면 접근 권한을 가진 이용자만 확인할 수 있도록 해야 한다.