2021.07.21 - [python/크롤링] - [파이썬 크롤러] 웹 크롤러 만들기 이전 게시글에서 잠깐 언급했듯, 각 사이트별로 robots.txt라는 항목이 존재한다. 왼쪽은 https://google.com/robots.txt 의 결과이다. 간단하게 Allow 는 크롤링 허용, Disallow는 허용하지 않는다는 의미인데, 무엇을 허용하고 허용하지 않는다는 말일까? https://searchadvisor.naver.com/guide/seo-basic-robots 친절하게 설명되어있다. 구글은 크롤러에 상당히 엄격하다. 일부만 캡쳐했는데도 Disallow가 상당하고, User-agent 가 * 즉 모든 유저에 대해서 적용된다. 우리도 종종 구글에서 일정한 간격으로 비슷한 패턴을 가지고 검색하게되면 ..