bs4 2

[파이썬 크롤러] 나는 로봇이 아닙니다. header

2021.07.21 - [python/크롤링] - [파이썬 크롤러] 웹 크롤러 만들기 이전 게시글에서 잠깐 언급했듯, 각 사이트별로 robots.txt라는 항목이 존재한다. 왼쪽은 https://google.com/robots.txt 의 결과이다. 간단하게 Allow 는 크롤링 허용, Disallow는 허용하지 않는다는 의미인데, 무엇을 허용하고 허용하지 않는다는 말일까? https://searchadvisor.naver.com/guide/seo-basic-robots 친절하게 설명되어있다. 구글은 크롤러에 상당히 엄격하다. 일부만 캡쳐했는데도 Disallow가 상당하고, User-agent 가 * 즉 모든 유저에 대해서 적용된다. 우리도 종종 구글에서 일정한 간격으로 비슷한 패턴을 가지고 검색하게되면 ..

python/크롤링 2021.09.09

[파이썬 크롤러] 웹 크롤러 만들기

요즘 빌보드에서 BTS가 연일 국위선양 하고있다. 그런 의미로 빌보드 차트 크롤러를 만들어보자. 파이썬 크롤러는 크게 두 가지다. 1. bs4 2. Selenium bs4는 uri를 통해 html소스를 가져와 파싱한다. uri가 바뀌지 않는 이상, 한 번 호출한 html을 파싱하므로, 빠른축에 속하지만, javascript가 들어가 반응형 웹의 경우에 파싱이 어려울 수 있다. 우리가 가져오는건 우리가 보는 빈 껍데기일 뿐, 특정 버튼을 눌렀을 때, 그에 상응하는 데이터를 얻을 수 있다고 확신할 수 없다. 그래서 selenium을 사용한다. 셀레니움 ( 혹은 셀레늄 )은 제어가 가능한 chromedriver( 가장 많이 사용하며, 파이어폭스나 다른 브라우저도 지원 한다. 아마도) 을 코드로 제어하며 웹 입..

python/크롤링 2021.07.21
반응형