파이썬 23

[파이썬 크롤러] 셀레니움을 이용한 크롤링[2]

2021.07.22 - [python] - [파이썬 기초] 셀레니움을 이용한 크롤링 [파이썬 기초] 셀레니움을 이용한 크롤링 이번 포스트에서는 Selenium을 이용한 크롤러를 제작 해 보겠다. bs4를 이용한 크롤러는 아래 링크 확인. 2021.07.21 - [python] - [파이썬 기초] 웹 크롤러 만들기 설치 pip install selenium 이전 포스트에서 셀 kkiho.tistory.com 이전 포스트에서 셀레니움 기초에 대해서 알아봤다. 이 포스트에서는 셀레니움에서 사용하는 옵션? 들을 다뤄보도록 하자. 1. 스크롤 다운 def scroll_down(): last_height = driver.execute_script("return document.body.scrollHeight") c..

python/크롤링 2021.07.29

[파이썬 크롤러 ] Tweepy를 이용한 트위터 크롤링 [1]

트위터를 크롤링 해보자. 이전 두 포스트는 url request를 통해서 html을 파싱해서 데이터를 긁어오는 웹 입장에서 다소 껄끄러운 작업이었다면, 트위터는 자체 API를 제공해서 "합법적"으로 데이터를 받아올 수 있다. 트위터 API를 사용하려면 우선 트위터 계정이 필요하고, 개발자 신청이 통과 되야한다. 우선 https://developer.twitter.com/en Use Cases, Tutorials, & Documentation Publish & analyze Tweets, optimize ads, & create unique customer experiences with the Twitter API, Twitter Ads API, & Twitter Embeds. developer.twitt..

python/크롤링 2021.07.22

[파이썬 크롤러] 웹 크롤러 만들기

요즘 빌보드에서 BTS가 연일 국위선양 하고있다. 그런 의미로 빌보드 차트 크롤러를 만들어보자. 파이썬 크롤러는 크게 두 가지다. 1. bs4 2. Selenium bs4는 uri를 통해 html소스를 가져와 파싱한다. uri가 바뀌지 않는 이상, 한 번 호출한 html을 파싱하므로, 빠른축에 속하지만, javascript가 들어가 반응형 웹의 경우에 파싱이 어려울 수 있다. 우리가 가져오는건 우리가 보는 빈 껍데기일 뿐, 특정 버튼을 눌렀을 때, 그에 상응하는 데이터를 얻을 수 있다고 확신할 수 없다. 그래서 selenium을 사용한다. 셀레니움 ( 혹은 셀레늄 )은 제어가 가능한 chromedriver( 가장 많이 사용하며, 파이어폭스나 다른 브라우저도 지원 한다. 아마도) 을 코드로 제어하며 웹 입..

python/크롤링 2021.07.21
반응형