전체 글 56

[파이썬 크롤러 ] Tweepy를 이용한 트위터 크롤링 [2]

2021.07.22 - [python] - [파이썬 크롤러 ] Tweepy를 이용한 트위터 크롤링 [1] [파이썬 크롤러 ] Tweepy를 이용한 트위터 크롤링 [1] 트위터를 크롤링 해보자. 이전 두 포스트는 url request를 통해서 html을 파싱해서 데이터를 긁어오는 웹 입장에서 다소 껄끄러운 작업이었다면, 트위터는 자체 API를 제공해서 "합법적"으로 데이터 kkiho.tistory.com 이전 게시글에 이어 트위터 크롤링을 시작해보자. 오래 전에 심사를 받아 심사가 얼마나 걸리는지는 모르겠다. 반려당했다...... 부족한 부분에서 추가해서 다시 메일 보냈더니 또 반려됐다. 나의 비루한 영작이 이렇게 발목을 잡는것인지 아니면 내가 너무 쉽게 생각했는지모르겠다. 아무튼 다시 메일 보냈다.

python/크롤링 2021.07.30

[파이썬 크롤러] 셀레니움을 이용한 크롤링[2]

2021.07.22 - [python] - [파이썬 기초] 셀레니움을 이용한 크롤링 [파이썬 기초] 셀레니움을 이용한 크롤링 이번 포스트에서는 Selenium을 이용한 크롤러를 제작 해 보겠다. bs4를 이용한 크롤러는 아래 링크 확인. 2021.07.21 - [python] - [파이썬 기초] 웹 크롤러 만들기 설치 pip install selenium 이전 포스트에서 셀 kkiho.tistory.com 이전 포스트에서 셀레니움 기초에 대해서 알아봤다. 이 포스트에서는 셀레니움에서 사용하는 옵션? 들을 다뤄보도록 하자. 1. 스크롤 다운 def scroll_down(): last_height = driver.execute_script("return document.body.scrollHeight") c..

python/크롤링 2021.07.29

[파이썬 크롤러 ] Tweepy를 이용한 트위터 크롤링 [1]

트위터를 크롤링 해보자. 이전 두 포스트는 url request를 통해서 html을 파싱해서 데이터를 긁어오는 웹 입장에서 다소 껄끄러운 작업이었다면, 트위터는 자체 API를 제공해서 "합법적"으로 데이터를 받아올 수 있다. 트위터 API를 사용하려면 우선 트위터 계정이 필요하고, 개발자 신청이 통과 되야한다. 우선 https://developer.twitter.com/en Use Cases, Tutorials, & Documentation Publish & analyze Tweets, optimize ads, & create unique customer experiences with the Twitter API, Twitter Ads API, & Twitter Embeds. developer.twitt..

python/크롤링 2021.07.22

[파이썬 크롤러] 셀레니움을 이용한 크롤링

이번 포스트에서는 Selenium을 이용한 크롤러를 제작 해 보겠다. bs4를 이용한 크롤러는 아래 링크 확인. 2021.07.21 - [python] - [파이썬 기초] 웹 크롤러 만들기 설치 pip install selenium 이전 포스트에서 셀레니움이 제어 가능한 웹 드라이버를 이용해 크롤링을 수행한다 말 했었고, 사용되는 브라우저가 크롬을 비롯해 다양하다고 언급했었다. 패키지를 훑어보면 사용가능한 드라이버를 알 수 있다. Firefox Chrome Ie Edge Opera Safari BlackBerry PhantomJS Android 등등 크롬에서 수집이 불가해서 다른 브라우저를 사용한 적이 있지만, 대부분 크롬을 사용한다. 우리가 사용하고있는 크롬대신, 크롬 드라이버라는 프로그램을 사용하기때..

python/크롤링 2021.07.22

[파이썬 크롤러] 웹 크롤러 만들기

요즘 빌보드에서 BTS가 연일 국위선양 하고있다. 그런 의미로 빌보드 차트 크롤러를 만들어보자. 파이썬 크롤러는 크게 두 가지다. 1. bs4 2. Selenium bs4는 uri를 통해 html소스를 가져와 파싱한다. uri가 바뀌지 않는 이상, 한 번 호출한 html을 파싱하므로, 빠른축에 속하지만, javascript가 들어가 반응형 웹의 경우에 파싱이 어려울 수 있다. 우리가 가져오는건 우리가 보는 빈 껍데기일 뿐, 특정 버튼을 눌렀을 때, 그에 상응하는 데이터를 얻을 수 있다고 확신할 수 없다. 그래서 selenium을 사용한다. 셀레니움 ( 혹은 셀레늄 )은 제어가 가능한 chromedriver( 가장 많이 사용하며, 파이어폭스나 다른 브라우저도 지원 한다. 아마도) 을 코드로 제어하며 웹 입..

python/크롤링 2021.07.21

crontab 설정하기

linux상에서 작업하다보면 특정 시간에 반복적으로 수행해야할 일들이 있다. 내 경우에 매일 자정에 실행되는 파이썬 파일이 있는데, multiprocessing 으로 처리하면, 자꾸 connection error가 발생해 아예 cron으로 따로 실행시킨다. 사담은 여기까지하고 크론탭 설정은 다음과같이 진행하면 된다. crontab -e # Edit this file to introduce tasks to be run by cron. # # Each task to run has to be defined through a single line # indicating with different fields when the task will be run # and what command to run for th..

linux 2021.07.19
반응형