python 46

[파이썬 크롤러] Tweepy를 이용한 트위터 크롤링 [3]

성공했다. 이 모든 영광을 파파고에게. 이 메일이 왔다면 당신은 트위터API를 사용할 준비가 되었다는 뜻이다. 트위터 개발자포털에 들어가면 위와 같은 화면이 나온다. New Project를 누르면 프로젝트 이름을 설정하고, 어디에 사용 할 것인지. 프로젝트 설명 App의 이름. 위의 과정들을 모두 마쳤다면, 당신의 API key, Secret Key, Breaer Token이 생성된다. 이건 본인만 알고있어야한다. 한 번 발급 이후로는 재발급만 가능하니. 만약 잃어버렸다면, 프로젝트 > 프로젝트 명 > Keys and tokens 에서 재발급이 가능하다. 재발급시엔 기존에 사용되던 키는 사라진다. 키 발급까지 끝났다면, 이제 트위터 크롤링을 위한 첫 스텝을 밟은 셈이다. pip install tweepy..

python/크롤링 2021.08.17

[파이썬 크롤러 ] Tweepy를 이용한 트위터 크롤링 [2]

2021.07.22 - [python] - [파이썬 크롤러 ] Tweepy를 이용한 트위터 크롤링 [1] [파이썬 크롤러 ] Tweepy를 이용한 트위터 크롤링 [1] 트위터를 크롤링 해보자. 이전 두 포스트는 url request를 통해서 html을 파싱해서 데이터를 긁어오는 웹 입장에서 다소 껄끄러운 작업이었다면, 트위터는 자체 API를 제공해서 "합법적"으로 데이터 kkiho.tistory.com 이전 게시글에 이어 트위터 크롤링을 시작해보자. 오래 전에 심사를 받아 심사가 얼마나 걸리는지는 모르겠다. 반려당했다...... 부족한 부분에서 추가해서 다시 메일 보냈더니 또 반려됐다. 나의 비루한 영작이 이렇게 발목을 잡는것인지 아니면 내가 너무 쉽게 생각했는지모르겠다. 아무튼 다시 메일 보냈다.

python/크롤링 2021.07.30

[파이썬 크롤러] 셀레니움을 이용한 크롤링[2]

2021.07.22 - [python] - [파이썬 기초] 셀레니움을 이용한 크롤링 [파이썬 기초] 셀레니움을 이용한 크롤링 이번 포스트에서는 Selenium을 이용한 크롤러를 제작 해 보겠다. bs4를 이용한 크롤러는 아래 링크 확인. 2021.07.21 - [python] - [파이썬 기초] 웹 크롤러 만들기 설치 pip install selenium 이전 포스트에서 셀 kkiho.tistory.com 이전 포스트에서 셀레니움 기초에 대해서 알아봤다. 이 포스트에서는 셀레니움에서 사용하는 옵션? 들을 다뤄보도록 하자. 1. 스크롤 다운 def scroll_down(): last_height = driver.execute_script("return document.body.scrollHeight") c..

python/크롤링 2021.07.29

[파이썬 크롤러 ] Tweepy를 이용한 트위터 크롤링 [1]

트위터를 크롤링 해보자. 이전 두 포스트는 url request를 통해서 html을 파싱해서 데이터를 긁어오는 웹 입장에서 다소 껄끄러운 작업이었다면, 트위터는 자체 API를 제공해서 "합법적"으로 데이터를 받아올 수 있다. 트위터 API를 사용하려면 우선 트위터 계정이 필요하고, 개발자 신청이 통과 되야한다. 우선 https://developer.twitter.com/en Use Cases, Tutorials, & Documentation Publish & analyze Tweets, optimize ads, & create unique customer experiences with the Twitter API, Twitter Ads API, & Twitter Embeds. developer.twitt..

python/크롤링 2021.07.22

[파이썬 크롤러] 셀레니움을 이용한 크롤링

이번 포스트에서는 Selenium을 이용한 크롤러를 제작 해 보겠다. bs4를 이용한 크롤러는 아래 링크 확인. 2021.07.21 - [python] - [파이썬 기초] 웹 크롤러 만들기 설치 pip install selenium 이전 포스트에서 셀레니움이 제어 가능한 웹 드라이버를 이용해 크롤링을 수행한다 말 했었고, 사용되는 브라우저가 크롬을 비롯해 다양하다고 언급했었다. 패키지를 훑어보면 사용가능한 드라이버를 알 수 있다. Firefox Chrome Ie Edge Opera Safari BlackBerry PhantomJS Android 등등 크롬에서 수집이 불가해서 다른 브라우저를 사용한 적이 있지만, 대부분 크롬을 사용한다. 우리가 사용하고있는 크롬대신, 크롬 드라이버라는 프로그램을 사용하기때..

python/크롤링 2021.07.22

[파이썬 크롤러] 웹 크롤러 만들기

요즘 빌보드에서 BTS가 연일 국위선양 하고있다. 그런 의미로 빌보드 차트 크롤러를 만들어보자. 파이썬 크롤러는 크게 두 가지다. 1. bs4 2. Selenium bs4는 uri를 통해 html소스를 가져와 파싱한다. uri가 바뀌지 않는 이상, 한 번 호출한 html을 파싱하므로, 빠른축에 속하지만, javascript가 들어가 반응형 웹의 경우에 파싱이 어려울 수 있다. 우리가 가져오는건 우리가 보는 빈 껍데기일 뿐, 특정 버튼을 눌렀을 때, 그에 상응하는 데이터를 얻을 수 있다고 확신할 수 없다. 그래서 selenium을 사용한다. 셀레니움 ( 혹은 셀레늄 )은 제어가 가능한 chromedriver( 가장 많이 사용하며, 파이어폭스나 다른 브라우저도 지원 한다. 아마도) 을 코드로 제어하며 웹 입..

python/크롤링 2021.07.21
반응형