크롤러 2

[파이썬 크롤러] Tweepy를 이용한 트위터 크롤링 [3]

성공했다. 이 모든 영광을 파파고에게. 이 메일이 왔다면 당신은 트위터API를 사용할 준비가 되었다는 뜻이다. 트위터 개발자포털에 들어가면 위와 같은 화면이 나온다. New Project를 누르면 프로젝트 이름을 설정하고, 어디에 사용 할 것인지. 프로젝트 설명 App의 이름. 위의 과정들을 모두 마쳤다면, 당신의 API key, Secret Key, Breaer Token이 생성된다. 이건 본인만 알고있어야한다. 한 번 발급 이후로는 재발급만 가능하니. 만약 잃어버렸다면, 프로젝트 > 프로젝트 명 > Keys and tokens 에서 재발급이 가능하다. 재발급시엔 기존에 사용되던 키는 사라진다. 키 발급까지 끝났다면, 이제 트위터 크롤링을 위한 첫 스텝을 밟은 셈이다. pip install tweepy..

python/크롤링 2021.08.17

[파이썬 크롤러] 웹 크롤러 만들기

요즘 빌보드에서 BTS가 연일 국위선양 하고있다. 그런 의미로 빌보드 차트 크롤러를 만들어보자. 파이썬 크롤러는 크게 두 가지다. 1. bs4 2. Selenium bs4는 uri를 통해 html소스를 가져와 파싱한다. uri가 바뀌지 않는 이상, 한 번 호출한 html을 파싱하므로, 빠른축에 속하지만, javascript가 들어가 반응형 웹의 경우에 파싱이 어려울 수 있다. 우리가 가져오는건 우리가 보는 빈 껍데기일 뿐, 특정 버튼을 눌렀을 때, 그에 상응하는 데이터를 얻을 수 있다고 확신할 수 없다. 그래서 selenium을 사용한다. 셀레니움 ( 혹은 셀레늄 )은 제어가 가능한 chromedriver( 가장 많이 사용하며, 파이어폭스나 다른 브라우저도 지원 한다. 아마도) 을 코드로 제어하며 웹 입..

python/크롤링 2021.07.21
반응형