python/크롤링 9

[구글 API] 구글 API를 통해 유튜브를 검색해보자 -2

이전 포스트에서 대시보드가 보였다면, 이젠 사용자 인증정보를 생성해보자. 당장은 Youtube API 만 사용하려고하니, API 선택에서 위와같이 유튜브를 찾고, 공개데이터를 선택한 뒤, 다음단계로 가자. 다음으로가면, API 키 제한을 하라고한다. KEY 값이 외부로 유출되면, 연결된 결제수단으로 과금이 발생할 수 있으니 제한이 필요하다는것. 이름도 따로 정할 수있는데, 난 귀찮은 관계로 넘어간다. 관리해야하는 API가 여러개라면 고려할만한 옵션이다. 저장을 누르고 API를 복사해놓자. 트위터와는 다르게 KEY만 가지고있으면 접근이 가능하다. pip install google-api-client 위 명령어로 google client를 설치하면 일단 사용준비는 끝. from googleapiclient ..

python/크롤링 2022.01.25

[구글 API] 구글 API를 통해 유튜브를 검색해보자 -1

이전 트위터 API 직후에 작성한다는것이 조금 늦어졌다. 구글은 다양한 API를 제공한다. 구글에서 지원하는 어플리케이션의 API나 지도를 사용할 수 있다. 우선, 트위터와 마찬가지로 개발자신청을 통해 권한을 얻어야하는데, https://console.cloud.google.com/getting-started 위 링크를 따라가면 이런 화면이 나온다. 이메일 업데이트는 빼고 위의 두개만 체크해도 정상적으로 넘어간다. 최상단에 제품/리소스검색창에 youtube data API를 검색해보자. 검색해서 나온 결과중에 맨 위에있는 Youtube Data API v3를 누르면 위와같은 화면이 나오고, 사용을 눌러서 API를 등록하자. 인고의 시간을 버텨내면 위와같은 대시보드가 보인다. 바로 사용할 수는 없고, 사용..

python/크롤링 2022.01.25

[파이썬 크롤러] 나는 로봇이 아닙니다. header

2021.07.21 - [python/크롤링] - [파이썬 크롤러] 웹 크롤러 만들기 이전 게시글에서 잠깐 언급했듯, 각 사이트별로 robots.txt라는 항목이 존재한다. 왼쪽은 https://google.com/robots.txt 의 결과이다. 간단하게 Allow 는 크롤링 허용, Disallow는 허용하지 않는다는 의미인데, 무엇을 허용하고 허용하지 않는다는 말일까? https://searchadvisor.naver.com/guide/seo-basic-robots 친절하게 설명되어있다. 구글은 크롤러에 상당히 엄격하다. 일부만 캡쳐했는데도 Disallow가 상당하고, User-agent 가 * 즉 모든 유저에 대해서 적용된다. 우리도 종종 구글에서 일정한 간격으로 비슷한 패턴을 가지고 검색하게되면 ..

python/크롤링 2021.09.09

[파이썬 크롤러] Tweepy를 이용한 트위터 크롤링 [3]

성공했다. 이 모든 영광을 파파고에게. 이 메일이 왔다면 당신은 트위터API를 사용할 준비가 되었다는 뜻이다. 트위터 개발자포털에 들어가면 위와 같은 화면이 나온다. New Project를 누르면 프로젝트 이름을 설정하고, 어디에 사용 할 것인지. 프로젝트 설명 App의 이름. 위의 과정들을 모두 마쳤다면, 당신의 API key, Secret Key, Breaer Token이 생성된다. 이건 본인만 알고있어야한다. 한 번 발급 이후로는 재발급만 가능하니. 만약 잃어버렸다면, 프로젝트 > 프로젝트 명 > Keys and tokens 에서 재발급이 가능하다. 재발급시엔 기존에 사용되던 키는 사라진다. 키 발급까지 끝났다면, 이제 트위터 크롤링을 위한 첫 스텝을 밟은 셈이다. pip install tweepy..

python/크롤링 2021.08.17

[파이썬 크롤러 ] Tweepy를 이용한 트위터 크롤링 [2]

2021.07.22 - [python] - [파이썬 크롤러 ] Tweepy를 이용한 트위터 크롤링 [1] [파이썬 크롤러 ] Tweepy를 이용한 트위터 크롤링 [1] 트위터를 크롤링 해보자. 이전 두 포스트는 url request를 통해서 html을 파싱해서 데이터를 긁어오는 웹 입장에서 다소 껄끄러운 작업이었다면, 트위터는 자체 API를 제공해서 "합법적"으로 데이터 kkiho.tistory.com 이전 게시글에 이어 트위터 크롤링을 시작해보자. 오래 전에 심사를 받아 심사가 얼마나 걸리는지는 모르겠다. 반려당했다...... 부족한 부분에서 추가해서 다시 메일 보냈더니 또 반려됐다. 나의 비루한 영작이 이렇게 발목을 잡는것인지 아니면 내가 너무 쉽게 생각했는지모르겠다. 아무튼 다시 메일 보냈다.

python/크롤링 2021.07.30

[파이썬 크롤러] 셀레니움을 이용한 크롤링[2]

2021.07.22 - [python] - [파이썬 기초] 셀레니움을 이용한 크롤링 [파이썬 기초] 셀레니움을 이용한 크롤링 이번 포스트에서는 Selenium을 이용한 크롤러를 제작 해 보겠다. bs4를 이용한 크롤러는 아래 링크 확인. 2021.07.21 - [python] - [파이썬 기초] 웹 크롤러 만들기 설치 pip install selenium 이전 포스트에서 셀 kkiho.tistory.com 이전 포스트에서 셀레니움 기초에 대해서 알아봤다. 이 포스트에서는 셀레니움에서 사용하는 옵션? 들을 다뤄보도록 하자. 1. 스크롤 다운 def scroll_down(): last_height = driver.execute_script("return document.body.scrollHeight") c..

python/크롤링 2021.07.29

[파이썬 크롤러 ] Tweepy를 이용한 트위터 크롤링 [1]

트위터를 크롤링 해보자. 이전 두 포스트는 url request를 통해서 html을 파싱해서 데이터를 긁어오는 웹 입장에서 다소 껄끄러운 작업이었다면, 트위터는 자체 API를 제공해서 "합법적"으로 데이터를 받아올 수 있다. 트위터 API를 사용하려면 우선 트위터 계정이 필요하고, 개발자 신청이 통과 되야한다. 우선 https://developer.twitter.com/en Use Cases, Tutorials, & Documentation Publish & analyze Tweets, optimize ads, & create unique customer experiences with the Twitter API, Twitter Ads API, & Twitter Embeds. developer.twitt..

python/크롤링 2021.07.22

[파이썬 크롤러] 셀레니움을 이용한 크롤링

이번 포스트에서는 Selenium을 이용한 크롤러를 제작 해 보겠다. bs4를 이용한 크롤러는 아래 링크 확인. 2021.07.21 - [python] - [파이썬 기초] 웹 크롤러 만들기 설치 pip install selenium 이전 포스트에서 셀레니움이 제어 가능한 웹 드라이버를 이용해 크롤링을 수행한다 말 했었고, 사용되는 브라우저가 크롬을 비롯해 다양하다고 언급했었다. 패키지를 훑어보면 사용가능한 드라이버를 알 수 있다. Firefox Chrome Ie Edge Opera Safari BlackBerry PhantomJS Android 등등 크롬에서 수집이 불가해서 다른 브라우저를 사용한 적이 있지만, 대부분 크롬을 사용한다. 우리가 사용하고있는 크롬대신, 크롬 드라이버라는 프로그램을 사용하기때..

python/크롤링 2021.07.22

[파이썬 크롤러] 웹 크롤러 만들기

요즘 빌보드에서 BTS가 연일 국위선양 하고있다. 그런 의미로 빌보드 차트 크롤러를 만들어보자. 파이썬 크롤러는 크게 두 가지다. 1. bs4 2. Selenium bs4는 uri를 통해 html소스를 가져와 파싱한다. uri가 바뀌지 않는 이상, 한 번 호출한 html을 파싱하므로, 빠른축에 속하지만, javascript가 들어가 반응형 웹의 경우에 파싱이 어려울 수 있다. 우리가 가져오는건 우리가 보는 빈 껍데기일 뿐, 특정 버튼을 눌렀을 때, 그에 상응하는 데이터를 얻을 수 있다고 확신할 수 없다. 그래서 selenium을 사용한다. 셀레니움 ( 혹은 셀레늄 )은 제어가 가능한 chromedriver( 가장 많이 사용하며, 파이어폭스나 다른 브라우저도 지원 한다. 아마도) 을 코드로 제어하며 웹 입..

python/크롤링 2021.07.21
반응형