본문 바로가기
728x90

크롤링9

selenium 사용하기 - 파이썬 from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsimport subprocessfrom webdriver_manager.chrome import ChromeDriverManagerfrom selenium.webdriver.chrome.service import Servicefrom selenium.webdriver.common.by import By​subprocess.Popen(r'C:\Program Files (x86)\Google\Chrome\Application\chrome.exe --remote-debugging-port=9222 --user-data-dir="C:\chromeCookie"')​o.. 2024. 7. 18.
cloudflare 우회해서 크롤링 하기 - selenium, 파이썬 이전 글에서 zenrows 를 이용해 cloudflare 를 우회해서 크롤링하는 소스를 올렸는데​테스트를 하다보니 잘되는데 프리 이용횟수를 초과하니 막혀버려서 다른 방법을 찾게 되었다. ​아래 방법은 selenium 을 이용하는 방법으로 물론 무료이다. ​원래 selenium 을 이용할 경우 cloudflare가 bot 으로 인식해서 크롤링이 막히는데​해당 방법은 bot 으로 인식하지 않도록 처리했다. ​몇일 테스트를 해봤는데 문제없이 잘 돌아간다. ​from selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsimport subprocessfrom webdriver_manager.chrome import Chrome.. 2024. 7. 18.
cloudflare 우회해서 크롤링 하기 - zenrows 보안을 위해 cloudflare 를 사용하는 페이지들이 있다.  이런 페이지를 크롤링하려면 여러가지 난관들이 있는데 구글링을 열심히 한 결과  한 가지 방법을 찾을 수 있었다.   1. https://www.zenrows.com/ 사이트에 가입 후 빌더에서 api key 를 생성한다  2. 아래와 같이 소스에 api key를 사용해서 크롤링한다 import requests from bs4 import BeautifulSoup as bs url = 'SITE_URL' apikey = 'API_KEY' params = {     'url': url,     'apikey': apikey,     'js_render': 'true',     'premium_proxy': 'true', } response = .. 2024. 7. 15.
네이버 뉴스 댓글 가져오기 - 파이썬, 크롤링 파이썬, selenium 을 사용하여 네이버 기사의 댓글을 가져오는 소스이다.​1. 네이버 기사 페이지 오픈2. 댓글 더보기 클릭3. 클린봇 해제 (모든 댓글을 볼 수 있도록 설정)4. 마지막 댓글이 나올때까지 더보기 클릭5. 기사제목, 시간, 성비, 연령대 추출5. 댓글 추출​from selenium import webdriverfrom selenium.webdriver.chrome.service import Servicefrom selenium.webdriver.common.by import Byfrom webdriver_manager.chrome import ChromeDriverManagerimport time​url = "https://news.naver.com/main/read.naver?mo.. 2024. 7. 3.
유튜브 정보가져오기 - 파이썬, pafy pafy는 유튜브 정보를 손쉽게 가져올수 있도록 만든 라이브러리이다. ​. https://pythonhosted.org/pafy/ Pafy Documentation — pafy 0.5.1 documentationpafy 0.5.1 Pafy Documentation API Keys Pafy Objects and Stream Objects Pafy Objects Pafy Attributes Pafy Methods Stream Lists Stream Objects Stream Attributes Stream Methods Stream.download() example Playlist Retrieval pafy.get_playlist() example Playlist Attributes Docs » Pafy D.. 2024. 7. 3.
유튜브 조회수 가져오기 - 파이썬, 크롤링 유튜브 조회수를 가져오는 방법은 여러가지가 있다. API를 이용하는 방법도 있고 selenium 를 사용하여 가져오는 방법도 있다. ​아래 방법은 페이지 전체를 가져와 자바스크립트 변수인 ytInitialData 를 파싱하여 조회수를 가져오는 방법이다. ​ytInitialData 변수에는 json 데이터가 들어가 있다. ​import requestsimport reimport json​try: html = requests.get("https://www.youtube.com/watch?v=T5cHCXeweYo").text matched = re.search(r'var ytInitialData = (.*?)};', html, re.S) json_string = matched.group(1) + "}"​ # .. 2024. 7. 3.
반응형