from urllib.request import urlopen
from bs4 import BeautifulSoup
try:
html = urlopen("https://www.python.co.kr/index.php")
bsObj = BeautifulSoup(html.read(), "html.parser")
print(bsObj.title)
except HTTPError as e:
print(e)
bsObj.title 은 해당 웹사이트의 title 태그 값을 출력. 다른 태그 값들도 동일한 방법으로 가져올 수 있다.
//ID green 을 사용하는 span의 텍스트 가져오기
nameList = bsObj.findAll("span",{"class":"green"})
for name in nameList:
print(name.get_text())
//'test' 텍스트가 몇번 나오는지 체크
nameList = bsObj.findAll(text="test")
print(len(nameList))
//class가 test인 table 의 하위 태그 가져오기
for child in bsObj.find("table",{"class","test"}).children:
print(child)
//../img/gifts/img 로 시작해서 .jpg로 끝나는 이미지 태그의 src 값 출력
images = bsObj.findAll("img",{"src":re.compile("\.\.\/img\/gifts/img.*\.jpg")})
for image in images:
print(image["src"])
//ID 값으로 트리를 타서 가져오기
skipNavi 아이디 밑에 ul 밑에 li 밑에 a 태그값들 가져오기
scraping = bs.select('#skipNavi > ul > li > a')
'파이썬' 카테고리의 다른 글
네이버tv 재생수 가져오기 - 파이썬, 크롤링 (0) | 2024.07.02 |
---|---|
csv 파일 읽어오기 - 파이썬 (0) | 2024.07.02 |
파일 읽어오기 - 파이썬 (0) | 2024.07.02 |
파이썬 함수 사용법 (0) | 2024.07.01 |
파이썬 주석처리하기 (0) | 2024.07.01 |