본문 바로가기
파이썬

BeautifulSoup 라이브러리 사용법 - 파이썬

by zgabriel 2024. 7. 2.
728x90

from urllib.request import urlopen

from bs4 import BeautifulSoup

try:

html = urlopen("https://www.python.co.kr/index.php")

bsObj = BeautifulSoup(html.read(), "html.parser")

print(bsObj.title)

except HTTPError as e:

print(e)

bsObj.title 은 해당 웹사이트의 title 태그 값을 출력. 다른 태그 값들도 동일한 방법으로 가져올 수 있다.

//ID green 을 사용하는 span의 텍스트 가져오기

nameList = bsObj.findAll("span",{"class":"green"})

for name in nameList:

print(name.get_text())

//'test' 텍스트가 몇번 나오는지 체크

nameList = bsObj.findAll(text="test")

print(len(nameList))

//class가 test인 table 의 하위 태그 가져오기

for child in bsObj.find("table",{"class","test"}).children:

print(child)

//../img/gifts/img 로 시작해서 .jpg로 끝나는 이미지 태그의 src 값 출력

images = bsObj.findAll("img",{"src":re.compile("\.\.\/img\/gifts/img.*\.jpg")})

for image in images:

print(image["src"])

//ID 값으로 트리를 타서 가져오기

skipNavi 아이디 밑에 ul 밑에 li 밑에 a 태그값들 가져오기

scraping = bs.select('#skipNavi > ul > li > a'

 

 

반응형

'파이썬' 카테고리의 다른 글

네이버tv 재생수 가져오기 - 파이썬, 크롤링  (0) 2024.07.02
csv 파일 읽어오기 - 파이썬  (0) 2024.07.02
파일 읽어오기 - 파이썬  (0) 2024.07.02
파이썬 함수 사용법  (0) 2024.07.01
파이썬 주석처리하기  (0) 2024.07.01