BeautifulSoup 라이브러리 사용법

728x90

from urllib.request import urlopen

from bs4 import BeautifulSoup

try:

bsObj = BeautifulSoup(html.read(), "html.parser")

print(bsObj.title)

except HTTPError as e:

print(e)

bsObj.title 은 해당 웹사이트의 title 태그 값을 출력. 다른 태그 값들도 동일한 방법으로 가져올 수 있다.

//ID green 을 사용하는 span의 텍스트 가져오기

nameList = bsObj.findAll("span",{"class":"green"})

for name in nameList:

print(name.get_text())

//'test' 텍스트가 몇번 나오는지 체크

nameList = bsObj.findAll(text="test")

print(len(nameList))

//class가 test인 table 의 하위 태그 가져오기

for child in bsObj.find("table",{"class","test"}).children:

print(child)

//../img/gifts/img 로 시작해서 .jpg로 끝나는 이미지 태그의 src 값 출력

images = bsObj.findAll("img",{"src":re.compile("\.\.\/img\/gifts/img.*\.jpg")})

for image in images:

print(image["src"])

//ID 값으로 트리를 타서 가져오기

skipNavi 아이디 밑에 ul 밑에 li 밑에 a 태그값들 가져오기

scraping = bs.select('#skipNavi > ul > li > a')

기록하고 싶은...