이 기사는 주로 다른 웹 페이지를 크롤링하기 위한 Python 요청 방법을 공유합니다. 이는 좋은 참고 가치가 있으며 모든 사람에게 도움이 되기를 바랍니다. 편집자를 따라가서 모두에게 도움이 되기를 바랍니다.
간단히 말하면 웹페이지에서 하이퍼링크 'href'를 찾아 상대 URL을 절대 URL로 변환한 후 for 루프를 사용하여 접근하는 것입니다
import requestsfrom bs4 import BeautifulSoup#将字符串转换为Python对象import pandas as pd url = 'http://www.runoob.com/html/html-tutorial.html'r= requests.get(url) html=r.text.encode(r.encoding).decode() soup =BeautifulSoup(html,'lxml')#html放到beatifulsoup对象中l=[x.text for x in soup.findAll('h2')]#提取次标题中所有的文字df = pd.DataFrame(l,columns =[url])#将l变为DataFrame文件,列名为URLx=soup.findAll('a')[1]#查看第二个元素x.has_attr('href')#判断是都有href字符x.attrs['href']#获得超链接 attrs函数返回字典links = [i for i in soup.findAll('a')if i.has_attr('href')and i.attrs['href'][0:5]== '/html']#用if来做一个筛选relative_urls= set([i.attrs['href'] for i in links]) absolute_urls={'http://www.runoob.com'+i for i in relative_urls} absolute_urls.discard(url)#删除当前所在的urlfor i in absolute_urls: ri= requests.get(i) soupi =BeautifulSoup(ri.text.encode(ri.encoding),'lxml') li=[x.text for x in soupi.findAll('h2')] dfi = pd.DataFrame(l,columns =[i]) df = df.join(dfi,how='outer') df
관련 추천:
python 크롤러는 Tencent 뉴스를 크롤링합니다
위 내용은 Python은 다른 웹 페이지를 크롤링합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!