지역 사회

배우다

도구 라이브러리

AI 도구

여가

한국어

집 > 백엔드 개발 > 파이썬 튜토리얼 > Python은 다른 웹 페이지를 크롤링합니다.

Python은 다른 웹 페이지를 크롤링합니다.

零到壹度

풀어 주다： 2018-03-30 10:38:35

원래의

2397명이 탐색했습니다.

이 기사는 주로 다른 웹 페이지를 크롤링하기 위한 Python 요청 방법을 공유합니다. 이는 좋은 참고 가치가 있으며 모든 사람에게 도움이 되기를 바랍니다. 편집자를 따라가서 모두에게 도움이 되기를 바랍니다.

간단히 말하면 웹페이지에서 하이퍼링크 'href'를 찾아 상대 URL을 절대 URL로 변환한 후 for 루프를 사용하여 접근하는 것입니다

import requestsfrom bs4 import BeautifulSoup#将字符串转换为Python对象import pandas as pd
url = &#39;http://www.runoob.com/html/html-tutorial.html&#39;r= requests.get(url)
html=r.text.encode(r.encoding).decode()
soup =BeautifulSoup(html,&#39;lxml&#39;)#html放到beatifulsoup对象中l=[x.text for x in soup.findAll(&#39;h2&#39;)]#提取次标题中所有的文字df = pd.DataFrame(l,columns =[url])#将l变为DataFrame文件，列名为URLx=soup.findAll(&#39;a&#39;)[1]#查看第二个元素x.has_attr(&#39;href&#39;)#判断是都有href字符x.attrs[&#39;href&#39;]#获得超链接 attrs函数返回字典links = [i for i in soup.findAll(&#39;a&#39;)if i.has_attr(&#39;href&#39;)and i.attrs[&#39;href&#39;][0:5]== &#39;/html&#39;]#用if来做一个筛选relative_urls= set([i.attrs[&#39;href&#39;] for i in links])
absolute_urls={&#39;http://www.runoob.com&#39;+i for i in relative_urls}
absolute_urls.discard(url)#删除当前所在的urlfor i in absolute_urls:
    ri= requests.get(i)
    soupi =BeautifulSoup(ri.text.encode(ri.encoding),&#39;lxml&#39;)
    li=[x.text for x in soupi.findAll(&#39;h2&#39;)]
    dfi = pd.DataFrame(l,columns =[i])
    df = df.join(dfi,how=&#39;outer&#39;)
df

로그인 후 복사

관련 추천:

Python은 간단한 웹페이지를 크롤링합니다

python 크롤러는 Tencent 뉴스를 크롤링합니다

python은 Taobao 제품 정보를 크롤링합니다

위 내용은 Python은 다른 웹 페이지를 크롤링합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨：

python

이전 기사：Python이 JD 휴대폰 사진 크롤링을 구현하는 방법에 대한 분석 예 다음 기사：완전한 크롤러 프레임워크를 작성하는 방법

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

저자별 최신 기사

PS Day 02: 조명 효과 재료 자르기를 배우려면 저를 따르세요.

2018-08-28 15:02:42
PS Day 01에서 저를 따라오세요: 문서에서 봉인을 추출하는 방법

2018-08-25 10:55:46
PS Day 02: 복잡한 나무를 자르는 방법에 대해 알아보세요.

2018-08-20 16:25:41
저를 따라와서 PS Day 01: 컬러 사진을 잘라내어 선 그리기 효과를 만드는 방법을 배우세요.

2018-08-18 11:26:54
PS Day 02: 흐림 도구를 배우려면 저를 팔로우하세요.

2018-08-14 16:35:58
PS Day 01: 브러시 도구 수리를 배우려면 저를 팔로우하세요.

2018-07-28 15:36:43
PS Day 02: 모바일 도구 사용 및 적용 방법을 배우려면 저를 따르세요.

2018-07-27 16:59:00
PS Day 01: 자르기 도구 사용에 대해 알아보려면 저를 따르세요.

2018-07-27 15:22:47
PS Day 02: Photoshop에서 올가미 도구 연습을 배우려면 저를 따르세요.

2018-07-23 17:56:00
PS Day 01: 사진에 테두리 효과를 추가하는 방법을 배우려면 나를 따르십시오.

2018-07-23 16:21:38

최신 이슈

인기있는 파이썬 라이브러리와 그 용도는 무엇입니까?

2025-03-21 18:46:29
파이썬에서 산세와 꼬기 란 무엇입니까?

2025-03-21 18:45:34
학습 및 개발에 가장 좋아하는 파이썬 리소스는 무엇입니까?

2025-03-21 13:19:29
파이썬에서 환경 변수로 어떻게 작업합니까?

2025-03-21 13:16:30
파이썬에서 GC 모듈의 목적은 무엇입니까?

2025-03-21 13:13:27

관련 주제

더>

인기 추천

인기 튜토리얼

더>

관련 튜토리얼

인기 추천

최신 강좌

최신 다운로드

더>

웹 효과

웹사이트 소스 코드

웹사이트 자료

프론트엔드 템플릿