社群

學習

工具庫

AI工具

休閒

繁体中文

首頁 > 後端開發 > Python教學 > Python是爬取其他網頁

Python是爬取其他網頁

零到壹度

發布： 2018-03-30 10:38:35

原創

2400 人瀏覽過

本文主要為大家分享一篇Python之爬取其他網頁的請求方法，具有很好的參考價值，希望對大家有所幫助。一起跟著小編過來看看吧，希望能幫助大家。

簡單的說就是尋找網頁中的超連結'href'，之後將相對網址轉變為絕對網址，在用for循環訪問他

import requestsfrom bs4 import BeautifulSoup#将字符串转换为Python对象import pandas as pd
url = &#39;http://www.runoob.com/html/html-tutorial.html&#39;r= requests.get(url)
html=r.text.encode(r.encoding).decode()
soup =BeautifulSoup(html,&#39;lxml&#39;)#html放到beatifulsoup对象中l=[x.text for x in soup.findAll(&#39;h2&#39;)]#提取次标题中所有的文字df = pd.DataFrame(l,columns =[url])#将l变为DataFrame文件，列名为URLx=soup.findAll(&#39;a&#39;)[1]#查看第二个元素x.has_attr(&#39;href&#39;)#判断是都有href字符x.attrs[&#39;href&#39;]#获得超链接 attrs函数返回字典links = [i for i in soup.findAll(&#39;a&#39;)if i.has_attr(&#39;href&#39;)and i.attrs[&#39;href&#39;][0:5]== &#39;/html&#39;]#用if来做一个筛选relative_urls= set([i.attrs[&#39;href&#39;] for i in links])
absolute_urls={&#39;http://www.runoob.com&#39;+i for i in relative_urls}
absolute_urls.discard(url)#删除当前所在的urlfor i in absolute_urls:
    ri= requests.get(i)
    soupi =BeautifulSoup(ri.text.encode(ri.encoding),&#39;lxml&#39;)
    li=[x.text for x in soupi.findAll(&#39;h2&#39;)]
    dfi = pd.DataFrame(l,columns =[i])
    df = df.join(dfi,how=&#39;outer&#39;)
df

登入後複製

相關推薦：

Python爬取簡單網頁

#python爬蟲之爬取騰訊新聞

python爬取淘寶商品資訊

#

以上是Python是爬取其他網頁的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

python

上一篇：實例解析Python如何實現爬取京東手機圖片下一篇：如何完整寫一個爬蟲框架

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

跟我學PS第八天02：光效素材的摳圖方法

2018-08-28 15:02:42
跟我學PS第八天01：如何摳取文件中的印章

2018-08-25 10:55:46
跟我學PS第七天02：如何摳出複雜樹林

2018-08-20 16:25:41
跟我學PS第七天01：如何將彩圖摳出線稿效果

2018-08-18 11:26:54
跟我學PS第六天02：模糊工具

2018-08-14 16:35:58
跟我學PS第六天01：修復畫筆工具

2018-07-28 15:36:43
跟我學PS第五天02：移動工具的使用方法與應用

2018-07-27 16:59:00
跟我學PS第五天01：使用裁切工具

2018-07-27 15:22:47
跟我學PS第四天02：練習Photoshop中的套索工具

2018-07-23 17:56:00
跟我學PS第四天01：如何為照片加邊框效果

2018-07-23 16:21:38

最新問題

哪些流行的Python庫及其用途？

2025-03-21 18:46:29
python中的醃製和挑剔是什麼？

2025-03-21 18:45:34
您最喜歡學習和開發的Python資源是什麼？

2025-03-21 13:19:29
您如何使用Python的環境變量？

2025-03-21 13:16:30
Python中GC模塊的目的是什麼？

2025-03-21 13:13:27

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1439496
php入門教程之一週學會PHP

4300723
JAVA 初級入門影片教學

2683649
小甲魚零基礎入門學習Python影片教學

517931
PHP 零基礎入門教學

879499

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板