python beautifulsoup4模組怎麼用-Python教學-PHP中文網

一、BeautifulSoup4 基礎知識補充

橡皮擦的爬虫课

橡皮擦的爬虫课最棒

二、爬虫案例

首頁

後端開發

Python教學

python beautifulsoup4模組怎麼用

王林

May 11, 2023 pm 10:31 PM

python beautifulsoup4

一、BeautifulSoup4 基礎知識補充

BeautifulSoup4 是一款python 解析庫，主要用於解析HTML 和XML，在爬蟲知識體系中解析HTML 會比較多一些，

此函式庫安裝指令如下：

pip install beautifulsoup4

登入後複製

BeautifulSoup 在解析資料時，需依賴第三方解析器，常用解析器與優點如下：

python 標準函式庫html.parser：python 內建標準函式庫，容錯能力強；
#lxml 解析器：速度快，容錯能力強；
#html5lib：容錯性最強，解析方式與瀏覽器一致。

接下來用一段自訂的HTML 程式碼來示範 beautifulsoup4 函式庫的基本使用，測試程式碼如下：

<html>
  <head>
    <title>测试bs4模块脚本</title>
  </head>
  <body>
    <h2 id="橡皮擦的爬虫课">橡皮擦的爬虫课</h2>
    <p>用一段自定义的 HTML 代码来演示</p>
  </body>
</html>

登入後複製

使用 BeautifulSoup 對其進行簡單的操作，包含實例化BS 對象，輸出頁標等內容。

from bs4 import BeautifulSoup
text_str = """<html>
	<head>
		<title>测试bs4模块脚本</title>
	</head>
	<body>
		<h2 id="橡皮擦的爬虫课">橡皮擦的爬虫课</h2>
		<p>用1段自定义的 HTML 代码来演示</p>
		<p>用2段自定义的 HTML 代码来演示</p>
	</body>
</html>
"""
# 实例化 Beautiful Soup 对象
soup = BeautifulSoup(text_str, "html.parser")
# 上述是将字符串格式化为 Beautiful Soup 对象，你可以从一个文件进行格式化
# soup = BeautifulSoup(open(&#39;test.html&#39;))
print(soup)
# 输入网页标题 title 标签
print(soup.title)
# 输入网页 head 标签
print(soup.head)

# 测试输入段落标签 p
print(soup.p) # 默认获取第一个

登入後複製

我們可以透過BeautifulSoup 對象，直接呼叫網頁標籤，這裡有一個問題，透過BS 物件呼叫標籤只能取得排在第一位置上的標籤，如上述程式碼中，只取得到了一個 p 標籤，如果想要取得更多內容，請繼續閱讀。

學習到這裡，我們需要了解BeautifulSoup 中的4 個內建物件：

BeautifulSoup：基本對象，整個HTML 對象，一般當做Tag 對像看即可；
Tag：標籤對象，標籤就是網頁中的各個節點，例如title，head，p；
NavigableString：標籤內部字串；
Comment：註解對象，爬蟲裡面使用場景不多。

下述程式碼為你示範這幾種物件出現的場景，注意程式碼中的相關註解：

from bs4 import BeautifulSoup
text_str = """<html>
	<head>
		<title>测试bs4模块脚本</title>
	</head>
	<body>
		<h2 id="橡皮擦的爬虫课">橡皮擦的爬虫课</h2>
		<p>用1段自定义的 HTML 代码来演示</p>
		<p>用2段自定义的 HTML 代码来演示</p>
	</body>
</html>
"""
# 实例化 Beautiful Soup 对象
soup = BeautifulSoup(text_str, "html.parser")
# 上述是将字符串格式化为 Beautiful Soup 对象，你可以从一个文件进行格式化
# soup = BeautifulSoup(open(&#39;test.html&#39;))
print(soup)
print(type(soup))  # <class &#39;bs4.BeautifulSoup&#39;>
# 输入网页标题 title 标签
print(soup.title)
print(type(soup.title)) # <class &#39;bs4.element.Tag&#39;>
print(type(soup.title.string)) # <class &#39;bs4.element.NavigableString&#39;>
# 输入网页 head 标签
print(soup.head)

登入後複製

對於Tag 物件，有兩個重要的屬性，是 name 和 attrs

from bs4 import BeautifulSoup
text_str = """<html>
	<head>
		<title>测试bs4模块脚本</title>
	</head>
	<body>
		<h2 id="橡皮擦的爬虫课">橡皮擦的爬虫课</h2>
		<p>用1段自定义的 HTML 代码来演示</p>
		<p>用2段自定义的 HTML 代码来演示</p>
		<a href="http://www.csdn.net" rel="external nofollow"  rel="external nofollow" >CSDN 网站</a>
	</body>
</html>
"""
# 实例化 Beautiful Soup 对象
soup = BeautifulSoup(text_str, "html.parser")
print(soup.name) # [document]
print(soup.title.name) # 获取标签名 title
print(soup.html.body.a) # 可以通过标签层级获取下层标签
print(soup.body.a) # html 作为一个特殊的根标签，可以省略
print(soup.p.a) # 无法获取到 a 标签
print(soup.a.attrs) # 获取属性

登入後複製

上述程式碼示範了取得 name 屬性和 attrs 屬性的用法，其中 attrs 屬性得到的是字典，可以透過鍵來取得對應的值。

取得標籤的屬性值，在BeautifulSoup 中，也可以使用以下方法：

print(soup.a["href"])
print(soup.a.get("href"))

登入後複製

取得 NavigableString 物件 取得了網頁標籤之後，就要取得標籤內文字了，透過下述程式碼進行。

print(soup.a.string)

登入後複製

除此之外，你還可以使用 text 屬性和 get_text() 方法來取得標籤內容。

print(soup.a.string)
print(soup.a.text)
print(soup.a.get_text())

登入後複製

也可以取得標籤內所有文本，使用 strings 和 stripped_strings 即可。

print(list(soup.body.strings)) # 获取到空格或者换行
print(list(soup.body.stripped_strings)) # 去除空格或者换行

登入後複製

擴展標籤/節點選擇器之遍歷文檔樹

#直接子節點

#標籤（Tag）物件的直接子元素，可以使用contents 和 children 屬性取得。

from bs4 import BeautifulSoup
text_str = """<html>
	<head>
		<title>测试bs4模块脚本</title>
	</head>
	<body>
		<div id="content">
			<h2 id="橡皮擦的爬虫课-span-最棒-span">橡皮擦的爬虫课<span>最棒</span></h2>
            <p>用1段自定义的 HTML 代码来演示</p>
            <p>用2段自定义的 HTML 代码来演示</p>
            <a href="http://www.csdn.net" rel="external nofollow"  rel="external nofollow" >CSDN 网站</a>
		</div>
        <ul class="nav">
            <li>首页</li>
            <li>博客</li>
            <li>专栏课程</li>
        </ul>

	</body>
</html>
"""
# 实例化 Beautiful Soup 对象
soup = BeautifulSoup(text_str, "html.parser")
# contents 属性获取节点的直接子节点，以列表的形式返回内容
print(soup.div.contents) # 返回列表
# children 属性获取的也是节点的直接子节点，以生成器的类型返回
print(soup.div.children) # 返回 <list_iterator object at 0x00000111EE9B6340>

登入後複製

請注意以上兩個屬性取得的都是直接子節點，例如 h2 標籤內的後代標籤 span ，不會單獨獲取到。

如果希望將所有的標籤都取得到，使用 descendants 屬性，它傳回的是一個產生器，所有標籤包含標籤內的文字都會單獨取得。

print(list(soup.div.descendants))

登入後複製

其它節點的獲取（了解即可，即查即用）

#parent 和 parents：直接父節點和所有父節點；
next_sibling，next_siblings，previous_sibling，previous_siblings ：分別表示下一個兄弟節點、下面所有兄弟節點、上一個兄弟節點、上面所有兄弟節點，由於換行符也是一個節點，所有在使用這幾個屬性時，請注意一下換行符；
next_element，next_elements，previous_element，previous_elements：這幾個屬性分別表示上一個節點或下一個節點，注意它們不分層次，而是針對所有節點，例如上述程式碼中 div 節點的下一個節點是 h2，而 div 節點的兄弟節點是 ul。

文件樹搜尋相關函數

第一個要學習的函數就是 find_all() 函數，原型如下圖所示：

find_all(name,attrs,recursive,text,limit=None,**kwargs)

登入後複製

name：此參數為tag 標籤的名字，例如 find_all('p') 是找出所有的 p 標籤，可接受標籤名稱字串、正規表示式與清單；
attrs：传入的属性，该参数可以字典的形式传入，例如 attrs={'class': 'nav'}，返回的结果是 tag 类型的列表；

上述两个参数的用法示例如下：

print(soup.find_all(&#39;li&#39;)) # 获取所有的 li
print(soup.find_all(attrs={&#39;class&#39;: &#39;nav&#39;})) # 传入 attrs 属性
print(soup.find_all(re.compile("p"))) # 传递正则，实测效果不理想
print(soup.find_all([&#39;a&#39;,&#39;p&#39;])) # 传递列表

登入後複製

recursive：调用 find_all () 方法时，BeautifulSoup 会检索当前 tag 的所有子孙节点，如果只想搜索 tag 的直接子节点，可以使用参数 recursive=False，测试代码如下：

print(soup.body.div.find_all([&#39;a&#39;,&#39;p&#39;],recursive=False)) # 传递列表

登入後複製

text：可以检索文档中的文本字符串内容，与 name 参数的可选值一样，text 参数接受标签名字符串、正则表达式、列表；

print(soup.find_all(text=&#39;首页&#39;)) # [&#39;首页&#39;]
print(soup.find_all(text=re.compile("^首"))) # [&#39;首页&#39;]
print(soup.find_all(text=["首页",re.compile(&#39;课&#39;)])) # [&#39;橡皮擦的爬虫课&#39;, &#39;首页&#39;, &#39;专栏课程&#39;]

登入後複製

limit：可以用来限制返回结果的数量；
kwargs：如果一个指定名字的参数不是搜索内置的参数名，搜索时会把该参数当作 tag 的属性来搜索。这里要按 class 属性搜索，因为 class 是 python 的保留字，需要写作 class_，按 class_ 查找时，只要一个 CSS 类名满足即可，如需多个 CSS 名称，填写顺序需要与标签一致。

print(soup.find_all(class_ = &#39;nav&#39;))
print(soup.find_all(class_ = &#39;nav li&#39;))

登入後複製

还需要注意网页节点中，有些属性在搜索中不能作为kwargs参数使用，比如html5 中的 data-*属性，需要通过attrs参数进行匹配。

与 find_all()方法用户基本一致的其它方法清单如下：

find()：函数原型find( name , attrs , recursive , text , **kwargs )，返回一个匹配元素；
find_parents()，find_parent()：函数原型 find_parent(self, name=None, attrs={}, **kwargs)，返回当前节点的父级节点；
find_next_siblings()，find_next_sibling()：函数原型 find_next_sibling(self, name=None, attrs={}, text=None, **kwargs)，返回当前节点的下一兄弟节点；
find_previous_siblings()，find_previous_sibling()：同上，返回当前的节点的上一兄弟节点；
find_all_next()，find_next()，find_all_previous () ，find_previous ()：函数原型 find_all_next(self, name=None, attrs={}, text=None, limit=None, **kwargs)，检索当前节点的后代节点。

CSS 选择器 该小节的知识点与pyquery有点撞车，核心使用select()方法即可实现，返回数据是列表元组。

通过标签名查找，soup.select("title")；
通过类名查找，soup.select(".nav")；
通过 id 名查找，soup.select("#content")；
通过组合查找，soup.select("div#content")；
通过属性查找，soup.select("div[id='content'")，soup.select("a[href]")；

在通过属性查找时，还有一些技巧可以使用，例如：

^=：可以获取以 XX 开头的节点：

print(soup.select(&#39;ul[class^="na"]&#39;))

登入後複製

*=：获取属性包含指定字符的节点：

print(soup.select(&#39;ul[class*="li"]&#39;))

登入後複製

二、爬虫案例

BeautifulSoup 的基础知识掌握之后，在进行爬虫案例的编写，就非常简单了，本次要采集的目标网站，该目标网站有大量的艺术二维码，可以供设计大哥做参考。

python beautifulsoup4模組怎麼用

下述应用到了 BeautifulSoup 模块的标签检索与属性检索，完整代码如下：

from bs4 import BeautifulSoup
import requests
import logging
logging.basicConfig(level=logging.NOTSET)
def get_html(url, headers) -> None:
    try:
        res = requests.get(url=url, headers=headers, timeout=3)
    except Exception as e:
        logging.debug("采集异常", e)

    if res is not None:
        html_str = res.text
        soup = BeautifulSoup(html_str, "html.parser")
        imgs = soup.find_all(attrs={&#39;class&#39;: &#39;lazy&#39;})
        print("获取到的数据量是", len(imgs))
        datas = []
        for item in imgs:
            name = item.get(&#39;alt&#39;)
            src = item["src"]
            logging.info(f"{name},{src}")
            # 获取拼接数据
            datas.append((name, src))
        save(datas, headers)
def save(datas, headers) -> None:
    if datas is not None:
        for item in datas:
            try:
                # 抓取图片
                res = requests.get(url=item[1], headers=headers, timeout=5)
            except Exception as e:
                logging.debug(e)

            if res is not None:
                img_data = res.content
                with open("./imgs/{}.jpg".format(item[0]), "wb+") as f:
                    f.write(img_data)
    else:
        return None
if __name__ == &#39;__main__&#39;:
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36"
    }
    url_format = "http://www.9thws.com/#p{}"
    urls = [url_format.format(i) for i in range(1, 2)]
    get_html(urls[0], headers)

登入後複製

本次代码测试输出采用的 logging 模块实现，效果如下图所示。测试仅采集了 1 页数据，如需扩大采集范围，只需要修改 main 函数内页码规则即可。 ==代码编写过程中，发现数据请求是类型是 POST，数据返回格式是 JSON，所以本案例仅作为 BeautifulSoup 的上手案例吧==

python beautifulsoup4模組怎麼用

以上是python beautifulsoup4模組怎麼用的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

gmail信箱登陸入口在哪裡

7494

CakePHP 教程

1377

steam的賬戶名稱是什麼格式

win11激活密鑰永久

NYT連接提示和答案

Related knowledge

mysql 是否要付費 Apr 08, 2025 pm 05:36 PM

MySQL 有免費的社區版和收費的企業版。社區版可免費使用和修改，但支持有限，適合穩定性要求不高、技術能力強的應用。企業版提供全面商業支持，適合需要穩定可靠、高性能數據庫且願意為支持買單的應用。選擇版本時考慮的因素包括應用關鍵性、預算和技術技能。沒有完美的選項，只有最合適的方案，需根據具體情況謹慎選擇。

HadiDB：Python 中的輕量級、可水平擴展的數據庫 Apr 08, 2025 pm 06:12 PM

HadiDB：輕量級、高水平可擴展的Python數據庫HadiDB(hadidb)是一個用Python編寫的輕量級數據庫，具備高度水平的可擴展性。安裝HadiDB使用pip安裝：pipinstallhadidb用戶管理創建用戶：createuser()方法創建一個新用戶。 authentication()方法驗證用戶身份。 fromhadidb.operationimportuseruser_obj=user("admin","admin")user_obj.

mysql workbench 可以連接到 mariadb 嗎 Apr 08, 2025 pm 02:33 PM

MySQL Workbench 可以連接 MariaDB，前提是配置正確。首先選擇 "MariaDB" 作為連接器類型。在連接配置中，正確設置 HOST、PORT、USER、PASSWORD 和 DATABASE。測試連接時，檢查 MariaDB 服務是否啟動，用戶名和密碼是否正確，端口號是否正確，防火牆是否允許連接，以及數據庫是否存在。高級用法中，使用連接池技術優化性能。常見錯誤包括權限不足、網絡連接問題等，調試錯誤時仔細分析錯誤信息和使用調試工具。優化網絡配置可以提升性能

Navicat查看MongoDB數據庫密碼的方法 Apr 08, 2025 pm 09:39 PM

直接通過 Navicat 查看 MongoDB 密碼是不可能的，因為它以哈希值形式存儲。取回丟失密碼的方法：1. 重置密碼；2. 檢查配置文件（可能包含哈希值）；3. 檢查代碼（可能硬編碼密碼）。

mysql 無法連接到本地主機怎麼解決 Apr 08, 2025 pm 02:24 PM

無法連接 MySQL 可能是由於以下原因：MySQL 服務未啟動、防火牆攔截連接、端口號錯誤、用戶名或密碼錯誤、my.cnf 中的監聽地址配置不當等。排查步驟包括：1. 檢查 MySQL 服務是否正在運行；2. 調整防火牆設置以允許 MySQL 監聽 3306 端口；3. 確認端口號與實際端口號一致；4. 檢查用戶名和密碼是否正確；5. 確保 my.cnf 中的 bind-address 設置正確。

mysql 需要互聯網嗎 Apr 08, 2025 pm 02:18 PM

MySQL 可在無需網絡連接的情況下運行，進行基本的數據存儲和管理。但是，對於與其他系統交互、遠程訪問或使用高級功能（如復制和集群）的情況，則需要網絡連接。此外，安全措施（如防火牆）、性能優化（選擇合適的網絡連接）和數據備份對於連接到互聯網的 MySQL 數據庫至關重要。

如何針對高負載應用程序優化 MySQL 性能？ Apr 08, 2025 pm 06:03 PM

MySQL數據庫性能優化指南在資源密集型應用中，MySQL數據庫扮演著至關重要的角色，負責管理海量事務。然而，隨著應用規模的擴大，數據庫性能瓶頸往往成為製約因素。本文將探討一系列行之有效的MySQL性能優化策略，確保您的應用在高負載下依然保持高效響應。我們將結合實際案例，深入講解索引、查詢優化、數據庫設計以及緩存等關鍵技術。 1.數據庫架構設計優化合理的數據庫架構是MySQL性能優化的基石。以下是一些核心原則：選擇合適的數據類型選擇最小的、符合需求的數據類型，既能節省存儲空間，又能提升數據處理速度