目錄
#一、XMl簡介
(一)什麼是XML
(二)XML 與HTML 的差異
Extensible Markup Language ( 可擴展標記語言)
HyperText Markup Language(超文本標記語言)
Document Object Model for HTML(超文本標文件物件模型)
(二)谓语(Predicates)
(三)选取未知节点
(四)选取若干路径
三、lxml 模块
(一)lxml 简介与安装
(二)lxml 初步使用
四、XPath 节点信息解析:
首頁 後端開發 Python教學 python之Xpath語法

python之Xpath語法

Nov 26, 2020 pm 05:11 PM
python xpath

python影片教學欄位介紹python的Xpath語法。

python之Xpath語法

#一、XMl簡介

(一)什麼是XML

  • XML 指可擴充標記語言(EXtensible)
  • XML 是一種標記語言,很類似HTML。
  • XML 的設計宗旨是傳輸數據,而非顯示數據。
  • XML 的標籤需要我們自己定義。
  • XML 被設計為具有自我描述性。
  • XML 是 W3C 的建議標準。

W3School 官方文件:http://www.w3school.com.cn/xml/index.asp

(二)XML 與HTML 的差異

##他們兩者都是用於操作數據或結構數據,在結構上大致相同的,但他們在本質上卻存在著明顯的差異。 資料格式描述設計目標

XML

Extensible Markup Language ( 可擴展標記語言)

被設計為傳輸和儲存數據,其焦點是資料的內容。

HTML

HyperText Markup Language(超文本標記語言)

顯示資料以及如何更好地顯示資料。

HTML DOM

Document Object Model for HTML(超文本標文件物件模型)

透過HTML DOM,可以存取所有的HTML 元素,連同它們所包含的文本和屬性。可以對其中的內容進行修改和刪除,同時也可以建立新的元素。

(三)XML 的節點關係
<?XML version=&#39;1.0&#39; encoding=""utf-8><book category="cooking">
	<title lang="en">Harry Potter</title>
	<author>J K.Rowling</author>
	<year>2005</year>
	<price>29.00</price></book>
登入後複製
1.父(Parent)元素節點可有零個、一個或多個子元素。在上面的例子中,title、author、year 以及 price 元素都是 book 元素的子元素3. 同胞(Sibling)某節點的父、父的父,等等。在上面的例子中,title 元素的先輩是 book 元素和 bookstore元素二、XPATHXPath 使用路徑運算式來選取 XML 文件中的節點或節點集。這些路徑表達式和我們在常規的電腦檔案系統中看到的表達式非常相似。下面列出了最常用的路徑表達式:表達式#描述
每個元素以及屬性都有一個父。上面是一個簡單的XML 範例中,book 元素是title、author、year 以及price 元素的父 2.子(Children)
有相同的父的節點。在上面的例子中,title、author、year 以及 price 元素都是同胞 4. 先修(Ancestor)
5. 後代(Descendant) 某個節點的子,子的子等等。在上面的例子中,bookstore 的後代是book、title、author、year 以及price 元素:
XPath (XML Path Language) 是一門在XML 文件中查找資訊的語言,可用來在XML 文件中對元素和屬性進行遍歷。 (一)選取節點
### ###nodename######選取此節點的所有子節點。 ############/######從節點選取。 ############//######從符合選擇的目前節點選擇文件中的節點,而不考慮他們的位置。 ############.######選取目前節點。 ############..######選取目前節點的父節點。 ############@######選取屬性。 ############

在下面的表格中,我们已列出了一些路径表达式以及表达式的结果:

路径表达式 描述
bookstore 选取 bookstore 元素的所有子节点
/bookstore 选取根元素 bookstore。代表元素的绝对路径。
bookstore/book 选取属于 bookstore 的子元素的所有 book 元素。
//book 选取所有 book 子元素,而不管它们在文档中的位置
bookstore//book 选择属于 booksore 元素的后代所有的 book 元素,而不管他们位于 bookstore 之下的什么位置。
//@lang 选取名为 lang 的所有属性。
text() 取标签当中的值

(二)谓语(Predicates)

谓语用来查找某个特定的节点或者包含某个指定的值的节点,被嵌在方括号中。在下面的表格中,我们列出了带有谓语的一些路径表达式,以及表达式的结果:

路径表达式 描述
/bookstore/book[l] 选取属于 bookstore 子元素的第一个 book 元素。
/bookstore/book[last()] 选取属于 bookstore 子元素的最后一个 book 元素。
/bookstore/book[last()-1] 选取属于 bookstore 子元素的倒数第二个 book 元素。
/bookstore/book[position()<2]选最前面的一个属于 bookstore 元素的子元素的 book 元素。
//title[@lang]选取所有属性名为 lang 的属性的 title 元素。
//titlel@lang=‘eng’]选取所有 tltle 元素,且这些元素有属性值为 eng 的 lang 属性。

(三)选取未知节点

XPath 通配符可用来选取未知的 XML 元素。

通配符描述
*匹配任何元素节点。
@*匹配任何属性节点。

在下面的表格中,我们列出了一些路径表达式,以及这些表达式的结果:

路径表达式描述
/bookstore/*选取 bookstore 元素的所有子元素
//*选取文档中的所有元素。
//title[@*]选取所有带有属性的 title 元素。

(四)选取若干路径

通过在路径表达式中使用“|”运算符,您可以选取若干个路径。在下面的表格中,我们列出了一些路径表达式,以及这些表达式的结果:

路径表达式描述
//book/title//book/price
//title//price
//price选取文档中所有的 price 元素。

三、lxml 模块

(一)lxml 简介与安装

lxml 是一个 HTML/XML 的解析器,主要的功能是如何解析和提取 HTML/XML 数据。我们可以利用之前学习的 XPath 语法,来快速的定位特定元素以及节点信息。
安装方法:pip install lxml

(二)lxml 初步使用

1、解析HTML字符串

XML 素材:http://www.cnblogs.com/zhangboblogs/p/10114698.html
小结:lxml 可以自动修正 html 代码,例子里不仅补全了 li 标签,还添加了 body,html 标签。

2.、lxml 文件读取

XML 素材:http://www.cnblogs.com/zhangboblogs/p/10114698.htm
除了直接读取字符串,lxml 还支持从文件里读取内容。我们新建一个 hello.html 文件,再利用 etree.parse()方法来读取文件。
注意:从文件中读取数据,要求文件内容符合 xml 格式,如果标签缺失,则不能正常读取。

四、XPath 节点信息解析:

# 安装lxml: pip install lxml

# 1. 导入etree: 两种导入方式
# 第一种: 直接导入
from lxml import etree
# 注意: 此种导入方式,可能会导致报错(etree下面会出现红色波浪线,不影响正常使用)

# 第二种: 
# from lxml import html
# etree = html.etree

str = '' \
            '' \
                'Harry Potter' \
                '29.99' \
            '' \
            '' \
                'Learning XML' \
                '39.95' \
            '' \
            '' \
                '西游记' \
                '69.95' \
            '' \
            '' \
                '水浒传' \
                '29.95' \
            '' \
            '' \
                '三国演义' \
                '29.95' \
            '' \
        ''


# 2. etree.HTML() 将字符串转换成HTML元素对象,可以自动添加缺失的元素
html = etree.HTML(str)  #   是一个el对象
# print(html)


# 3. 方法:
# 3.1 tostring()  查看转换之后的内容(二进制类型)
# 如果想要查看字符串,需要解码
# 如果想要显示汉字,需要先编码,再解码
# content = etree.tostring(html,encoding='utf-8')
# print(content.decode())


# 3.2 xpath()方法  作用:提取页面数据,返回值是一个列表
# xpath的使用一定是建立在etree.HTML()之后的内容中的

# xpath是如何来提取页面数据的?
# 答:使用的是路径表达式

# 3.2.1 xpath路径分为两种:
# 第一种: /  代表一层层的查找,如果/存在于开头,代表根路径
# bookstore = html.xpath('/html/body/bookstore')
# print(bookstore)  # []

# 第二种: // 任意路径  焦点在元素身上
# 例如:查找bookstore标签
# bookstore = html.xpath('//bookstore')
# print(bookstore)  # []

# 第一种和第二种结合
# 例如:查找所有book标签
# book = html.xpath('//bookstore/book')
# print(book)  # []

# 3.2.2 /text()  获取标签之间的内容
# 例如:获取所有title标签的内容
# 步骤:
# 1. 找到所有title标签
# 2. 获取内容
# title = html.xpath('//book/title/text()')
# print(title)  # ['Harry Potter', 'Learning XML', '西游记', '水浒传', '三国演义']

# 3.3 位于  使用[]  可以理解成条件
# 3.3.1 [n] 代表获取第n个元素,n是数字,n<=1
# 例如: 获取第二个title标签
# title = html.xpath('//book[2]/title/text()')
# title1 = html.xpath('//title[2]/text()')
# print(title)  # ['Learning XML']
# print(title1)  # []

# last()  获取最后一个
# 同理: last()-1  获取倒数第二个
# 例如: 获取最后一本书的title标签之间的内容
# title = html.xpath('//book[last()]/title/text()')
# title1 = html.xpath('//book[last()-1]/title/text()')
# print(title)  # ['三国演义']
# print(title1)  # ['水浒传']

# 3.3.2 position()  位置,范围  支持 > / < / = / >= / <= / !=
# 例如: 获取最后两本书的title标签之间的内容
# 步骤:
# 1. 先获取后两本书
# 2. 获取内容
# title = html.xpath('//book[position()>3]/title/text()')
# print(title)  # ['水浒传', '三国演义']
# ? title = html.xpath('//book[position()>last()-2]/title/text()')
# print(title)  # ['水浒传', '三国演义']

# 3.3.3 获取属性值:@属性名

# 例如: 获取lang属性值为cng的title标签的内容
# title = html.xpath('//book/title[@lang="cng"]/text()')
# print(title)  # ['西游记']

# 例如: 获取包含src属性得title标签的内容
# title = html.xpath('//book/title[@src]/text()')
# print(title)  # ['Harry Potter', '水浒传', '三国演义']

# 例如: 获取包含属性的title标签的内容
# title = html.xpath('//book/title[@*]/text()')
# print(title)  # ['Harry Potter', 'Learning XML', '西游记', '水浒传', '三国演义']

# 例如: 获取最后一个title标签的src属性的值
# title = html.xpath('//book[last()]/title/@src')
# print(title)  # ['https://www.jd.com']

# 例如: 获取所有包含src属性的标签之间的内容
# node = html.xpath('//*[@src]/text()')
# print(node)  # ['Harry Potter', '水浒传', '三国演义']


# 3.4 and  与  连接的是谓语(条件)
# 例如: 获取lang="dng"并且class="t1"的title标签的内容
# title = html.xpath('//book/title[@lang="dng" and @class="t1"]/text()')
# title1 = html.xpath('//book/title[@lang="dng"][@class="t1"]/text()')
# print(title)  # ['三国演义']
# print(title1)  # ['三国演义']


# 3.5 or  或  连接谓语
# 例如: 查找lang="cng"或者lang="bng"的title标签的内容
# title = html.xpath('//book/title[@lang="cng" or @lang="bng"]/text()')
# print(title)  # ['Harry Potter', '西游记']


# 3.6 |  连接路径
# 例如: 获取所有title标签和price标签之间的内容
# title = html.xpath('//title/text() | //price/text()')
# print(title)  # ['Harry Potter', '29.99', 'Learning XML', '39.95', '西游记', '69.95', '水浒传', '29.95', '三国演义', '29.95']


# 3.8 parse()  作用:从文件中读取数据
# 注意: 读取的文件,必须满足xml格式**(不存在单标签,全部都是上标签)**
content = etree.parse('test.html')
# print(content)  # 
res = etree.tostring(content,encoding='utf-8')
print(res.decode())  



    test


    

        这是一个html     

相关免费学习推荐:python视频教程

以上是python之Xpath語法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

PHP和Python:解釋了不同的範例 PHP和Python:解釋了不同的範例 Apr 18, 2025 am 12:26 AM

PHP主要是過程式編程,但也支持面向對象編程(OOP);Python支持多種範式,包括OOP、函數式和過程式編程。 PHP適合web開發,Python適用於多種應用,如數據分析和機器學習。

在PHP和Python之間進行選擇:指南 在PHP和Python之間進行選擇:指南 Apr 18, 2025 am 12:24 AM

PHP適合網頁開發和快速原型開發,Python適用於數據科學和機器學習。 1.PHP用於動態網頁開發,語法簡單,適合快速開發。 2.Python語法簡潔,適用於多領域,庫生態系統強大。

Python vs. JavaScript:學習曲線和易用性 Python vs. JavaScript:學習曲線和易用性 Apr 16, 2025 am 12:12 AM

Python更適合初學者,學習曲線平緩,語法簡潔;JavaScript適合前端開發,學習曲線較陡,語法靈活。 1.Python語法直觀,適用於數據科學和後端開發。 2.JavaScript靈活,廣泛用於前端和服務器端編程。

PHP和Python:深入了解他們的歷史 PHP和Python:深入了解他們的歷史 Apr 18, 2025 am 12:25 AM

PHP起源於1994年,由RasmusLerdorf開發,最初用於跟踪網站訪問者,逐漸演變為服務器端腳本語言,廣泛應用於網頁開發。 Python由GuidovanRossum於1980年代末開發,1991年首次發布,強調代碼可讀性和簡潔性,適用於科學計算、數據分析等領域。

vs code 可以在 Windows 8 中運行嗎 vs code 可以在 Windows 8 中運行嗎 Apr 15, 2025 pm 07:24 PM

VS Code可以在Windows 8上運行,但體驗可能不佳。首先確保系統已更新到最新補丁,然後下載與系統架構匹配的VS Code安裝包,按照提示安裝。安裝後,注意某些擴展程序可能與Windows 8不兼容,需要尋找替代擴展或在虛擬機中使用更新的Windows系統。安裝必要的擴展,檢查是否正常工作。儘管VS Code在Windows 8上可行,但建議升級到更新的Windows系統以獲得更好的開發體驗和安全保障。

visual studio code 可以用於 python 嗎 visual studio code 可以用於 python 嗎 Apr 15, 2025 pm 08:18 PM

VS Code 可用於編寫 Python,並提供許多功能,使其成為開發 Python 應用程序的理想工具。它允許用戶:安裝 Python 擴展,以獲得代碼補全、語法高亮和調試等功能。使用調試器逐步跟踪代碼,查找和修復錯誤。集成 Git,進行版本控制。使用代碼格式化工具,保持代碼一致性。使用 Linting 工具,提前發現潛在問題。

notepad 怎麼運行python notepad 怎麼運行python Apr 16, 2025 pm 07:33 PM

在 Notepad 中運行 Python 代碼需要安裝 Python 可執行文件和 NppExec 插件。安裝 Python 並為其添加 PATH 後,在 NppExec 插件中配置命令為“python”、參數為“{CURRENT_DIRECTORY}{FILE_NAME}”,即可在 Notepad 中通過快捷鍵“F6”運行 Python 代碼。

vscode 擴展是否是惡意的 vscode 擴展是否是惡意的 Apr 15, 2025 pm 07:57 PM

VS Code 擴展存在惡意風險,例如隱藏惡意代碼、利用漏洞、偽裝成合法擴展。識別惡意擴展的方法包括:檢查發布者、閱讀評論、檢查代碼、謹慎安裝。安全措施還包括:安全意識、良好習慣、定期更新和殺毒軟件。

See all articles