如何使用 DOMDocument 和 XPath 從 HTML 中定位和提取特定文字內容？-php教程-PHP中文網

首頁

後端開發

php教程

如何使用 DOMDocument 和 XPath 從 HTML 中定位和提取特定文字內容？

Mary-Kate Olsen

Oct 30, 2024 am 09:51 AM

How can DOMDocument and XPath be used to Target and Extract Specific Text Content from HTML?

針對特定內容的 DOMDocument 解析

使用強大的 PHP 函式庫「DOMDocument」可以精確解析 HTML 文件。與檢索所有具有特定名稱的標籤的「getElementsByTagName」不同，此方法利用 XPath 查詢來有效定位所需的元素。

捕捉特定上下文中的文字節點

到擷取特定文字內容，該過程涉及：

使用「DOMDocument::loadHTMLML 」將HTML 字串載入到DOM 物件中。
使用「new DOMXPath」啟動「XPath」物件($dom)"。
使用指定目標節點的XPath 查詢。例如：

$tags = $xpath->query('//div[@class="main"]/div[@class="text"]');

登入後複製

此查詢會擷取所有

巢狀在

中的“text”類別標籤具有“main”類別的標籤。其中包含實際文字：

foreach ($tags as $tag) {
    var_dump(trim($tag->nodeValue));
}

登入後複製

範例實作

考慮以下HTML 片段：

使用提供的查詢，輸出將是：

<code class="html"><div class="main">
    <div class="text">
    Capture this text 1
    </div>
</div>

<div class="main">
    <div class="text">
    Capture this text 2
    </div>
</div></code>

登入後複製

This示範使用「DOMDocument」和XPath 在分層HTML 結構中精確擷取特定文字內容的能力。

以上是如何使用 DOMDocument 和 XPath 從 HTML 中定位和提取特定文字內容？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1655

CakePHP 教程

1414

Laravel 教程

1307

PHP教程

1253

C# 教程

1227

Related knowledge

在PHP API中說明JSON Web令牌（JWT）及其用例。 Apr 05, 2025 am 12:04 AM

JWT是一種基於JSON的開放標準，用於在各方之間安全地傳輸信息，主要用於身份驗證和信息交換。 1.JWT由Header、Payload和Signature三部分組成。 2.JWT的工作原理包括生成JWT、驗證JWT和解析Payload三個步驟。 3.在PHP中使用JWT進行身份驗證時，可以生成和驗證JWT，並在高級用法中包含用戶角色和權限信息。 4.常見錯誤包括簽名驗證失敗、令牌過期和Payload過大，調試技巧包括使用調試工具和日誌記錄。 5.性能優化和最佳實踐包括使用合適的簽名算法、合理設置有效期、

會話如何劫持工作，如何在PHP中減輕它？ Apr 06, 2025 am 12:02 AM

會話劫持可以通過以下步驟實現：1.獲取會話ID，2.使用會話ID，3.保持會話活躍。在PHP中防範會話劫持的方法包括：1.使用session_regenerate_id()函數重新生成會話ID，2.通過數據庫存儲會話數據，3.確保所有會話數據通過HTTPS傳輸。

什麼是REST API設計原理？ Apr 04, 2025 am 12:01 AM

RESTAPI設計原則包括資源定義、URI設計、HTTP方法使用、狀態碼使用、版本控制和HATEOAS。 1.資源應使用名詞表示並保持層次結構。 2.HTTP方法應符合其語義，如GET用於獲取資源。 3.狀態碼應正確使用，如404表示資源不存在。 4.版本控制可通過URI或頭部實現。 5.HATEOAS通過響應中的鏈接引導客戶端操作。

PHP中的匿名類是什麼？您何時可以使用它們？ Apr 04, 2025 am 12:02 AM

匿名類在PHP中的主要作用是創建一次性使用的對象。 1.匿名類允許在代碼中直接定義沒有名字的類，適用於臨時需求。 2.它們可以繼承類或實現接口，增加靈活性。 3.使用時需注意性能和代碼可讀性，避免重複定義相同的匿名類。

您如何在PHP中有效處理異常（嘗試，捕捉，最後，投擲）？ Apr 05, 2025 am 12:03 AM

在PHP中，異常處理通過try,catch,finally,和throw關鍵字實現。 1)try塊包圍可能拋出異常的代碼；2)catch塊處理異常；3)finally塊確保代碼始終執行；4)throw用於手動拋出異常。這些機制幫助提升代碼的健壯性和可維護性。

說明PHP中的不同錯誤類型（注意，警告，致命錯誤，解析錯誤）。 Apr 08, 2025 am 12:03 AM

PHP中有四種主要錯誤類型：1.Notice：最輕微，不會中斷程序，如訪問未定義變量；2.Warning：比Notice嚴重，不會終止程序，如包含不存在文件；3.FatalError：最嚴重，會終止程序，如調用不存在函數；4.ParseError：語法錯誤，會阻止程序執行，如忘記添加結束標籤。

包括，require，incement_once，require_once之間有什麼區別？ Apr 05, 2025 am 12:07 AM

在PHP中，include,require,include_once,require_once的區別在於：1)include產生警告並繼續執行，2)require產生致命錯誤並停止執行，3)include_once和require_once防止重複包含。這些函數的選擇取決於文件的重要性和是否需要防止重複包含，合理使用可以提高代碼的可讀性和可維護性。