Java 中的 HTML 解析
在使用 Web 抓取應用程式時,從 HTML 文件中高效提取資料至關重要。當需要解析 HTML 以取得特定 CSS 類別中包含的資料時,最基本的方法是手動檢查 HTML 的每一行中所需的類別字串。雖然這種方法產生了結果,但它提出了是否有更複雜的解決方案的問題。
探索替代選項
引入jsoup,一個專門為處理而設計的高度通用的庫Java 中的 HTML。與基本字串搜尋不同,jsoup 採用複雜的方法來解決兩個關鍵挑戰:
使用範例
請考慮以下範例,您希望在其中從假設的
<code class="java">import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; String html = "<html><body><div class=\"classname\">...</div></body></html>"; Document doc = Jsoup.parse(html); Element div = doc.getElementsByClass("classname").first(); if (div != null) { boolean usesClass = div.hasClass("classname"); String text = div.text(); String link = div.select("a[href]").attr("href"); }</code>
在此範例中,展示了jsoup 的功能:
以上是jsoup 如何簡化 Java 中的 HTML 解析並有效處理格式錯誤的 HTML?的詳細內容。更多資訊請關注PHP中文網其他相關文章!