Java 中網頁抓取的HTML 解析
在軟體開發領域,有必要從網站中提取有價值的資訊以用於各種目的。這種從線上來源提取資料的過程通常稱為網頁抓取。 Java 程式設計師可以使用多功能工具來完成此任務:HTML 解析器。
強烈建議的 Java HTML 解析器是 Jsoup。它的出色之處在於其用戶友好的類似 jQuery 的 CSS 選擇器和靈活的 Elements 類,可以輕鬆迭代。
開始使用Jsoup 進行網頁抓取
讓我們深入研究一個簡單的範例來說明如何使用Jsoup 進行網頁抓取:
<code class="java">import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class Test { public static void main(String[] args) throws Exception { String url = "https://stackoverflow.com/questions/2835505"; Document document = Jsoup.connect(url).get(); String question = document.select("#question .post-text").text(); System.out.println("Question: " + question); Elements answerers = document.select("#answers .user-details a"); for (Element answerer : answerers) { System.out.println("Answerer: " + answerer.text()); } } }</code>
在此範例中,我們連接到特定的Stack Overflow 問題,解析HTML 內容,並提取問題的文字以及問題的名稱
自訂您的網頁抓取
Jsoup 的表現力允許廣泛的網頁抓取場景。透過利用 CSS 選擇器,您可以定位網頁上的特定元素或屬性。例如,如果您想檢索百思買上產品頁面的標題、價格和描述,您可以使用以下 CSS 選擇器:
以上是Jsoup 如何讓 Java 中的網頁抓取變得簡單又有效率?的詳細內容。更多資訊請關注PHP中文網其他相關文章!