JAVA爬取網頁資料之jsoup
關於近些年興起的爬取數據,其中大部分人都是使用Python來進行爬取。對於有些人來講,還是不知道Java也可以進行資料爬取的。那接下來小編要跟大家分享一篇關於Java爬取網頁資料的文章。
爬取數據的含義就是獲取請求返回的頁面信息,篩選出我們想要的數據就可以了。
那麼長話短說我們下面開始:
1.環境準備
#工具的話是eclipse或IDEA
配置好maven
#2 .導入jsoup相關依賴
3.開始建立一個專案寫程式碼,小編程式碼如下:
public static void main(String[] args) throws Exception { Scanner sc = new Scanner(System.in) ; System.out.println("請輸入搜尋的關鍵字!!!"); String input = sc.next(); //取得url請求,這裡的請求自己去找 String url = "https://search .xx.com/Search?keyword=" input; //解析網頁(此處jsoup返回的document,就是頁面document物件) Document document = Jsoup.parse(new URL(url), 30000); //所有js中的方法這裡都能夠使用,這裡是取得爬取目標div中的id Element element = document.getElementById("x_goodsList"); System.out.println(element.html()); //////////////////////////////////////////////////////////////////////////////////」的所有的li標籤 Elements elements = document.getElementsByTag("li"); //遍歷li標籤裡面的所有內容 for(Element el : elements){
網站,都是採用延遲載入的。取得的屬性是 source-data-lazy-img而非src
# /*
img 是爬取的圖片,
### name是爬取的商品名稱
*/
String img = el.getElementsByTag(遠price = el.getElementsByClass("p-price").eq(0).text(); String name = el.getElementsByClass("p-name").eq(0).text(); ("========================"); System.out.println(img); System.out.println(price); System.out .println(name); }
最後對於爬取資料感興趣的小夥伴抓緊去試試,在這裡本人杜絕爬取一切違法的爬取行為,哈哈哈,希望小伙伴知道什麼可爬著玩,什麼不可爬。
以上是JAVA爬取網頁資料之jsoup的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

Java的類上載涉及使用帶有引導,擴展程序和應用程序類負載器的分層系統加載,鏈接和初始化類。父代授權模型確保首先加載核心類別,從而影響自定義類LOA

本文討論了使用咖啡因和Guava緩存在Java中實施多層緩存以提高應用程序性能。它涵蓋設置,集成和績效優勢,以及配置和驅逐政策管理最佳PRA

本文討論了使用JPA進行對象相關映射,並具有高級功能,例如緩存和懶惰加載。它涵蓋了設置,實體映射和優化性能的最佳實踐,同時突出潛在的陷阱。[159個字符]

本文討論了使用Maven和Gradle進行Java項目管理,構建自動化和依賴性解決方案,以比較其方法和優化策略。

本文使用Maven和Gradle之類的工具討論了具有適當的版本控制和依賴關係管理的自定義Java庫(JAR文件)的創建和使用。
