Java解析和遍历html文档利器_html/css_WEB-ITnose-html教學-PHP中文網

首頁

web前端

html教學

Java解析和遍历html文档利器_html/css_WEB-ITnose

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 24, 2016 am 11:20 AM

前言：几乎任何的语言都可以解析和遍历html超文本，我常用的语言就是php啦，但是我想在android客户端获取网络http的的数据，虽然可以使用php但是需要二次连接和php环境，然而就直接使用java语言去搞，那么不可能直接用java原生语言去码的啦，使用Jsoup去解析，Jsoup是java语言一款不错的html解析文档的利器！

Jsoup的简介Jsoup是java语言一款不错的html解析和遍历文档的利器。

Jsoup的优点其解析器能够尽最大可能从你提供的HTML文档来创见一个干净的解析结果，无论HTML的格式是否完整。比如它可以处理：

没有关闭的标签  <p>Lorem <p>Ipsum parses to <p>Lorem</p> <p>Ipsum</p>

登入後複製

隐式标签  <td>Table data</td>包装成<table><tr><td>

登入後複製

创建可靠的文档结构（html标签包含head 和 body，在head只出现恰当的元素）

登入後複製

Jsoup常用的方法从一个URL加载一个Document

简单的get方法Document doc = Jsoup.connect("http://www.domain.com/").get();String title = doc.title();

登入後複製

带头信息的post方法Document doc = Jsoup.connect("http://www..domain.com")                    .data("username", "Alic")                    .userAgent("Mozilla")                    .cookie("auth", "token")                    .timeout(3000)                    .post();

登入後複製

从文件中加载HTML文档

File file = new File("path");Document doc = Jsoup.parse(file, "UTF-8", "http://www.domian.com/");

登入後複製

简单的从String加载HTML

Document doc = Jsoup.parse(String html);

登入後複製

使用DOM方法来遍历一个文档

File file = new File("/path/index.html");Document doc = Jsoup.parse(file, "UTF-8", "http://www.domian.com/");Element content = doc.getElementById("content");//获取id为content的dom节点Elements links = content.getElementsByTag("a");//获取所有的a标签dom节点//遍历所有的a标签for (Element link : links) {        String linkHref = link.attr("href");        String linkText = link.text();}Elements links = doc.select("a[href]"); //带有href属性的a元素Elements pngs = doc.select("img[src$=.png]");  //扩展名为.png的图片Element masthead = doc.select("div.masthead").first();  //class等于masthead的div标签Elements resultLinks = doc.select("h3.r > a"); //在h3元素之后的a元素

登入後複製

常用的方法：见官网API文档传送Jsoup

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1664

CakePHP 教程

1423

Laravel 教程

1321

PHP教程

1269

C# 教程

1249

Related knowledge

了解HTML，CSS和JavaScript：初學者指南 Apr 12, 2025 am 12:02 AM

WebDevelovermentReliesonHtml，CSS和JavaScript：1）HTMLStructuresContent，2）CSSStyleSIT和3）JavaScriptAddSstractivity，形成thebasisofmodernWebemodernWebExexperiences。

HTML：結構，CSS：樣式，JavaScript：行為 Apr 18, 2025 am 12:09 AM

HTML、CSS和JavaScript在Web開發中的作用分別是：1.HTML定義網頁結構，2.CSS控製網頁樣式，3.JavaScript添加動態行為。它們共同構建了現代網站的框架、美觀和交互性。

HTML，CSS和JavaScript的未來：網絡開發趨勢 Apr 19, 2025 am 12:02 AM

HTML的未來趨勢是語義化和Web組件，CSS的未來趨勢是CSS-in-JS和CSSHoudini，JavaScript的未來趨勢是WebAssembly和Serverless。 1.HTML的語義化提高可訪問性和SEO效果，Web組件提升開發效率但需注意瀏覽器兼容性。 2.CSS-in-JS增強樣式管理靈活性但可能增大文件體積，CSSHoudini允許直接操作CSS渲染。 3.WebAssembly優化瀏覽器應用性能但學習曲線陡，Serverless簡化開發但需優化冷啟動問題。

HTML的未來：網絡設計的發展和趨勢 Apr 17, 2025 am 12:12 AM

HTML的未來充滿了無限可能。 1)新功能和標準將包括更多的語義化標籤和WebComponents的普及。 2)網頁設計趨勢將繼續向響應式和無障礙設計發展。 3)性能優化將通過響應式圖片加載和延遲加載技術提升用戶體驗。

HTML與CSS vs. JavaScript：比較概述 Apr 16, 2025 am 12:04 AM

HTML、CSS和JavaScript在網頁開發中的角色分別是：HTML負責內容結構，CSS負責樣式，JavaScript負責動態行為。 1.HTML通過標籤定義網頁結構和內容，確保語義化。 2.CSS通過選擇器和屬性控製網頁樣式，使其美觀易讀。 3.JavaScript通過腳本控製網頁行為，實現動態和交互功能。

HTML：建立網頁的結構 Apr 14, 2025 am 12:14 AM

HTML是構建網頁結構的基石。 1.HTML定義內容結構和語義，使用、、等標籤。 2.提供語義化標記，如、、等，提升SEO效果。 3.通過標籤實現用戶交互，需注意表單驗證。 4.使用、等高級元素結合JavaScript實現動態效果。 5.常見錯誤包括標籤未閉合和屬性值未加引號，需使用驗證工具。 6.優化策略包括減少HTTP請求、壓縮HTML、使用語義化標籤等。

HTML：是編程語言還是其他？ Apr 15, 2025 am 12:13 AM

HTMLISNOTAPROGRAMMENGUAGE; ITISAMARKUMARKUPLAGUAGE.1）htmlStructures andFormatSwebContentusingtags.2）itworkswithcsssforstylingandjavascript for Interactivity，增強WebevebDevelopment。

HTML與CSS和JavaScript：比較Web技術 Apr 23, 2025 am 12:05 AM

HTML、CSS和JavaScript是構建現代網頁的核心技術：1.HTML定義網頁結構，2.CSS負責網頁外觀，3.JavaScript提供網頁動態和交互性，它們共同作用，打造出用戶體驗良好的網站。

See all articles

Java解析和遍历html文档利器_html/css_WEB-ITnose

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題