htmlparser是什麼

WBOY
發布: 2022-01-18 11:40:50
原創
3372 人瀏覽過

htmlparser是一個純的java寫的html解析庫;htmlparser不依賴其它的java庫文件,主要用於改造或提取html,可以用線性或嵌套方式解析HTML,可以理解成一個網頁資訊抓取工具。

htmlparser是什麼

本教學操作環境:windows10系統、HTML5版、Dell G3電腦。

htmlparser是什麼意思

htmlparser是一個純的java寫的html解析的庫,它不依賴其它的java庫文件,主要用於改造或提取html。它能超高速解析html,而且不會出錯。現在htmlparser最新版本為2.1。毫不誇張地說,htmlparser就是目前最好的html解析和分析的工具。

HTML Parser 是一個 Java 函式庫,用於以線性或巢狀方式解析 HTML。主要用於轉換或提取,它具有過濾器、訪客、自訂標籤和易於使用的 JavaBeans。它是一個快速、強大且經過良好測試的軟體包。

解析器處理的兩個基本用例是 提取和轉換 (合成用例,從頭開始建立 HTML 頁面,最好由更接近資料來源的其他工具處理)。雖然先前的版本集中於從網頁中提取數據,但 HTMLParser 的 1.4 版在轉換網頁方面有了實質性的改進,簡化了標籤的創建和編輯,以及逐字輸出 toHtml() 方法。

一般來說,要使用 HTMLParser,您需要能夠用 Java 程式語言編寫程式碼。儘管提供了一些可能有用的示例程序,但您很可能需要(或想要)創建自己的程序或修改提供的程序以匹配您的預期應用程序。

要使用該程式庫,您需要在編譯和執行時將 htmllexer.jar 或 htmlparser.jar 加入到您的類別路徑中。 htmllexer.jar 以線性、扁平、順序的方式提供對頁面上通用字串、備註和標籤節點的低階存取。包含 htmllexer.jar 中的類別的 htmlparser.jar 提供對頁面的訪問,作為包含字串、備註和其他標記節點的嵌套區分標記序列。因此,呼叫lexer nextNode() 方法的輸出可能是:

htmlparser是什麼

#解析器NodeIterator的輸出會將標籤嵌套為、

和其他節點的子節點(這裡用縮排表示):

htmlparser是什麼

解析器試圖平衡開始標籤和結束標籤來呈現頁面的結構,而詞法分析器只是簡單地吐出節點。如果您的應用程式只需要適度的頁面結構知識,並且主要專注於單一獨立節點,則應考慮使用輕量級詞法分析器。但是如果您的應用程式需要了解頁面的巢狀結構,例如處理表格,您可能需要使用完整的解析器。

推薦教學:《html影片教學

以上是htmlparser是什麼的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
最新問題
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板
關於我們 免責聲明 Sitemap
PHP中文網:公益線上PHP培訓,幫助PHP學習者快速成長!