htmlparser は、Java で書かれた純粋な HTML 解析ライブラリです。htmlparser は他の Java ライブラリ ファイルに依存しません。主に HTML の変換または抽出に使用されます。HTML を線形またはネストされた方法で解析でき、 Web 情報スクレイピング ツールとして理解されています。
このチュートリアルの動作環境: Windows 10 システム、HTML5 バージョン、Dell G3 コンピューター。
htmlparser とはどういう意味ですか?
htmlparser は、純粋な Java で書かれた HTML 解析ライブラリであり、他の Java ライブラリ ファイルには依存しません。 、主に HTML の変換または抽出に使用されます。 HTMLをエラーなく超高速に解析できます。 htmlparser の最新バージョンは 2.1 です。 htmlparser は現時点で html の解析と分析に最適なツールであると言っても過言ではありません。
HTML パーサーは、HTML を線形またはネストされた方法で解析するための Java ライブラリです。主に変換または抽出に使用され、フィルター、訪問者、カスタム タグ、および使いやすい JavaBeans が備えられています。これは高速かつ強力で、十分にテストされたパッケージです。
パーサーによって処理される 2 つの基本的な使用例は、抽出と変換です (HTML ページを最初から作成する合成の使用例は、データ ソースに近い他のツールで最もよく処理されます)。以前のバージョンは Web ページからのデータ抽出に焦点を当てていましたが、HTMLParser バージョン 1.4 では、Web ページの変換、タグの作成と編集、および toHtml() メソッドの逐語的出力が簡素化され、大幅に改善されました。
一般に、HTMLParser を使用するには、Java プログラミング言語でコードを作成できる必要があります。役立つサンプル プログラムがいくつか提供されていますが、目的のアプリケーションに合わせて独自のプログラムを作成するか、提供されているプログラムを変更する必要がある (またはそうしたい) ことがほとんどです。
このライブラリを使用するには、コンパイルおよび実行時に htmllexer.jar または htmlparser.jar をクラスパスに追加する必要があります。 htmllexer.jar は、ページ上の共通の文字列、コメント、ラベル ノードへの低レベルのアクセスを、線形、フラット、シーケンシャルな方法で提供します。 htmlparser.jar には htmllexer.jar のクラスが含まれており、文字列、コメント、その他のマークアップ ノードを含むネストされた区別するマークアップ シーケンスとしてページへのアクセスを提供します。したがって、レクサー nextNode() メソッド呼び出しの出力は次のようになります:
パーサー NodeIterator の出力は、タグを 、
としてネストします。その他 ノードの子 (ここではインデントで示されています):パーサーはページの構造を表現するために開始タグと終了タグのバランスをとろうとしますが、レクサーは単純にノードを吐き出します。アプリケーションがページ構造についての適度な知識のみを必要とし、主に単一の独立したノードに関係する場合は、軽量レクサーの使用を検討する必要があります。ただし、アプリケーションがテーブルの処理など、ページの入れ子構造を理解する必要がある場合は、完全なパーサーを使用することをお勧めします。
推奨チュートリアル: 「html ビデオ チュートリアル 」
以上がhtmlパーサーとは何ですかの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。