HTMLParserの使い方を詳しく解説(1)

Dec 29, 2016 pm 03:49 PM
html parser

検索エンジンの開発を研究する場合、HTML Web ページの処理は中核的なリンクです。インターネット上には多くのオープン ソース コードがあり、Java の場合は HTMLParser がよく知られており、広く使用されています。 HTMLParser のホームページは http://htmlparser.sourceforge.net/ で、最後の更新は 2006 年 9 月のバージョン 1.6 でした。しかし、それは問題ではありません。HTML の内容は長い間大幅に変更されておらず、HTMLParser は基本的に問題なく処理できます。 HTMLParser には、コンパクトで高速であるという利点があります。欠点は、関連するドキュメントが比較的少なく (英語のドキュメントも少ない)、多くの機能を自分で調べる必要があることです。初心者にとってはまだ多少の努力が必要ですが、一度使い始めると、HTMLParser の構造設計が非常に賢くて非常に実用的であり、基本的にさまざまなニーズを満たすことができることがわかります。
ここでは、HTMLParser を初めて使用する友人に役立つことを願って、過去数か月間での私の経験に基づいていくつかの入門的なものを書きました。 (ただし、私の中国語テストは大学入学試験の合格点よりわずか 1 点高かったので、文法的な問題については我慢していただければと思います)

HTMLParser のコア モジュールは org.htmlparser.Parser クラスです。実際に HTML ページの分析が完了します。このクラスには次のコンストラクターがあります:

public Parser ();
public Parser (Lexer lexer, ParserFeedback fb);
public Parser (URLConnection connection, ParserFeedback fb) throws ParserException;
public Parser (String resource, ParserFeedback feedback) throws ParserException;
public Parser (String resource) throws ParserException;
public Parser (Lexer lexer);
public Parser (URLConnection connection) throws ParserException;
和一个静态类 public static Parser createParser (String html, String charset);
ログイン後にコピー

ほとんどのユーザーにとって、最も一般的に使用される方法は、URLConnection または Web ページのコンテンツを保持する文字列を介してパーサーを初期化するか、静的関数を使用してパーサー オブジェクトを生成することです。 ParserFeedback のコードは非常にシンプルで、分析プロセスのデバッグと追跡のために設計されており、通常は変更する必要はありません。 Lexer の使用は比較的高度なトピックなので、後で説明します。
ここでさらに興味深い点は、ページのエンコード方法を設定する必要がある場合、唯一の方法は Lexer を使用せずに静的関数を使用することであるということです。ほとんどの中国語ページでは、これをより頻繁に使用する必要がある方法のようです。

以下はParserを初期化する例です。

/**
* @author www.baizeju.com
*/
package com.baizeju.htmlparsertester;
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.io.FileInputStream;
import java.io.File;
import java.net.HttpURLConnection;
import java.net.URL;
import org.htmlparser.visitors.TextExtractingVisitor;
import org.htmlparser.Parser;
/**
* @author www.baizeju.com
*/
public class Main {
private static String ENCODE = "GBK";
private static void message( String szMsg ) {
try{ System.out.println(new String(szMsg.getBytes(ENCODE), System.getProperty("file.encoding"))); } catch(Exception e ){}
}
public static String openFile( String szFileName ) {
try {
BufferedReader bis = new BufferedReader(new InputStreamReader(new FileInputStream( new File(szFileName)), ENCODE) );
String szContent="";
String szTemp;
while ( (szTemp = bis.readLine()) != null) {
szContent+=szTemp+"/n";
}
bis.close();
return szContent;
}
catch( Exception e ) {
return "";
}
}
public static void main(String[] args) {
String szContent = openFile( "E:/My Sites/HTMLParserTester.html");
try{
//Parser parser = Parser.createParser(szContent, ENCODE);
//Parser parser = new Parser( szContent );
Parser parser = new Parser( (HttpURLConnection) (new URL("http://127.0.0.1:8080/HTMLParserTester.html")).openConnection() );
TextExtractingVisitor visitor = new TextExtractingVisitor();
parser.visitAllNodesWith(visitor);
String textInPage = visitor.getExtractedText();
message(textInPage);
}
catch( Exception e ) { 
}
}
}
ログイン後にコピー

強調された部分は、いくつかの異なる初期化メソッドをテストしており、結果は以下に示されています。パーサーがコンテンツを出力できることがわかる限り、パーサーのコンテンツにアクセスする方法については後で説明します。

上記は HTMLParser の使用方法の詳細な説明 (1) です。さらに関連するコンテンツについては、PHP 中国語 Web サイト (www.php.cn) に注目してください。


このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

HTMLの表の境界線 HTMLの表の境界線 Sep 04, 2024 pm 04:49 PM

HTML の表の境界線に関するガイド。ここでは、HTML でのテーブルの境界線の例を示しながら、テーブル境界線を定義する複数の方法について説明します。

HTML のネストされたテーブル HTML のネストされたテーブル Sep 04, 2024 pm 04:49 PM

これは、HTML でのネストされたテーブルのガイドです。ここでは、テーブル内にテーブルを作成する方法をそれぞれの例とともに説明します。

HTML 左マージン HTML 左マージン Sep 04, 2024 pm 04:48 PM

HTML マージン左のガイド。ここでは、HTML margin-left の概要とその例、およびそのコード実装について説明します。

HTML テーブルのレイアウト HTML テーブルのレイアウト Sep 04, 2024 pm 04:54 PM

HTML テーブル レイアウトのガイド。ここでは、HTML テーブル レイアウトの値と例および出力について詳しく説明します。

HTML入力プレースホルダー HTML入力プレースホルダー Sep 04, 2024 pm 04:54 PM

HTML 入力プレースホルダーのガイド。ここでは、コードと出力とともに HTML 入力プレースホルダーの例について説明します。

PHPでHTML/XMLを解析および処理するにはどうすればよいですか? PHPでHTML/XMLを解析および処理するにはどうすればよいですか? Feb 07, 2025 am 11:57 AM

このチュートリアルでは、PHPを使用してXMLドキュメントを効率的に処理する方法を示しています。 XML(拡張可能なマークアップ言語)は、人間の読みやすさとマシン解析の両方に合わせて設計された多用途のテキストベースのマークアップ言語です。一般的にデータストレージに使用されます

HTML 順序付きリスト HTML 順序付きリスト Sep 04, 2024 pm 04:43 PM

HTML 順序付きリストのガイド。ここでは、HTML 順序付きリストと型の導入とその例についても説明します。

HTML の onclick ボタン HTML の onclick ボタン Sep 04, 2024 pm 04:49 PM

HTML オンクリック ボタンのガイド。ここでは、それらの紹介、動作、例、およびさまざまなイベントでの onclick イベントについてそれぞれ説明します。

See all articles