Java を使用して HTML ドキュメントからデータを抽出するにはどうすればよいですか?-＆＃＆チュートリアル-php.cn

Java を使用して HTML ドキュメントからデータを抽出するにはどうすればよいですか?

Barbara Streisand

リリース： 2024-10-25 02:11:29

オリジナル

783 人が閲覧しました

How can I extract data from HTML documents using Java?

Java HTML 解析

Web サイトからデータを取得するには、まず HTML ドキュメントの構造を理解する必要があります。 HTML 要素は、各要素のタイプとコンテンツを指定するタグを使用して編成されます。

たとえば、次の HTML は、特定の CSS クラスを持つ div タグを表します。

<code class="html"><div class="classname"></div></code>

ログイン後にコピー

Java でこのタグからデータを取得するには、Java HTML パーサーライブラリを使用できます。 1 つのオプションは jsoup です。これにより、jQuery のような構文を使用した便利な HTML 解析が可能になります。

<code class="java">import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

String html = "<div class=\"classname\">Data to be scraped</div>";
Document doc = Jsoup.parse(html);

boolean usesClass = doc.select("div.classname").hasAttr("class");
String text = doc.select("div.classname").text();
String link = doc.select("div.classname").attr("href");</code>

ログイン後にコピー

jsoup を使用すると、要素に特定のクラスがあるかどうかを簡単に確認したり、そのテキストコンテンツを取得したり、属性を取得したりできます。そうかもしれません。

以上がJava を使用して HTML ドキュメントからデータを抽出するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。