Java を使用して HTML ドキュメントからデータを抽出するにはどうすればよいですか?

Barbara Streisand
リリース: 2024-10-25 02:11:29
オリジナル
603 人が閲覧しました

How can I extract data from HTML documents using Java?

Java HTML 解析

Web サイトからデータを取得するには、まず HTML ドキュメントの構造を理解する必要があります。 HTML 要素は、各要素のタイプとコンテンツを指定するタグを使用して編成されます。

たとえば、次の HTML は、特定の CSS クラスを持つ div タグを表します。

<code class="html"><div class="classname"></div></code>
ログイン後にコピー

Java でこのタグからデータを取得するには、Java HTML パーサー ライブラリを使用できます。 1 つのオプションは jsoup です。これにより、jQuery のような構文を使用した便利な HTML 解析が可能になります。

<code class="java">import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

String html = "<div class=\"classname\">Data to be scraped</div>";
Document doc = Jsoup.parse(html);

boolean usesClass = doc.select("div.classname").hasAttr("class");
String text = doc.select("div.classname").text();
String link = doc.select("div.classname").attr("href");</code>
ログイン後にコピー

jsoup を使用すると、要素に特定のクラスがあるかどうかを簡単に確認したり、そのテキスト コンテンツを取得したり、属性を取得したりできます。そうかもしれません。

以上がJava を使用して HTML ドキュメントからデータを抽出するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート
私たちについて 免責事項 Sitemap
PHP中国語ウェブサイト:福祉オンライン PHP トレーニング,PHP 学習者の迅速な成長を支援します!