Java HTML 解析
Web サイトからデータを取得するには、まず HTML ドキュメントの構造を理解する必要があります。 HTML 要素は、各要素のタイプとコンテンツを指定するタグを使用して編成されます。
たとえば、次の HTML は、特定の CSS クラスを持つ div タグを表します。
<code class="html"><div class="classname"></div></code>
Java でこのタグからデータを取得するには、Java HTML パーサー ライブラリを使用できます。 1 つのオプションは jsoup です。これにより、jQuery のような構文を使用した便利な HTML 解析が可能になります。
<code class="java">import org.jsoup.Jsoup; import org.jsoup.nodes.Document; String html = "<div class=\"classname\">Data to be scraped</div>"; Document doc = Jsoup.parse(html); boolean usesClass = doc.select("div.classname").hasAttr("class"); String text = doc.select("div.classname").text(); String link = doc.select("div.classname").attr("href");</code>
jsoup を使用すると、要素に特定のクラスがあるかどうかを簡単に確認したり、そのテキスト コンテンツを取得したり、属性を取得したりできます。そうかもしれません。
以上がJava を使用して HTML ドキュメントからデータを抽出するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。