Bagaimanakah saya boleh mengekstrak data daripada dokumen HTML menggunakan Java?-javaTutorial-php.cn

Bagaimanakah saya boleh mengekstrak data daripada dokumen HTML menggunakan Java?

Barbara Streisand

Lepaskan： 2024-10-25 02:11:29

asal

789 orang telah melayarinya

How can I extract data from HTML documents using Java?

Penghuraian HTML Java

Untuk mendapatkan data daripada tapak web, anda mesti memahami struktur dokumen HTML terlebih dahulu. Elemen HTML disusun menggunakan teg, yang menentukan jenis dan kandungan setiap elemen.

Sebagai contoh, HTML berikut mewakili teg div dengan kelas CSS tertentu:

<code class="html"><div class="classname"></div></code>

Salin selepas log masuk

Untuk mencari dan mendapatkan semula data daripada teg ini dalam Java, anda boleh menggunakan perpustakaan penghurai HTML Java. Satu pilihan ialah jsoup, yang membolehkan penghuraian HTML yang mudah menggunakan sintaks seperti jQuery:

<code class="java">import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

String html = "<div class=\"classname\">Data to be scraped</div>";
Document doc = Jsoup.parse(html);

boolean usesClass = doc.select("div.classname").hasAttr("class");
String text = doc.select("div.classname").text();
String link = doc.select("div.classname").attr("href");</code>

Salin selepas log masuk

Dengan jsoup, anda boleh menyemak dengan mudah sama ada elemen mempunyai kelas tertentu, mendapatkan semula kandungan teksnya atau mendapatkan sebarang atribut mungkin ada.

Atas ialah kandungan terperinci Bagaimanakah saya boleh mengekstrak data daripada dokumen HTML menggunakan Java?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!