Rumah > Java > javaTutorial > teks badan

Bagaimanakah saya boleh mengekstrak data daripada dokumen HTML menggunakan Java?

Barbara Streisand
Lepaskan: 2024-10-25 02:11:29
asal
689 orang telah melayarinya

How can I extract data from HTML documents using Java?

Penghuraian HTML Java

Untuk mendapatkan data daripada tapak web, anda mesti memahami struktur dokumen HTML terlebih dahulu. Elemen HTML disusun menggunakan teg, yang menentukan jenis dan kandungan setiap elemen.

Sebagai contoh, HTML berikut mewakili teg div dengan kelas CSS tertentu:

<code class="html"><div class="classname"></div></code>
Salin selepas log masuk

Untuk mencari dan mendapatkan semula data daripada teg ini dalam Java, anda boleh menggunakan perpustakaan penghurai HTML Java. Satu pilihan ialah jsoup, yang membolehkan penghuraian HTML yang mudah menggunakan sintaks seperti jQuery:

<code class="java">import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

String html = "<div class=\"classname\">Data to be scraped</div>";
Document doc = Jsoup.parse(html);

boolean usesClass = doc.select("div.classname").hasAttr("class");
String text = doc.select("div.classname").text();
String link = doc.select("div.classname").attr("href");</code>
Salin selepas log masuk

Dengan jsoup, anda boleh menyemak dengan mudah sama ada elemen mempunyai kelas tertentu, mendapatkan semula kandungan teksnya atau mendapatkan sebarang atribut mungkin ada.

Atas ialah kandungan terperinci Bagaimanakah saya boleh mengekstrak data daripada dokumen HTML menggunakan Java?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan