Penghuraian HTML untuk Pengikisan Web dalam Java
Dalam bidang pembangunan perisian, ia menjadi perlu untuk mengekstrak maklumat berharga daripada tapak web untuk pelbagai tujuan . Proses mengekstrak data daripada sumber dalam talian ini biasanya dikenali sebagai pengikisan web. Pengaturcara Java mempunyai alat serba boleh yang boleh digunakan untuk tugas ini: penghurai HTML.
Satu penghurai HTML yang sangat disyorkan untuk Java ialah Jsoup. Ia cemerlang kerana pemilih CSS seperti jQuery yang mesra pengguna dan kelas Elemennya yang fleksibel, yang membolehkan lelaran yang mudah.
Bermula dengan Jsoup untuk Mengikis Web
Jom menyelidiki contoh mudah untuk menggambarkan pengikisan web dengan Jsoup:
<code class="java">import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class Test { public static void main(String[] args) throws Exception { String url = "https://stackoverflow.com/questions/2835505"; Document document = Jsoup.connect(url).get(); String question = document.select("#question .post-text").text(); System.out.println("Question: " + question); Elements answerers = document.select("#answers .user-details a"); for (Element answerer : answerers) { System.out.println("Answerer: " + answerer.text()); } } }</code>
Dalam contoh ini, kami menyambung kepada soalan Stack Overflow tertentu, menghuraikan kandungan HTML dan mengekstrak teks soalan serta nama penjawab.
Menyesuaikan Pengikisan Web Anda
Ekspresi Jsoup membolehkan pelbagai senario pengikisan web. Dengan memanfaatkan pemilih CSS, anda boleh menyasarkan elemen atau atribut tertentu pada halaman web. Sebagai contoh, jika anda ingin mendapatkan semula tajuk, harga dan perihalan halaman produk pada Best Buy, anda boleh menggunakan pemilih CSS berikut:
Atas ialah kandungan terperinci Bagaimanakah Jsoup Boleh Membuat Pengikisan Web di Java Mudah dan Cekap?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!