Dengan pertumbuhan pesat maklumat Internet, semakin banyak aplikasi perlu mendapatkan data yang berkaitan daripada halaman Web. JSoup ialah penghurai HTML Java yang boleh mengekstrak dan memanipulasi data dengan mudah daripada halaman web. Dalam pembangunan API Java, JSoup ialah alat yang penting dan biasa digunakan. Artikel ini akan memperkenalkan cara menggunakan JSoup untuk mengikis web.
1. Pengenalan dan penggunaan asas JSoup
1 Pengenalan JSoup
JSoup ialah penghurai HTML Java, pembangun boleh memperkenalkannya ke dalam projek melalui Maven , cuma tambah kebergantungan berikut:
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.14.2</version> </dependency>
2. Penggunaan asas
Menggunakan JSoup memerlukan terlebih dahulu menghuraikan kandungan halaman HTML ke dalam objek Document
, dan kemudian menggunakan objek ini untuk mendapatkan kandungan dalam halaman pelbagai elemen. Berikut ialah contoh penggunaan asas JSoup:
String url = "https://www.baidu.com/"; Document document = Jsoup.connect(url).get(); // 通过 URL 加载页面 // 获取页面标题 String title = document.title(); // 获取页面所有超链接 Elements links = document.select("a[href]"); // 循环遍历页面中的所有链接 for(Element link: links){ String linkHref = link.attr("href"); String linkText = link.text(); }
2. Gunakan JSoup untuk merangkak Web
1 Dapatkan maklumat halaman melalui URL
Kaedah menggunakan JSoup<🎜. > Ya Dapatkan maklumat halaman melalui alamat URL yang ditentukan, seperti yang ditunjukkan di bawah: connect(url).get()
String url = "https://www.baidu.com/"; Document document = Jsoup.connect(url).get();
untuk mendapatkan dengan cepat elemen yang diperlukan. Berikut ialah contoh penggunaan JSoup untuk mendapatkan semua pautan: select()
Elements links = document.select("a[href]"); for(Element link: links){ String linkHref = link.attr("href"); String linkText = link.text(); System.out.println(linkHref + " , " + linkText); }
Elements inputs = document.select("input[class=s_ipt]");
Element input = document.select("input[type=text").first(); input.attr("oninput", "console.log('input value has changed')");
String url = "https://www.baidu.com/s"; String keyword = "Java"; Document document = Jsoup.connect(url) .data("wd", keyword) .post();
Atas ialah kandungan terperinci Menggunakan JSoup untuk mengikis Web dalam pembangunan API Java. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!