Rumah Java javaTutorial Menggunakan JSoup untuk mengikis Web dalam pembangunan API Java

Menggunakan JSoup untuk mengikis Web dalam pembangunan API Java

Jun 17, 2023 pm 11:49 PM
jsoup java api pengikisan web

Dengan pertumbuhan pesat maklumat Internet, semakin banyak aplikasi perlu mendapatkan data yang berkaitan daripada halaman Web. JSoup ialah penghurai HTML Java yang boleh mengekstrak dan memanipulasi data dengan mudah daripada halaman web. Dalam pembangunan API Java, JSoup ialah alat yang penting dan biasa digunakan. Artikel ini akan memperkenalkan cara menggunakan JSoup untuk mengikis web.

1. Pengenalan dan penggunaan asas JSoup

1 Pengenalan JSoup

JSoup ialah penghurai HTML Java, pembangun boleh memperkenalkannya ke dalam projek melalui Maven , cuma tambah kebergantungan berikut:

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.14.2</version>
</dependency>
Salin selepas log masuk

2. Penggunaan asas

Menggunakan JSoup memerlukan terlebih dahulu menghuraikan kandungan halaman HTML ke dalam objek Document, dan kemudian menggunakan objek ini untuk mendapatkan kandungan dalam halaman pelbagai elemen. Berikut ialah contoh penggunaan asas JSoup:

String url = "https://www.baidu.com/";
Document document = Jsoup.connect(url).get(); // 通过 URL 加载页面

// 获取页面标题
String title = document.title();

// 获取页面所有超链接
Elements links = document.select("a[href]");

// 循环遍历页面中的所有链接
for(Element link: links){
    String linkHref = link.attr("href");
    String linkText = link.text();
}
Salin selepas log masuk

2. Gunakan JSoup untuk merangkak Web

1 Dapatkan maklumat halaman melalui URL

Kaedah menggunakan JSoup<🎜. > Ya Dapatkan maklumat halaman melalui alamat URL yang ditentukan, seperti yang ditunjukkan di bawah: connect(url).get()

String url = "https://www.baidu.com/";
Document document = Jsoup.connect(url).get();
Salin selepas log masuk

2. Menghuraikan elemen HTML

Mengikut struktur halaman, gunakan kaedah

untuk mendapatkan dengan cepat elemen yang diperlukan. Berikut ialah contoh penggunaan JSoup untuk mendapatkan semua pautan: select()

Elements links = document.select("a[href]");

for(Element link: links){
    String linkHref = link.attr("href");
    String linkText = link.text();
    System.out.println(linkHref + " , " + linkText);
}
Salin selepas log masuk

    Penapisan
Menggunakan sintaks pemilih, anda boleh mendapatkan elemen dalam halaman yang memenuhi syarat yang ditetapkan. Sebagai contoh, gunakan kod berikut untuk mendapatkan semua elemen input dengan kelas "s_ipt":

Elements inputs = document.select("input[class=s_ipt]");
Salin selepas log masuk

Sintaks pemilih yang disokong juga termasuk: pemilih teg, pemilih kelas, pemilih ID, pemilih atribut dan pemilih pemilihan gabungan, pseudo- pemilih, dsb.

4. Pemprosesan acara

JSoup boleh mengendalikan acara pada halaman dengan mudah. Sebagai contoh, anda boleh menggunakan kod berikut untuk mendapatkan elemen input yang diperlukan dan mengikat pendengar acara kepadanya:

Element input = document.select("input[type=text").first();

input.attr("oninput", "console.log('input value has changed')");
Salin selepas log masuk

5 Serahkan borang

JSoup juga boleh membantu kami menyerahkan borang. Sebagai contoh, anda boleh menggunakan kod berikut untuk melengkapkan penyerahan ke kotak carian Baidu:

String url = "https://www.baidu.com/s";
String keyword = "Java";
Document document = Jsoup.connect(url)
                        .data("wd", keyword)
                        .post();
Salin selepas log masuk
3. Ringkasan

Artikel ini memperkenalkan cara menggunakan JSoup untuk merangkak web, dan penggunaan asas JSoup. Gunakan JSoup untuk mendapatkan elemen halaman, penapis, pemegang acara, serahkan borang, dsb. Sudah tentu, apabila menggunakan JSoup, anda perlu memberi perhatian untuk mematuhi undang-undang, peraturan dan etika yang berkaitan, dan anda tidak boleh mendapatkan maklumat orang lain dengan cara yang menyalahi undang-undang dan tatatertib.

Atas ialah kandungan terperinci Menggunakan JSoup untuk mengikis Web dalam pembangunan API Java. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Menggunakan Imgscalr untuk pemprosesan imej dalam pembangunan API Java Menggunakan Imgscalr untuk pemprosesan imej dalam pembangunan API Java Jun 18, 2023 am 08:40 AM

Menggunakan Imgscalr untuk pemprosesan imej dalam pembangunan API Java Dengan perkembangan Internet mudah alih dan populariti pengiklanan Internet, imej telah menjadi elemen yang amat diperlukan dalam banyak aplikasi. Sama ada ia memaparkan produk, membina kalangan sosial atau meningkatkan pengalaman pengguna, imej memainkan peranan penting. Dalam aplikasi, selalunya perlu untuk melakukan operasi seperti pemangkasan, penskalaan dan pemutaran imej, yang memerlukan penggunaan beberapa alat pemprosesan imej. Imgscalr ialah imej yang sangat biasa digunakan dalam pembangunan JavaAPI.

Apakah tapak web antara muka API percuma? Apakah tapak web antara muka API percuma? Jan 05, 2024 am 11:33 AM

Laman web antara muka api percuma: 1. UomgAPI: platform yang menyediakan perkhidmatan API percuma yang stabil dan pantas, dengan lebih daripada 100 antara muka API 2. api percuma: menyediakan pelbagai antara muka API percuma 3. API JSON: menyediakan antara muka API data percuma; . Platform Terbuka AutoNavi: Menyediakan antara muka API yang berkaitan dengan peta; 5. Pengecaman muka Muka++: Menyediakan antara muka API yang berkaitan dengan pengecaman muka: Menyediakan lebih seratus antara muka API percuma, sesuai untuk pelbagai keperluan sumber; 7. Data agregat, dsb.

Bagaimana untuk melaksanakan kod pengesahan imej dalam pembangunan API Java Bagaimana untuk melaksanakan kod pengesahan imej dalam pembangunan API Java Jun 18, 2023 am 09:22 AM

Dengan perkembangan pesat teknologi Internet, untuk memastikan keselamatan sistem, kod pengesahan telah menjadi bahagian penting dalam setiap sistem. Antaranya, kod pengesahan gambar digemari oleh pembangun kerana kemudahan penggunaan dan keselamatannya. Artikel ini akan memperkenalkan kaedah khusus untuk melaksanakan kod pengesahan imej dalam pembangunan JavaAPI. 1. Apakah itu kod pengesahan gambar? Kod pengesahan gambar ialah cara pengesahan mesin manusia melalui gambar. Ia biasanya terdiri daripada gabungan gambar rawak yang mengandungi nombor, huruf, simbol, dsb., yang meningkatkan keselamatan sistem. Prinsip kerjanya termasuk

Menggunakan GreenMail untuk ujian e-mel dalam pembangunan API Java Menggunakan GreenMail untuk ujian e-mel dalam pembangunan API Java Jun 18, 2023 pm 02:22 PM

Java API ialah bahasa pembangunan yang digunakan secara meluas untuk membangunkan aplikasi web, aplikasi desktop, aplikasi mudah alih, dsb. Dalam pembangunan API Java, ujian e-mel adalah penting kerana komunikasi e-mel adalah salah satu kaedah komunikasi utama dalam masyarakat moden. Oleh itu, pembangun perlu menggunakan beberapa alat untuk menguji sama ada e-mel mereka berfungsi dengan baik. Artikel ini akan memperkenalkan perisian sumber terbuka yang dipanggil GreenMail, yang boleh digunakan dalam pembangunan JavaAPI untuk ujian e-mel. hijau

Apakah protokol biasa untuk pengaturcaraan rangkaian Java? Apakah protokol biasa untuk pengaturcaraan rangkaian Java? Apr 15, 2024 am 11:33 AM

Protokol yang biasa digunakan dalam pengaturcaraan rangkaian Java termasuk: TCP/IP: digunakan untuk penghantaran data dan pengurusan sambungan yang boleh dipercayai. HTTP: digunakan untuk penghantaran data web. HTTPS: Versi HTTP selamat yang menggunakan penyulitan untuk menghantar data. UDP: Untuk pemindahan data yang cepat tetapi tidak stabil. JDBC: digunakan untuk berinteraksi dengan pangkalan data hubungan.

Apakah itu j2ee dan apakah teknologi yang disertakan Apakah itu j2ee dan apakah teknologi yang disertakan Apr 14, 2024 pm 09:06 PM

J2EE ialah platform Java yang direka untuk membangunkan aplikasi perusahaan dan termasuk teknologi berikut: Java Servlet dan JSPJava Enterprise Beans (EJB)Java Persistence API (JPA)Java API untuk XML Web Services (JAX-WS)JavaMailJava Message Service ( JMS)Java Transaction API (JTA) Penamaan Java dan Antara Muka Direktori (JNDI)

JAX-RS lwn. Spring MVC: Pertempuran antara gergasi RESTful JAX-RS lwn. Spring MVC: Pertempuran antara gergasi RESTful Feb 29, 2024 pm 05:16 PM

Pengenalan API RESTful telah menjadi sebahagian daripada aplikasi WEB moden. Mereka menyediakan pendekatan piawai untuk mencipta dan menggunakan perkhidmatan Web, dengan itu meningkatkan kemudahalihan, kebolehskalaan dan kemudahan penggunaan. Dalam ekosistem Java, JAX-RS dan springmvc ialah dua rangka kerja yang paling popular untuk membina API RESTful. Artikel ini akan melihat secara mendalam kedua-dua rangka kerja, membandingkan ciri, kelebihan dan keburukannya untuk membantu anda membuat keputusan termaklum. JAX-RS: JAX-RSAPI JAX-RS (JavaAPI untuk Perkhidmatan Web RESTful) ialah JAX-RSAPI standard yang dibangunkan oleh JavaEE untuk membangunkan REST

Menggunakan Jgroups untuk komunikasi teragih dalam pembangunan API Java Menggunakan Jgroups untuk komunikasi teragih dalam pembangunan API Java Jun 18, 2023 pm 11:04 PM

Menggunakan JGroups untuk komunikasi teragih dalam pembangunan JavaAPI Dengan perkembangan pesat Internet dan populariti pengkomputeran awan, sistem teragih telah menjadi salah satu trend penting dalam pembangunan Internet hari ini. Dalam sistem teragih, nod yang berbeza perlu berkomunikasi dan bekerjasama antara satu sama lain untuk mencapai ketersediaan tinggi, prestasi tinggi, berskala tinggi dan ciri-ciri lain sistem teragih. Komunikasi teragih adalah bahagian penting daripadanya. JGroups ialah perpustakaan Java yang menyokong kolaborasi multicast dan diedarkan Ia menyediakan satu siri

See all articles