Rumah > Java > javaTutorial > teks badan

Bagaimana untuk mengekstrak data dari tapak web menggunakan Java dan Jsoup?

Linda Hamilton
Lepaskan: 2024-10-30 17:30:25
asal
236 orang telah melayarinya

How to Extract Data from Websites Using Java and Jsoup?

Mengekstrak Data Laman Web dengan Java

Untuk mendapatkan semula maklumat daripada tapak web ke dalam program Java anda, gunakan penghurai HTML seperti Jsoup. Pemilih CSS seperti jQuery Jsoup dan kelas boleh lelar yang mewakili senarai nod (Elemen) menjadikannya pilihan pilihan.

Proses:

  1. Tubuhkan Sambungan: Gunakan kaedah Jsoup.connect(url) untuk mewujudkan sambungan ke halaman web yang diingini.
  2. Dapatkan Halaman: Jalankan kaedah get() pada sambungan untuk mendapatkan dokumen HTML halaman.
  3. Hilangkan Dokumen: Gunakan kaedah pilih() Jsoup dengan pemilih CSS yang sesuai untuk mengekstrak data yang anda perlukan.

Contoh (mendapatkan semula soalan dan penjawab daripada Stack Overflow):

<code class="java">import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class WebsiteDataRetrieval {

    public static void main(String[] args) throws Exception {
        String url = "https://stackoverflow.com/questions/2835505";
        Document document = Jsoup.connect(url).get();

        // Extract the question
        String question = document.select("#question .post-text").text();
        System.out.println("Question: " + question);

        // Extract the answerers
        Elements answerers = document.select("#answers .user-details a");
        for (Element answerer : answerers) {
            System.out.println("Answerer: " + answerer.text());
        }
    }
}</code>
Salin selepas log masuk

Contoh ini mengeluarkan soalan dan senarai penjawab untuk soalan Stack Overflow yang ditentukan.

Menyelesaikan masalah the NoSuchMethodError:

Ralat yang anda hadapi dengan Jsoup berkaitan dengan isu dalam versi yang anda gunakan. Pastikan anda menggunakan versi terbaru Jsoup, kerana ia telah menyelesaikan isu ini. Selain itu, pastikan anda mempunyai perpustakaan Apache Commons dalam laluan kelas anda.

Atas ialah kandungan terperinci Bagaimana untuk mengekstrak data dari tapak web menggunakan Java dan Jsoup?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan