Rumah > Java > javaTutorial > Mengapa Program Java Saya Mendapat Ralat Terlarang 403 Apabila Mengikis Hasil Carian Google Walaupun Penyemak Imbas Saya Tidak?

Mengapa Program Java Saya Mendapat Ralat Terlarang 403 Apabila Mengikis Hasil Carian Google Walaupun Penyemak Imbas Saya Tidak?

DDD
Lepaskan: 2024-12-11 19:33:11
asal
400 orang telah melayarinya

Why Does My Java Program Get a 403 Forbidden Error When Scraping Google Search Results While My Browser Doesn't?

Program Java Menerima 403 Ralat Terlarang Semasa Pelayar Web Berjaya

Masalah:

A Java program yang direka untuk mendapatkan kiraan hasil untuk pertanyaan carian Google yang diberikan mengembalikan 403 Ralat terlarang, sementara pertanyaan yang sama menghasilkan keputusan dalam pelayar web. Coretan kod:

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URL;

public class DataGetter {

    public static void main(String[] args) throws IOException {
        getResultAmount("test");
    }

    private static int getResultAmount(String query) throws IOException {
        BufferedReader r = new BufferedReader(new InputStreamReader(new URL("https://www.google.com/search?q=" + query).openConnection()
                .getInputStream()));
        String line;
        String src = "";
        while ((line = r.readLine()) != null) {
            src += line;
        }
        System.out.println(src);
        return 1;
    }

}
Salin selepas log masuk

Ralat:

Exception in thread "main" java.io.IOException: Server returned HTTP response code: 403 for URL: https://www.google.com/search?q=test
    at sun.net.www.protocol.http.HttpURLConnection.getInputStream(Unknown Source)
    at sun.net.www.protocol.https.HttpsURLConnectionImpl.getInputStream(Unknown Source)
    at DataGetter.getResultAmount(DataGetter.java:15)
    at DataGetter.main(DataGetter.java:10)
Salin selepas log masuk

Penyelesaian:

Isu timbul kerana kelas URLConnection Java tidak memalsukan ejen pengguna sebenar secara lalai. Mengubah suai kod untuk menetapkan pengepala ejen pengguna menyelesaikan masalah ini:

URLConnection connection = new URL("https://www.google.com/search?q=" + query).openConnection();
connection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.95 Safari/537.11");
connection.connect();

BufferedReader r = new BufferedReader(new InputStreamReader(connection.getInputStream(), Charset.forName("UTF-8")));
Salin selepas log masuk

Selain itu, pengendalian SSL adalah telus, seperti yang ditunjukkan oleh surih tindanan pengecualian.

Pertimbangan Selanjutnya:

Mendapatkan semula kiraan keputusan melibatkan langkah selanjutnya, termasuk memalsukan penyemak imbas dengan mengambil kuki dan menghuraikan pautan token ubah hala:

String cookie = connection.getHeaderField("Set-Cookie").split(";")[0];
Pattern pattern = Pattern.compile("content=\\"0;url=(.*?)\\"");
Matcher m = pattern.matcher(response);
if (m.find()) {
    String url = m.group(1);
    connection = new URL(url).openConnection();
    connection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.95 Safari/537.11");
    connection.setRequestProperty("Cookie", cookie);
    connection.connect();
    r = new BufferedReader(new InputStreamReader(connection.getInputStream(), Charset.forName("UTF-8")));
    sb = new StringBuilder();
    while ((line = r.readLine()) != null) {
        sb.append(line);
    }
    response = sb.toString();
    pattern = Pattern.compile("<div>
Salin selepas log masuk

Melaksanakan kod penuh ini menghasilkan hasil sebanyak 2930000000L.

Atas ialah kandungan terperinci Mengapa Program Java Saya Mendapat Ralat Terlarang 403 Apabila Mengikis Hasil Carian Google Walaupun Penyemak Imbas Saya Tidak?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan