Google 検索結果をスクレイピングすると Java プログラムで 403 Forbidden エラーが発生するのに、ブラウザでは発生しないのはなぜですか?-＆＃＆チュートリアル-php.cn

Google 検索結果をスクレイピングすると Java プログラムで 403 Forbidden エラーが発生するのに、ブラウザでは発生しないのはなぜですか?

DDD

リリース： 2024-12-11 19:33:11

オリジナル

521 人が閲覧しました

Why Does My Java Program Get a 403 Forbidden Error When Scraping Google Search Results While My Browser Doesn't?

Web ブラウザは正常に動作するものの、Java プログラムが 403 Forbidden エラーを受信しました

問題:

A Java特定の Google 検索クエリの結果数を取得するように設計されたプログラムは、 403 禁止エラー。Web ブラウザでは同じクエリで結果が得られます。コードスニペット:

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URL;

public class DataGetter {

    public static void main(String[] args) throws IOException {
        getResultAmount("test");
    }

    private static int getResultAmount(String query) throws IOException {
        BufferedReader r = new BufferedReader(new InputStreamReader(new URL("https://www.google.com/search?q=" + query).openConnection()
                .getInputStream()));
        String line;
        String src = "";
        while ((line = r.readLine()) != null) {
            src += line;
        }
        System.out.println(src);
        return 1;
    }

}

ログイン後にコピー

エラー:

Exception in thread "main" java.io.IOException: Server returned HTTP response code: 403 for URL: https://www.google.com/search?q=test
    at sun.net.www.protocol.http.HttpURLConnection.getInputStream(Unknown Source)
    at sun.net.www.protocol.https.HttpsURLConnectionImpl.getInputStream(Unknown Source)
    at DataGetter.getResultAmount(DataGetter.java:15)
    at DataGetter.main(DataGetter.java:10)

ログイン後にコピー

解決策:

この問題は、Java の URLConnection クラスが原因で発生します。デフォルトでは実際のユーザーエージェントを偽装しません。ユーザーエージェントヘッダーを設定するようにコードを変更すると、この問題が解決されます。

URLConnection connection = new URL("https://www.google.com/search?q=" + query).openConnection();
connection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.95 Safari/537.11");
connection.connect();

BufferedReader r = new BufferedReader(new InputStreamReader(connection.getInputStream(), Charset.forName("UTF-8")));

ログイン後にコピー

さらに、例外スタックトレースで示されているように、SSL 処理は透過的です。

さらなる考慮事項:

結果カウントの取得には、フェッチによるブラウザの偽装など、さらなる手順が含まれます。 Cookie とリダイレクトトークンリンクの解析:

String cookie = connection.getHeaderField("Set-Cookie").split(";")[0];
Pattern pattern = Pattern.compile("content=\\"0;url=(.*?)\\"");
Matcher m = pattern.matcher(response);
if (m.find()) {
    String url = m.group(1);
    connection = new URL(url).openConnection();
    connection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.95 Safari/537.11");
    connection.setRequestProperty("Cookie", cookie);
    connection.connect();
    r = new BufferedReader(new InputStreamReader(connection.getInputStream(), Charset.forName("UTF-8")));
    sb = new StringBuilder();
    while ((line = r.readLine()) != null) {
        sb.append(line);
    }
    response = sb.toString();
    pattern = Pattern.compile("<div>

ログイン後にコピー

この完全なコードを実行すると、結果は 2930000000L になります。

以上がGoogle 検索結果をスクレイピングすると Java プログラムで 403 Forbidden エラーが発生するのに、ブラウザでは発生しないのはなぜですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。