Maison > Java > javaDidacticiel > Pourquoi est-ce que j'obtiens une erreur 403 Forbidden lors du Web Scraping avec Java ?

Pourquoi est-ce que j'obtiens une erreur 403 Forbidden lors du Web Scraping avec Java ?

Patricia Arquette
Libérer: 2024-12-15 14:19:20
original
667 Les gens l'ont consulté

Why Am I Getting a 403 Forbidden Error When Web Scraping with Java?

Comment résoudre les erreurs 403 interdites pour le scraping Web Java

Lors du scraping des résultats de recherche Google à l'aide de Java, vous pouvez rencontrer un « 403 interdit » erreur tandis que les navigateurs Web renvoient les résultats attendus. En effet, les sites Web, comme Google, mettent en œuvre des mesures anti-scraping pour empêcher l'accès automatisé sans un agent utilisateur approprié.

Pour surmonter ce problème, vous devez modifier votre programme Java pour inclure un en-tête d'agent utilisateur, simulant un demande du navigateur. Voici comment procéder :

  1. Importez les bibliothèques nécessaires :
import java.net.HttpURLConnection;
import java.net.URL;
import java.io.BufferedReader;
import java.io.InputStreamReader;
Copier après la connexion
  1. Établissez la connexion :
URLConnection connection = new URL("https://www.google.com/search?q=" + query).openConnection();
Copier après la connexion
  1. Définir l'agent utilisateur header :
connection.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.95 Safari/537.11");
Copier après la connexion
  1. Connectez-vous et récupérez les données :
connection.connect();
BufferedReader r = new BufferedReader(new InputStreamReader(connection.getInputStream(), Charset.forName("UTF-8")));
Copier après la connexion

Cette modification garantit que votre programme Java apparaît comme un navigateur légitime, vous permettant pour contourner l'erreur 403 Forbidden. Notez cependant que Google met constamment à jour ses mesures anti-scraping, vous devrez donc peut-être ajuster votre code si vous rencontrez des erreurs imprévues à l'avenir.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal