Maison > Java > javaDidacticiel > le corps du texte

Comment gérer les demandes de publication et les cookies dans Jsoup pour le grattage de sites Web après la connexion ?

Barbara Streisand
Libérer: 2024-10-29 04:01:29
original
410 Les gens l'ont consulté

How to Handle Post Requests and Cookies in Jsoup for Website Scraping After Login?

Gestion des demandes de publication et des cookies dans jsoup

Lorsque vous essayez de gratter un site Web après vous être connecté, il est courant de rencontrer des problèmes dus au manque de cookies. Pour maintenir une session authentifiée, les sites Web définissent généralement des cookies lors de la connexion.

Dans jsoup, vous pouvez récupérer le cookie de session utilisé pour les demandes ultérieures en utilisant l'objet Connection.Response après avoir effectué une demande de connexion réussie :

<code class="java">Connection.Response res = Jsoup.connect("http://www.example.com/login.php")
    .data("username", "myUsername", "password", "myPassword")
    .method(Method.POST)
    .execute();</code>
Copier après la connexion

Une fois que vous avez la réponse, vous pouvez accéder au cookie de session, qui porte généralement un nom comme "SESSIONID":

<code class="java">String sessionId = res.cookie("SESSIONID");</code>
Copier après la connexion

Les demandes de page ultérieures doivent être effectuées avec le cookie de session pour maintenir le session :

<code class="java">Document doc2 = Jsoup.connect("http://www.example.com/otherPage")
    .cookie("SESSIONID", sessionId)
    .get();</code>
Copier après la connexion

En incorporant la gestion des cookies dans votre code jsoup, vous pouvez réussir à naviguer et à gratter les pages suivantes du site Web après vous être connecté.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal