Web スクレイピングのために Jsoup で Cookie を管理し、セッションを維持する方法は?

Mary-Kate Olsen
リリース: 2024-10-31 18:10:29
オリジナル
755 人が閲覧しました

How to Manage Cookies and Maintain Sessions in Jsoup for Web Scraping?

Web スクレイピング用に Jsoup に Cookie を設定する

認証が必要な Web サイトから情報を効果的に収集するには、Cookie の管理方法を理解することが不可欠ですそしてセッションを維持します。この点に関して、Jsoup は HTML 解析用の強力なライブラリですが、Cookie の処理を​​ネイティブにサポートしていません。ただし、Jsoup 応答から Cookie を抽出し、後続のリクエストに手動で設定することは可能です。

Jsoup 応答からの Cookie の抽出

Web サイトに正常にログインすると、セッションを維持するために使用されるセッション Cookie を取得できます。

<code class="java">Connection.Response res = Jsoup.connect("http://www.example.com/login.php")
    .data("username", "myUsername", "password", "myPassword")
    .method(Method.POST)
    .execute();

Document doc = res.parse();
String sessionId = res.cookie("SESSIONID"); // Adjust the cookie name according to your website's implementation</code>
ログイン後にコピー

後続のリクエストでの Cookie の設定

セッション Cookie を抽出したら、次のことができます。 Web サイト上の他のページにアクセスするための後続のリクエストと一緒に送信します。

<code class="java">Document doc2 = Jsoup.connect("http://www.example.com/otherPage")
    .cookie("SESSIONID", sessionId)
    .get();</code>
ログイン後にコピー

Jsoup で Cookie を適切に管理することで、認証が必要な場合でもセッションを正常に確立し、Web サイトから情報を取得できます。

以上がWeb スクレイピングのために Jsoup で Cookie を管理し、セッションを維持する方法は?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート
私たちについて 免責事項 Sitemap
PHP中国語ウェブサイト:福祉オンライン PHP トレーニング,PHP 学習者の迅速な成長を支援します!