Web スクレイピング用に Jsoup に Cookie を設定する
認証が必要な Web サイトから情報を効果的に収集するには、Cookie の管理方法を理解することが不可欠ですそしてセッションを維持します。この点に関して、Jsoup は HTML 解析用の強力なライブラリですが、Cookie の処理をネイティブにサポートしていません。ただし、Jsoup 応答から Cookie を抽出し、後続のリクエストに手動で設定することは可能です。
Jsoup 応答からの Cookie の抽出
Web サイトに正常にログインすると、セッションを維持するために使用されるセッション Cookie を取得できます。
<code class="java">Connection.Response res = Jsoup.connect("http://www.example.com/login.php") .data("username", "myUsername", "password", "myPassword") .method(Method.POST) .execute(); Document doc = res.parse(); String sessionId = res.cookie("SESSIONID"); // Adjust the cookie name according to your website's implementation</code>
後続のリクエストでの Cookie の設定
セッション Cookie を抽出したら、次のことができます。 Web サイト上の他のページにアクセスするための後続のリクエストと一緒に送信します。
<code class="java">Document doc2 = Jsoup.connect("http://www.example.com/otherPage") .cookie("SESSIONID", sessionId) .get();</code>
Jsoup で Cookie を適切に管理することで、認証が必要な場合でもセッションを正常に確立し、Web サイトから情報を取得できます。
以上がWeb スクレイピングのために Jsoup で Cookie を管理し、セッションを維持する方法は?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。