Cookies in Jsoup für Web Scraping setzen
Um effektiv Informationen von einer Website zu extrahieren, die eine Authentifizierung erfordert, ist es wichtig zu verstehen, wie man Cookies verwaltet und Sitzungen aufrechterhalten. In dieser Hinsicht ist Jsoup zwar eine leistungsstarke Bibliothek für die HTML-Analyse, unterstützt jedoch nicht nativ die Verarbeitung von Cookies. Es ist jedoch möglich, Cookies aus Jsoup-Antworten zu extrahieren und sie in nachfolgenden Anfragen manuell festzulegen.
Cookies aus Jsoup-Antworten extrahieren
Nachdem Sie sich erfolgreich bei einer Website angemeldet haben Sie können das Sitzungscookie erhalten, das zur Aufrechterhaltung der Sitzung verwendet wird:
<code class="java">Connection.Response res = Jsoup.connect("http://www.example.com/login.php") .data("username", "myUsername", "password", "myPassword") .method(Method.POST) .execute(); Document doc = res.parse(); String sessionId = res.cookie("SESSIONID"); // Adjust the cookie name according to your website's implementation</code>
Cookies in nachfolgenden Anfragen setzen
Sobald Sie das Sitzungscookie extrahiert haben, können Sie dies tun Senden Sie es zusammen mit Ihren nachfolgenden Anfragen zum Zugriff auf andere Seiten der Website:
<code class="java">Document doc2 = Jsoup.connect("http://www.example.com/otherPage") .cookie("SESSIONID", sessionId) .get();</code>
Durch die ordnungsgemäße Verwaltung von Cookies in Jsoup können Sie Sitzungen erfolgreich einrichten und Informationen von Websites entfernen, selbst wenn diese eine Authentifizierung erfordern.
Das obige ist der detaillierte Inhalt vonWie verwaltet man Cookies und verwaltet Sitzungen in Jsoup für Web Scraping?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!