Python3 爬蟲帶上 cookie-Python教學-PHP中文網

首頁

後端開發

Python教學

Python3 爬蟲帶上 cookie

Guanhui

Jul 28, 2020 pm 06:34 PM

cookie python3 爬蟲

Python3 爬蟲帶上 cookie

Cookie的英文原意是“點心”，它是在客戶端訪問Web伺服器時，伺服器在客戶端硬碟上存放的信息，好像是伺服器發送給客戶的“點心」。伺服器可以根據Cookie來追蹤客戶狀態，這對於需要區別客戶的場合（如電子商務）特別有用。

當客戶端首次要求存取伺服器時，伺服器先在客戶端存放包含該客戶的相關資訊的Cookie，以後客戶端每次要求存取伺服器時，都會在HTTP請求資料中包含Cookie，伺服器解析HTTP請求中的Cookie，就能因此獲得關於客戶的相關資訊。

下面我們就來看python3爬蟲帶上cookie的方法：

1、直接將Cookie寫在header頭部

# coding:utf-8
import requests
from bs4 import BeautifulSoup
cookie = &#39;&#39;&#39;cisession=19dfd70a27ec0eecf1fe3fc2e48b7f91c7c83c60;CNZZDATA1000201968=181584
6425-1478580135-https%253A%252F%252Fwww.baidu.com%252F%7C1483922031;Hm_lvt_f805f7762a9a2
37a0deac37015e9f6d9=1482722012,1483926313;Hm_lpvt_f805f7762a9a237a0deac37015e9f6d9=14839
26368&#39;&#39;&#39;
header = {
&#39;User-Agent&#39;: &#39;Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Geck
o) Chrome/53.0.2785.143 Safari/537.36&#39;,
&#39;Connection&#39;: &#39;keep-alive&#39;,
&#39;accept&#39;: &#39;text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8&#39;,
&#39;Cookie&#39;: cookie}
url = &#39;https://www.jb51.net/article/191947.htm&#39;
wbdata = requests.get(url,headers=header).text
soup = BeautifulSoup(wbdata,&#39;lxml&#39;)
print(soup)

登入後複製

2、使用requests插入Cookie

# coding:utf-8
import requests
from bs4 import BeautifulSoup
cookie = {
"cisession":"19dfd70a27ec0eecf1fe3fc2e48b7f91c7c83c60",
"CNZZDATA100020196":"1815846425-1478580135-https%253A%252F%252Fwww.baidu.com%252F%7C1483
922031",
"Hm_lvt_f805f7762a9a237a0deac37015e9f6d9":"1482722012,1483926313",
"Hm_lpvt_f805f7762a9a237a0deac37015e9f6d9":"1483926368"
}
url = &#39;https://www.jb51.net/article/191947.htm&#39;
wbdata = requests.get(url,cookies=cookie).text
soup = BeautifulSoup(wbdata,&#39;lxml&#39;)
print(soup)

登入後複製

實例擴充：

使用cookie登入哈工大ACM網站

取得網站登入位址

##http:// acm.hit.edu.cn/hoj/system/login

查看要傳送的post資料

user和password

Code:

#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
__author__ = &#39;pi&#39;
__email__ = &#39;pipisorry@126.com&#39;

"""
import urllib.request, urllib.parse, urllib.error
import http.cookiejar

LOGIN_URL = &#39;http://acm.hit.edu.cn/hoj/system/login&#39;
values = {&#39;user&#39;: &#39;******&#39;, &#39;password&#39;: &#39;******&#39;} # , &#39;submit&#39; : &#39;Login&#39;
postdata = urllib.parse.urlencode(values).encode()
user_agent = r&#39;Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36&#39;
headers = {&#39;User-Agent&#39;: user_agent, &#39;Connection&#39;: &#39;keep-alive&#39;}

cookie_filename = &#39;cookie.txt&#39;
cookie = http.cookiejar.MozillaCookieJar(cookie_filename)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)

request = urllib.request.Request(LOGIN_URL, postdata, headers)
try:
  response = opener.open(request)
  page = response.read().decode()
  # print(page)
except urllib.error.URLError as e:
  print(e.code, &#39;:&#39;, e.reason)

cookie.save(ignore_discard=True, ignore_expires=True) # 保存cookie到cookie.txt中
print(cookie)
for item in cookie:
  print(&#39;Name = &#39; + item.name)
  print(&#39;Value = &#39; + item.value)

get_url = &#39;http://acm.hit.edu.cn/hoj/problem/solution/?problem=1&#39; # 利用cookie请求訪问还有一个网址
get_request = urllib.request.Request(get_url, headers=headers)
get_response = opener.open(get_request)
print(get_response.read().decode())
# print(&#39;You have not solved this problem&#39; in get_response.read().decode())

登入後複製

推薦教學：《

Python教程》

以上是Python3 爬蟲帶上 cookie的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

AI Hentai Generator

免費產生 AI 無盡。

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

gmail信箱登陸入口在哪裡

7541

CakePHP 教程

1381

steam的賬戶名稱是什麼格式

win11激活密鑰永久

NYT連接提示和答案

Related knowledge

cookie存在哪裡 Dec 20, 2023 pm 03:07 PM

Cookie通常儲存在瀏覽器的Cookie資料夾中的，瀏覽器中的Cookie檔案通常以二進位或SQLite格式存儲，如果直接開啟Cookie文件，可能會看到一些亂碼或無法讀取的內容，因此最好使用瀏覽器提供的Cookie管理介面來檢視和管理Cookie。

電腦上的cookie在哪裡 Dec 22, 2023 pm 03:46 PM

電腦上的Cookie儲存在瀏覽器的特定位置，具體位置取決於使用的瀏覽器和作業系統：1、Google Chrome，儲存在C:\Users\YourUsername\AppData\Local\Google\Chrome\User Data\Default \Cookies中等等。

python爬蟲要學多久 Oct 25, 2023 am 09:44 AM

學習Python爬蟲的時間因人而異，取決於個人的學習能力、學習方法、學習時間和經驗等因素。學習Python爬蟲不僅是學習技術本身，還需要具備良好的資訊蒐集能力、問題解決能力和團隊協作能力。透過不斷學習和實踐，您將逐漸成長為優秀的Python爬蟲開發者。

手機cookie在哪裡 Dec 22, 2023 pm 03:40 PM

手機上的Cookie儲存在行動裝置的瀏覽器應用程式中：1、在iOS裝置上，Cookie儲存在Safari瀏覽器的Settings -> Safari -> Advanced -> Website Data中；2、在Android裝置上，Cookie儲存在Chrome瀏覽器的Settings -> Site settings -> Cookies中等等。

Cookie工作原理是什麼 Sep 20, 2023 pm 05:57 PM

Cookie運作方式涉及到伺服器發送Cookie、瀏覽器儲存Cookie以及瀏覽器對Cookie的處理和儲存。詳細介紹：1、伺服器發送Cookie，伺服器會傳送一個包含Cookie的HTTP回應標頭給瀏覽器。這個Cookie包含了一些訊息，例如使用者的身份認證、偏好設定或購物車內容等，瀏覽器接收到這個Cookie後，會將它儲存在使用者的電腦上；2、瀏覽器儲存Cookie等等。

瀏覽器cookie的儲存位置詳解 Jan 19, 2024 am 09:15 AM

隨著網路的普及，我們使用瀏覽器進行上網已經成為一種生活方式。在日常使用瀏覽器過程中，我們常會遇到需要輸入帳號密碼的情況，如網購、社交、郵件等。這些資訊需要瀏覽器記錄下來，以便下次造訪時不需要再次輸入，這時候Cookie就派上了用場。什麼是Cookie？ Cookie是指由伺服器端發送到使用者瀏覽器上並儲存在本地的一種小型資料文件，它包含了一些網站的使用者行為

清除cookie有什麼影響嗎 Sep 20, 2023 pm 06:01 PM

清除cookie產生的影響有重置個人化設定和偏好、影響廣告體驗、破壞登入狀態和記住密碼功能。詳細介紹：1、重置個人化設定和偏好，如果清除了cookie，購物車將被重置為空，需要重新添加商品，同樣清除cookie還會導致在社群媒體平台上的登入狀態遺失，需要重新輸入使用者名稱和密碼；2、影響廣告體驗，如果清除了cookie，網站將無法了解我們的興趣和偏好，會顯示無關的廣告等等。

cookie洩漏有什麼危害 Sep 20, 2023 pm 05:53 PM

Cookie洩漏的危害有導致個人識別資訊被竊、個人線上行為被追蹤、帳戶被竊等。詳細介紹：1、個人識別資訊被盜竊，例如姓名、電子郵件地址、電話號碼等，這些資訊可能被不法分子用於進行身份盜竊、欺詐等違法行為；2、個人在線行為被追踪，通過分析cookie中的數據，不法分子可以了解用戶的瀏覽歷史、購物偏好、興趣愛好等；3、帳戶被盜，繞過登入驗證，直接存取用戶的帳號等等。

See all articles

Python3 爬蟲帶上 cookie

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題