目前在學習一些爬蟲的知識,對於一些複雜的網站使用selenium進行爬取。
碰到一個問題,我需要爬取的工單網站(不知道密碼)需要先透過登入一個鑑權系統,然後鑑權系統頁面點擊其中的工單系統連接,就會自動免登入跳轉到工單系統網站,這種系統的資料我該如何使用爬蟲進行抓取?
以下是鑑權系統selenium拿到關於工單系統的html
<a href="/link-test001" target="_blank" title="工单系统" rel="link-test001" data="1" datasrc="工单系统|||/files/link/test001.gif|||new|||/link-test001">
<img src="/files/link/test001.gif" width="25" height="25" alt="工单系统" align="absmiddle"><span>工单系统</span>
</a>
用firefox的擴充selenium ide錄製一遍操作。
然後匯出為python檔案。
改改運作就可以了。
建議你去讀讀蟲師寫的書。
例如使用requests函式庫作為爬蟲的話,先建立session(),A登錄,B是跳轉的頁面即可。
創建的T就代表儲存的cookie,會一直保留