爬蟲能取得什麼樣的資料和具體的解析方式

爱喝马黛茶的安东尼
發布: 2019-06-05 13:12:32
轉載
4867 人瀏覽過

隨著網路的快速發展,越來越多的數據充斥著這個時代。而取得和處理資料就成為我們生活中不可或缺的部分,爬蟲也是應運而生。

眾多語言都能進行爬蟲,但基於python的爬蟲顯得更加簡潔,方便。 爬蟲也成了python語言中不可或缺的一部分。 那我們透過爬蟲可以獲得什麼樣的資料呢?又有什麼樣的解析方式呢?

在上一篇文章跟大家介紹的是爬蟲基本流程Request和Response的介紹這篇帶給大家的是爬蟲可以取得什麼樣的資料和它的具體解析方式。

爬蟲能取得什麼樣的資料和具體的解析方式


能抓到什麼樣的資料?

網頁文字:如HTML 文檔,Ajax載入的Json格式文字等;

圖片,影片等:取得到的是二進位文件,儲存為圖片或影片格式;

其他只要能請求到的,都能取得。

示範

import requests
 
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
resp = requests.get('http://www.baidu.com/img/baidu_jgylogo3.gif',headers=headers)
print(resp.content) # 二进制文件使用content
# 保存图片
with open('logo.gif','wb') as f:
    f.write(resp.content)
    print('Ok')
登入後複製

   

成功運作就可以看到列印出來的圖片的二進位數據,可儲存成功後列印的OK ,這時候我們打開資料夾就可以看到下載下來的圖片了。這幾行程式碼就簡單的示範了爬蟲保存檔案的過程。



解析方式有哪些?

直接處理,例如簡單的頁面文檔,只要去除一些空格的資料;

Json解析,處理Ajax載入的頁面;

正規表示式;

#BeautifulSoup函式庫;

##PyQuery;

XPath。


總結

## 看到這裡,大家是不是已經對爬蟲的基本運作方式有了清楚的認識了。當然,羅馬並不是一天建成的,只要累積了足夠的經驗,大家一定能成為爬蟲大神的。相信大家把我分享的相關資料看完,一定會成功的。

以上是爬蟲能取得什麼樣的資料和具體的解析方式的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:csdn.net
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板
關於我們 免責聲明 Sitemap
PHP中文網:公益線上PHP培訓,幫助PHP學習者快速成長!