如何使用Scrapy抓取JD商家的商品數據-Python教學-PHP中文網

如何使用Scrapy抓取JD商家的商品數據

PHPz

發布： 2023-06-23 08:01:23

原創

1856 人瀏覽過

如何使用Scrapy抓取JD商家的商品資料

Scrapy是一個功能強大的Python網路爬蟲框架，它可以讓我們簡單方便地編寫程式碼，從而抓取網頁資料。本文將介紹如何使用Scrapy抓取JD商家的商品資料。

準備工作

在開始編寫程式碼之前，我們需要進行一些準備工作。

1.安裝Scrapy

我們需要在本地安裝Scrapy，如果你還沒有安裝Scrapy，可以在命令列中輸入以下命令：

pip install Scrapy

登入後複製

2.建立Scrapy專案

開啟終端，輸入以下指令：

scrapy startproject JDspider

登入後複製

這行指令會在目前資料夾中建立一個名為JDspider的Scrapy專案。

3.創建Spider

在Scrapy中，Spider是抓取資料的核心元件。我們需要建立一個Spider來取得JD商家的商品資料。在命令列中輸入以下指令：

cd JDspider
scrapy genspider JD jd.com

登入後複製

這裡我們使用scrapy genspider指令來產生一個名為JD的Spider，並使用jd.com作為它的起始URL。產生的程式碼位於JDspider/spiders/JD.py檔案中，現在我們需要編輯這個檔案來完成爬蟲。

分析目標網站

在編寫程式碼之前，我們需要先進行目標網站的分析。我們以 https://mall.jd.com/index-1000000127.html 為例。

開啟Chrome瀏覽器，按下F12鍵開啟開發者工具，然後點選Network標籤。輸入目標網站的URL後，我們可以看到目標網站的請求和回應訊息。

從中我們可以發現，它使用了AJAX技術來載入商品清單資料。在XMLHttpRequest選項卡中，我們可以看到該請求的URL並且它傳回了JSON格式的資料。

我們可以直接訪問這個URL來取得商品資訊。

取得商品資料

我們現在已經知道如何取得商品訊息，我們可以在Spider中加入程式碼來完成這個任務。

先開啟JDspider/spiders/JD.py文件，找到Spider類別的定義。我們需要修改這個類，定義它的名稱、網域名稱和初始URL。

class JdSpider(scrapy.Spider):
    name = "JD"
    allowed_domains = ["jd.com"]
    start_urls = [
        "https://pro.jd.com/mall/active/3W9j276jGAAFpgx5vds5msKg82gX/index.html"
    ]

登入後複製

開始抓取資料。在Scrapy中，我們需要使用parse()方法來取得網頁資料。我們使用json模組來解析傳回的JSON數據，提取需要的資訊。在這裡，我們取得了商品的標題、價格、地址和數量資訊。

    def parse(self, response):
        products = json.loads(response.body)['data']['productList']
        for product in products:
            title = product['name']
            price = product['pricer']
            address = product['storeName']
            count = product['totalSellCount']
            yield {
                'title': title,
                'price': price,
                'address': address,
                'count': count,
            }

登入後複製

現在我們已經完成了資料抓取。我們可以運行這個Spider並將結果輸出到檔案中。在終端機中輸入以下命令即可開始執行Spider：