用Python爬了4000多條淘寶商品數據,發現了這些規則! ! !
用 Python 爬取淘寶某商品的整個過程,並對商品資料進行了挖掘與分析,最終得出結論。
專案內容
#本案例選擇商品類別目:沙發。
數量:共 100 頁 4400 個商品。
篩選條件:天貓、銷售量從高到低、售價 500 元以上。
專案目的
對商品標題進行文字分析,詞雲視覺化
#不同關鍵字word 對應的sales 的統計分析
商品的價格分佈狀況分析
商品的銷售分佈狀況分析
不同價格區間的商品的平均銷售分佈
商品價格對銷售的影響分析
商品價格對銷售額的影響分析
不同省份或城市的商品數量分佈
不同省份的商品平均銷售分佈
註:本項目僅以以上幾項分析為例。
專案步驟
資料收集:Python 爬取淘寶網商品資料
對資料進行清洗與處理
文字分析:jieba 分詞、wordcloud 視覺化
資料長條圖視覺化:barh
資料直方圖視覺化:hist
資料散點圖視覺化:scatter
資料迴歸分析視覺化:regplot
工具&模組
工具:本案例程式碼編輯工具Anaconda 的Spyder。
模組:requests、retrying、missingno、jieba、matplotlib、wordcloud、imread、seaborn 等。
爬取資料
因為淘寶網是反爬蟲的,雖然使用多執行緒、修改headers 參數,但仍然不能保證每次100% 爬取,所以我增加了循環爬取,每次循環爬取未爬取成功的頁,直至所有頁爬取成功停止。
說明:淘寶商品頁為 JSON 格式,這裡使用正規表示式來解析。
程式碼如下:
資料清洗、處理
資料清洗、處理這個步驟也可以在Excel 完成,再讀入數據。
程式碼如下:
#說明:根據需求,本案例只取了item_loc,raw_title,view_price, view_sales 這4 列數據,主要對區域、標題、價格、銷售量進行分析。
程式碼如下:
#資料探勘與分析
對raw_title 欄位標題進行文字分析
使用結巴分詞器,安裝模組pip install jieba:
對title_s(list of list 格式)中的每個list 的元素(str)進行過濾,剔除不需要的詞語,即把停用詞表stopwords 中有的詞語都剔除掉:
#因為下面要統計每個詞語的個數,所以為了準確性,這裡對過濾後的資料title_clean 中的每個list 的元素進行去重,即每個標題被分割後的字詞唯一。
觀察 word_count 表中的字語,發現 jieba 預設的字典無法滿足需求。
有的字詞(如可拆洗、不可拆洗等)卻被cut,這裡根據需求對字典加入新詞(也可以直接在字典dict.txt 裡面增刪,然後載入修改過的dict. txt)。
詞雲視覺化需要安裝 wordcloud 模組。
安裝模組有兩種方法:
pip install wordcloud
#下載Packages 安裝:pip install 軟體包名稱
注意:要把下載的軟體套件放在Python 安裝路徑下。
程式碼如下:
#分析結論:
組合、整裝商品佔比很高。
從沙發材質看:布沙發佔比很高,比皮藝沙發多。
從沙發風格看:簡約風格最多,北歐風次之,其他風格排名依序是美式、中式、日式、法式等。
從戶型看:小戶型佔比最高、大小戶型次之,大戶型最少。
不同關鍵字word 對應的sales 總和的統計分析
說明:例如詞語“簡約”,則統計商品標題中含有“簡約”一詞的商品的銷量之和,即求出具有「簡約」風格的商品銷量總和。
程式碼如下:
對錶 df_word_sum 中的 word 和 w_s_sum 兩列資料進行視覺化。 (本例中取銷售排名前30 的字詞進行繪圖)
由圖表可知:
組合商品銷量最高。
從類別看:布沙發銷量很高,遠超過皮藝沙發。
從戶型看:小戶型沙發銷售量最高,大小戶型次之,大戶型銷售最少。
從風格看:簡約風銷量最高,北歐風次之,其他依序是中式、美式、日式等。
可拆洗、轉角類沙發銷售可觀,也是頗受消費者青睞的。
商品的價格分佈狀況分析
分析發現,有些數值太大,為了讓視覺化效果更直觀,這裡我們結合自身產品狀況,選擇價格小於 20000 的商品。
程式碼如下:
#由圖表可知:
商品數量隨著價格整體呈現下降階梯形勢,價格越高,在售的商品越少。
低價位商品居多,價格在 500-1500 之間的商品最多,1500-3000 之間的次之,價格 1 萬以上的商品較少。
價格 1 萬元以上的商品,在售商品數量差異不大。
商品的銷售分佈狀況分析
同樣,為了讓視覺化效果更直觀,這裡我們選擇銷售量大於100 的商品。
代碼如下:
由圖表及數據可知:
銷量100 以上的商品僅佔3.4% ,其中銷量100-200 之間的商品最多,200- 300 之間的次之。
銷售 100-500 之間,商品的數量隨著銷售量呈現下降趨勢,且趨勢陡峭,低銷售商品居多。
銷售 500 以上的商品很少。
不同價格區間的商品的平均銷售分佈
代碼如下:
由圖表可知:
價格在1331-1680 之間的商品平均銷量最高,951-1331 之間的次之,9,684 元以上的最低。
整體呈現先增後減的趨勢,但最高峰處於相對低價位階段。
說明廣大消費者對購買沙發的需求較多處於低價位階段,在 1,680 元以上價位越高,平均銷售量基本上是越少。
商品價格對銷售的影響分析
同上,為了讓視覺化效果更加直觀,這裡我們結合自身產品狀況,選擇價格小於 20000 的商品。
程式碼如下:
#由圖表可知:
整體趨勢:隨著商品價格增多,其銷量減少,商品價格對其銷售影響很大。
價格500-2500 之間的少數商品銷量衝的很高,價格2500-5000 之間的商品多數銷量偏低,少數相對較高,但價格5000 以上的商品銷量均很低,沒有銷量突出的商品。
商品價格對銷售的影響分析
程式碼如下:
由圖表可知:
整體趨勢:由線性迴歸擬合線可以看出,商品銷售隨著價格成長呈現上升趨勢。
多數商品的價格偏低,銷售量也偏低。
價格在0-20000 的商品只有少數銷售額較高,價格2-6 萬的商品只有3 個銷售額較高,價格6-10 萬的商品有1 個銷售額很高,而且是最大值。
不同省份的商品數量分佈
代碼如下:
#由圖表可知:
廣東的最多,上海次之,江蘇第三,尤其是廣東的數量遠超過江蘇、浙江、上海等地,說明在沙發這個子類目,廣東的店鋪占主導地位。
江浙滬等地的數量差異不大,基本上相當。
不同省份的商品平均銷售分佈
代碼如下:
熱力型地圖

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

PHP主要是過程式編程,但也支持面向對象編程(OOP);Python支持多種範式,包括OOP、函數式和過程式編程。 PHP適合web開發,Python適用於多種應用,如數據分析和機器學習。

PHP適合網頁開發和快速原型開發,Python適用於數據科學和機器學習。 1.PHP用於動態網頁開發,語法簡單,適合快速開發。 2.Python語法簡潔,適用於多領域,庫生態系統強大。

在 Sublime Text 中運行 Python 代碼,需先安裝 Python 插件,再創建 .py 文件並編寫代碼,最後按 Ctrl B 運行代碼,輸出會在控制台中顯示。

PHP起源於1994年,由RasmusLerdorf開發,最初用於跟踪網站訪問者,逐漸演變為服務器端腳本語言,廣泛應用於網頁開發。 Python由GuidovanRossum於1980年代末開發,1991年首次發布,強調代碼可讀性和簡潔性,適用於科學計算、數據分析等領域。

Python更適合初學者,學習曲線平緩,語法簡潔;JavaScript適合前端開發,學習曲線較陡,語法靈活。 1.Python語法直觀,適用於數據科學和後端開發。 2.JavaScript靈活,廣泛用於前端和服務器端編程。

Golang在性能和可擴展性方面優於Python。 1)Golang的編譯型特性和高效並發模型使其在高並發場景下表現出色。 2)Python作為解釋型語言,執行速度較慢,但通過工具如Cython可優化性能。

在 Visual Studio Code(VSCode)中編寫代碼簡單易行,只需安裝 VSCode、創建項目、選擇語言、創建文件、編寫代碼、保存並運行即可。 VSCode 的優點包括跨平台、免費開源、強大功能、擴展豐富,以及輕量快速。

在 Notepad 中運行 Python 代碼需要安裝 Python 可執行文件和 NppExec 插件。安裝 Python 並為其添加 PATH 後,在 NppExec 插件中配置命令為“python”、參數為“{CURRENT_DIRECTORY}{FILE_NAME}”,即可在 Notepad 中通過快捷鍵“F6”運行 Python 代碼。