統計是一個強大的工具,使我們能夠解決複雜的問題並回答第一次觀察資料或模式時出現的問題。一個例子是分析超市顧客的個性。諸如這個群體真的與其他群體不同嗎?到什麼程度呢?我應該更多地關注這個群體以改善他們的體驗和我的銷售嗎? 他們是做出正確決策的關鍵。
雖然視覺化可以幫助我們快速理解數據,但它們並不總是 100% 可靠。我們可以觀察到各組之間有明顯差異,但這些差異可能不具有統計顯著性。
這就是統計數據發揮作用的地方:它不僅幫助我們更深入地分析數據,而且讓我們有信心驗證我們的假設。作為資料科學家或決策專業人士,我們必須意識到不正確的分析可能會導致錯誤的決策,從而導致時間和金錢的損失。因此,我們的結論必須有根據、有統計證據支持,這一點至關重要。
當我們看到分析結果反映在公司內部的有效變革、客戶體驗的改善以及最終對銷售和營運的正面影響時,真正的滿意度就會出現。 參與這個過程的感覺真是難以置信!
為了幫助您發展這項技能,我們將在這篇文章中開發超市顧客的性格分析,我們將使用Kaggle 資料集客戶性格分析:https://www.kaggle.com /datasets/ imakash3011/客戶個性分析
在此分析中,我們將探索超市顧客的行為,目的是從數據中提取有價值的資訊。我們將尋求回答以下問題:
雖然這個分析可以進一步擴展,但我們將專注於回答這三個問題,因為它們提供了很強的解釋力。在整篇文章中,我們將向您展示如何解決這些問題,以及如何透過相同的方法回答更多問題。
在本文中,我們將探討統計分析,例如Kolmogorov-Smirnov 檢定、Levene 檢驗,以及如何知道何時應用ANOVA 或克魯斯卡爾-沃利斯。這些名字你可能會覺得陌生,但是不用擔心,我會用簡單的方式解釋它們,讓你輕鬆理解它們。
我們匯入必要的 Python 函式庫。
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np import os
現在我們可以選擇兩種方式上傳.csv文件,直接取得文件或我們可以在下載按鈕上取得kaggle連結。
#pip install kagglehub import kagglehub # Download latest version path = kagglehub.dataset_download("imakash3011/customer-personality-analysis") print("Path to dataset files:", path)
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np import os
#pip install kagglehub import kagglehub # Download latest version path = kagglehub.dataset_download("imakash3011/customer-personality-analysis") print("Path to dataset files:", path)
#Obtenemos el nombre del archivo nombre_archivo = os.listdir(path)[0] nombre_archivo
ID | Year_Birth | Education | Marital_Status | Income | Kidhome | Teenhome | Dt_Customer | Recency | MntWines | MntFruits | MntMeatProducts | MntFishProducts | MntSweetProducts | MntGoldProds | NumDealsPurchases | NumWebPurchases | NumCatalogPurchases | NumStorePurchases | NumWebVisitsMonth | AcceptedCmp3 | AcceptedCmp4 | AcceptedCmp5 | AcceptedCmp1 | AcceptedCmp2 | Complain | Z_CostContact | Z_Revenue | Response | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 5524 | 1957 | Graduation | Single | 58138.0 | 0 | 0 | 04-09-2012 | 58 | 635 | 88 | 546 | 172 | 88 | 88 | 3 | 8 | 10 | 4 | 7 | 0 | 0 | 0 | 0 | 0 | 0 | 3 | 11 | 1 |
1 | 2174 | 1954 | Graduation | Single | 46344.0 | 1 | 1 | 08-03-2014 | 38 | 11 | 1 | 6 | 2 | 1 | 6 | 2 | 1 | 1 | 2 | 5 | 0 | 0 | 0 | 0 | 0 | 0 | 3 | 11 | 0 |
2 | 4141 | 1965 | Graduation | Together | 71613.0 | 0 | 0 | 21-08-2013 | 26 | 426 | 49 | 127 | 111 | 21 | 42 | 1 | 8 | 2 | 10 | 4 | 0 | 0 | 0 | 0 | 0 | 0 | 3 | 11 | 0 |
為了更好地了解我們將分析的資料集,我將指出每列的含義。
列:
人:
產品:
促銷:
地點:
是的,有很多列,但這裡我們只使用其中的幾列,以免擴展太多,無論如何您都可以對其他列應用相同的步驟。
現在,我們將驗證我們沒有空資料
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np import os
#pip install kagglehub import kagglehub # Download latest version path = kagglehub.dataset_download("imakash3011/customer-personality-analysis") print("Path to dataset files:", path)
我們可以注意到,收入列中有24 個空資料,但是此列不會用於此分析,因此我們不會對其執行任何操作,以防您想使用它,您必須驗證執行以下兩個選項之一:
我們會保留我們感興趣的欄目,例如教育、子女、婚姻狀況、每個產品類別的支出金額等等。
#Obtenemos el nombre del archivo nombre_archivo = os.listdir(path)[0] nombre_archivo
我們透過新增所有產品類別的費用來計算總費用。
'marketing_campaign.csv'
以上是從數據到策略:統計數據如何推動值得信賴的行銷決策的詳細內容。更多資訊請關注PHP中文網其他相關文章!