從數據到策略：統計數據如何推動值得信賴的行銷決策-Python教學-PHP中文網

統計是一個強大的工具，使我們能夠解決複雜的問題並回答第一次觀察資料或模式時出現的問題。一個例子是分析超市顧客的個性。諸如這個群體真的與其他群體不同嗎？到什麼程度呢？我應該更多地關注這個群體以改善他們的體驗和我的銷售嗎？ 他們是做出正確決策的關鍵。

雖然視覺化可以幫助我們快速理解數據，但它們並不總是 100% 可靠。我們可以觀察到各組之間有明顯差異，但這些差異可能不具有統計顯著性。

這就是統計數據發揮作用的地方：它不僅幫助我們更深入地分析數據，而且讓我們有信心驗證我們的假設。作為資料科學家或決策專業人士，我們必須意識到不正確的分析可能會導致錯誤的決策，從而導致時間和金錢的損失。因此，我們的結論必須有根據、有統計證據支持，這一點至關重要。

De Datos a Estrategias: Cómo la Estadística Puede Impulsar Decisiones Confiables en Marketing

當我們看到分析結果反映在公司內部的有效變革、客戶體驗的改善以及最終對銷售和營運的正面影響時，真正的滿意度就會出現。 參與這個過程的感覺真是難以置信！

為了幫助您發展這項技能，我們將在這篇文章中開發超市顧客的性格分析，我們將使用Kaggle 資料集客戶性格分析：https://www.kaggle.com /datasets/ imakash3011/客戶個性分析

在此分析中，我們將探索超市顧客的行為，目的是從數據中提取有價值的資訊。我們將尋求回答以下問題：

教育的總支出有顯著差異嗎？
兒童人數的總支出是否有顯著差異？
依婚姻狀況劃分的總支出有顯著差異嗎？

雖然這個分析可以進一步擴展，但我們將專注於回答這三個問題，因為它們提供了很強的解釋力。在整篇文章中，我們將向您展示如何解決這些問題，以及如何透過相同的方法回答更多問題。

在本文中，我們將探討統計分析，例如Kolmogorov-Smirnov 檢定、Levene 檢驗，以及如何知道何時應用ANOVA 或克魯斯卡爾-沃利斯。這些名字你可能會覺得陌生，但是不用擔心，我會用簡單的方式解釋它們，讓你輕鬆理解它們。

接下來，我將向您展示 Python 程式碼以及有效執行這些統計分析所需遵循的步驟。

1. 入門

我們匯入必要的 Python 函式庫。

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import os

登入後複製

現在我們可以選擇兩種方式上傳.csv文件，直接取得文件或我們可以在下載按鈕上取得kaggle連結。

#pip install kagglehub
import kagglehub

# Download latest version
path = kagglehub.dataset_download("imakash3011/customer-personality-analysis")

print("Path to dataset files:", path)

登入後複製

De Datos a Estrategias: Cómo la Estadística Puede Impulsar Decisiones Confiables en Marketing

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import os

登入後複製

#pip install kagglehub
import kagglehub

# Download latest version
path = kagglehub.dataset_download("imakash3011/customer-personality-analysis")

print("Path to dataset files:", path)

登入後複製

#Obtenemos el nombre del archivo
nombre_archivo = os.listdir(path)[0]
nombre_archivo

登入後複製

	ID	Year_Birth	Education	Marital_Status	Income	Kidhome	Teenhome	Dt_Customer	Recency	MntWines	MntFruits	MntMeatProducts	MntFishProducts	MntSweetProducts	MntGoldProds	NumDealsPurchases	NumWebPurchases	NumCatalogPurchases	NumStorePurchases	NumWebVisitsMonth	Z_CostContact	Z_Revenue	Response
0	5524	1957	Graduation	Single	58138.0	0	0	04-09-2012	58	635	88	546	172	88	88	3	8	10	4	7	3	11	1
1	2174	1954	Graduation	Single	46344.0	1	1	08-03-2014	38	11	1	6	2	1	6	2	1	1	2	5	3	11	0
2	4141	1965	Graduation	Together	71613.0	0	0	21-08-2013	26	426	49	127	111	21	42	1	8	2	10	4	3	11	0

為了更好地了解我們將分析的資料集，我將指出每列的含義。

列：

人：
- ID：客戶端的唯一識別碼
- Year_Birth： 客戶的出生年份。
- 教育： 客戶的教育程度。
- Marital_Status： 客戶的婚姻狀況
- 收入：客戶家庭的年收入
- Kidhome： 客戶家中的兒童數量
- 青少年之家： 客戶家中青少年的數量
- Dt_Customer:客戶在公司註冊日期
- 新近度： 自從顧客上次購買以來的天數。
- 投訴： 如果客戶在過去 2 年內投訴過，則為 1，否則為 0
產品：
- MntWines：過去 2 年在葡萄酒上花費的金額。
- MntFruits： 過去 2 年在水果上花費的金額。
- MntMeatProducts： 過去 2 年在肉類上的花費。
- MntFishProducts： 過去 2 年在魚上花費的金額。
- MntSweetProducts： 過去 2 年在糖果上花費的金額。
- MntGoldProds：過去 2 年在黃金上花費的金額。
促銷：
- NumDealsPurchases： 折扣購買數量。
- AcceptedCmp1： 如果客戶在第一個活動中接受了優惠，則為 1，否則為 0。
- AcceptedCmp2： 如果客戶在第二次活動中接受了優惠，則為 1，否則為 0。
- AcceptedCmp3： 如果客戶在第三次活動中接受了優惠，則為 1，否則為 0。
- AcceptedCmp4： 如果客戶在第四次活動中接受了優惠，則為 1，否則為 0。
- AcceptedCmp5： 如果客戶在第五次活動中接受了優惠，則為 1，否則為 0。
- 回應： 如果客戶在上次活動中接受了優惠，則為 1，否則為 0
地點：
- NumWebPurchases： 透過公司網站進行的購買數量。
- NumCatalogPurchases： 透過目錄進行的購買數量。
- NumStorePurchases： 直接在商店購買的數量。
- NumWebVisitsMonth： 上個月公司網站的造訪次數。

是的，有很多列，但這裡我們只使用其中的幾列，以免擴展太多，無論如何您都可以對其他列應用相同的步驟。

現在，我們將驗證我們沒有空資料

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import os

登入後複製

#pip install kagglehub
import kagglehub

# Download latest version
path = kagglehub.dataset_download("imakash3011/customer-personality-analysis")

print("Path to dataset files:", path)

登入後複製

我們可以注意到，收入列中有24 個空資料，但是此列不會用於此分析，因此我們不會對其執行任何操作，以防您想使用它，您必須驗證執行以下兩個選項之一：

如果缺失資料不佔總資料的 5% 以上，則對缺失資料進行插補（建議）。
刪除空資料。

2. 配置資料集進行分析

我們會保留我們感興趣的欄目，例如教育、子女、婚姻狀況、每個產品類別的支出金額等等。

#Obtenemos el nombre del archivo
nombre_archivo = os.listdir(path)[0]
nombre_archivo

登入後複製

我們透過新增所有產品類別的費用來計算總費用。

'marketing_campaign.csv'

登入後複製

以上是從數據到策略：統計數據如何推動值得信賴的行銷決策的詳細內容。更多資訊請關注PHP中文網其他相關文章！