統計 は、複雑な問題に対処し、データやパターンを初めて観察するときに生じる疑問に答えることを可能にする強力なツールです。この例としては、スーパーマーケットでの顧客の性格分析が挙げられます。 このグループは他のグループとは本当に違うの?どこまで?彼らのエクスペリエンスと売上を向上させるために、このグループにもっと焦点を当てるべきでしょうか? 彼らは適切な決定を下すための鍵です。
視覚化はデータを迅速に理解するのに役立ちますが、常に 100% 信頼できるわけではありません。グループ間の明らかな違いは観察できましたが、それらの違いは統計的に有意ではない可能性があります。
ここで統計が役に立ちます。統計は、データをより深く分析するのに役立つだけでなく、仮説を検証する自信を与えてくれます。データサイエンティストまたは意思決定の専門家として、私たちは間違った分析が間違った決定につながり、時間とお金の損失につながる可能性があることを認識する必要があります。したがって、統計的証拠によって裏付けられた十分な根拠のある結論が重要です。
真の満足は、分析の結果が社内の効果的な変化、顧客エクスペリエンスの向上、そして最終的には販売と業務へのプラスの影響に反映されているのを見るときに得られます。 そのプロセスに参加できたことは信じられないほどの気分です!
この記事でスーパーマーケットの顧客の性格分析で開発するこのスキルを開発するのに役立つように、Kaggle データセット 顧客の性格分析 を使用します: https://www.kaggle.com/datasets / imakash3011/顧客性格分析
この分析では、データから貴重な情報を抽出することを目的として、スーパーマーケットの顧客の行動を調査します。私たちは次の質問に答えようとします:
この分析はさらに拡張することもできますが、説明力が大きいため、これら 3 つの質問に答えることに焦点を当てます。この記事全体を通じて、これらの質問にどのように対処できるか、また、同じアプローチを通じてさらに多くの質問にどのように回答できるかを示します。
この記事では、Kolmogorov-Smirnov テスト、Levene テストなどの統計分析と、いつ ANOVA を適用するかを判断する方法について説明します。 クラスカル-ウォリス。これらの名前は聞きなれないかもしれませんが、複雑にせずに理解できるように簡単に説明しますので、ご安心ください。
必要な Python ライブラリをインポートします。
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np import os
これで、.csv ファイルをアップロードする 2 つの方法を選択できるようになりました。ファイルを直接取得するか、ダウンロード ボタンから直接 kaggle リンクを取得することができます。
#pip install kagglehub import kagglehub # Download latest version path = kagglehub.dataset_download("imakash3011/customer-personality-analysis") print("Path to dataset files:", path)
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np import os
#pip install kagglehub import kagglehub # Download latest version path = kagglehub.dataset_download("imakash3011/customer-personality-analysis") print("Path to dataset files:", path)
#Obtenemos el nombre del archivo nombre_archivo = os.listdir(path)[0] nombre_archivo
ID | Year_Birth | Education | Marital_Status | Income | Kidhome | Teenhome | Dt_Customer | Recency | MntWines | MntFruits | MntMeatProducts | MntFishProducts | MntSweetProducts | MntGoldProds | NumDealsPurchases | NumWebPurchases | NumCatalogPurchases | NumStorePurchases | NumWebVisitsMonth | AcceptedCmp3 | AcceptedCmp4 | AcceptedCmp5 | AcceptedCmp1 | AcceptedCmp2 | Complain | Z_CostContact | Z_Revenue | Response | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 5524 | 1957 | Graduation | Single | 58138.0 | 0 | 0 | 04-09-2012 | 58 | 635 | 88 | 546 | 172 | 88 | 88 | 3 | 8 | 10 | 4 | 7 | 0 | 0 | 0 | 0 | 0 | 0 | 3 | 11 | 1 |
1 | 2174 | 1954 | Graduation | Single | 46344.0 | 1 | 1 | 08-03-2014 | 38 | 11 | 1 | 6 | 2 | 1 | 6 | 2 | 1 | 1 | 2 | 5 | 0 | 0 | 0 | 0 | 0 | 0 | 3 | 11 | 0 |
2 | 4141 | 1965 | Graduation | Together | 71613.0 | 0 | 0 | 21-08-2013 | 26 | 426 | 49 | 127 | 111 | 21 | 42 | 1 | 8 | 2 | 10 | 4 | 0 | 0 | 0 | 0 | 0 | 0 | 3 | 11 | 0 |
分析するデータセットをよりよく理解するために、各列の意味を示します。
列:
人:
製品:
プロモーション:
場所:
はい、多くの列がありますが、ここでは拡張しすぎないようにいくつかの列のみを使用します。いずれの場合も、他の列にも同じ手順を適用できます。
次に、null データがないことを確認します
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np import os
#pip install kagglehub import kagglehub # Download latest version path = kagglehub.dataset_download("imakash3011/customer-personality-analysis") print("Path to dataset files:", path)
収入列に 24 個の null データ があることがわかりますが、この列はこの分析では使用されないため、使用したい場合に備えて何も行いません。次の 2 つのオプションのいずれかを実行することを確認する必要があります:
教育、子供、婚姻状況、製品カテゴリごとの支出額など、関心のある列は保持されます。
#Obtenemos el nombre del archivo nombre_archivo = os.listdir(path)[0] nombre_archivo
すべての製品カテゴリの費用を加算して、合計費用を計算します。
'marketing_campaign.csv'
以上がデータから戦略へ: 統計が信頼できるマーケティング上の意思決定をどのように推進できるかの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。