データから意思決定まで: データ分析と機械学習がどのようにビジネスの成長を促進できるか-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

データから意思決定まで: データ分析と機械学習がどのようにビジネスの成長を促進できるか

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Aug 11, 2024 pm 12:47 PM

この記事では、貴重な洞察を得てビジネスの成長を促進するために、販売データセットを探索および分析します。私たちは、意味のある情報を抽出し、情報に基づいた意思決定を行うために、データの前処理から機械学習モデルのトレーニングまで、さまざまな手順を実行してきました。このドキュメントを通じて、販売実績を向上させ、主要な顧客セグメントを特定し、マーケティング戦略を最適化するための調査結果、方法論、推奨事項を提示することを目的としています。

データセットの概要

このデータセットには次の特徴があります:

ORDER_ID: 各注文の一意の識別子。
CUSTOMER_ID: 注文を行った顧客の識別子。
PRODUCT_ID: 注文内の製品の識別子。
ORDER_DATE: 注文が行われた日付。
数量: 注文内の製品の数量。
UNIT_PRICE: 注文内の製品の単価。
TOTAL_SALES: この注文の総売上高 (QUANTITY * UNIT_PRICE として計算)。
CUSTOMER_FEATURE_1、CUSTOMER_FEATURE_2: 顧客プロパティを表す合成特徴。
PRODUCT_FEATURE_1、PRODUCT_FEATURE_2: 製品プロパティを表す合成特徴。

From Data to Decisions: How Data Analysis and Machine Learning Can Drive Business Growth

学べること

この記事では、以下について説明します。

。データのクリーニングと前処理: データセットのクリーニング方法と欠損値の処理方法と、選択した方法の説明。
。探索的データ分析: 売上分布、機能間の関係、パターンや異常の特定に関する洞察。
。モデルの開発と評価: TOTAL_SALES を予測する機械学習モデルをトレーニングし、関連する指標でパフォーマンスを評価します。
。ビジネスインサイト: 販売実績の向上、マーケティング戦略の最適化、および最もパフォーマンスの高い製品カテゴリと顧客セグメントの特定のための重要な調査結果。

分析を詳しく見て、これらの洞察がどのようにビジネスの成長を促進できるかを見てみましょう。

。データのクリーニングと前処理

1.データセットの詳細: Null 値の検出

分析の精度を確保するために、まずデータセットを徹底的に調べて、欠損値または null 値のある列を特定しました。各列の NULL 値の数を数えて、欠損データの程度を評価しました。欠損値は分析の品質に大きな影響を与える可能性があるため、このステップは非常に重要です。

2.データの分類: カテゴリ列の識別

次に、データセット内のカテゴリ列を特定しました。通常、これらの列には、さまざまなカテゴリまたはラベルを表す離散値が含まれます。各カテゴリ列の一意の値の数を評価することで、存在するカテゴリの多様性について洞察が得られ、データ内の潜在的なグループ化パターンと関係性を理解するのに役立ちます。

3.データセットの概要と欠損データの処理

describe() 関数を利用して、データセットの数値列の簡潔な概要を取得しました。この関数は、数、平均、標準偏差、四分位数、最小値、最大値などの重要な統計プロパティを提供します。ヒストグラムと箱ひげ図の分析により、数値列が重大な歪度を示さないことが明らかになりました。したがって、欠損値を処理するために、欠損値をそれぞれの列の平均値で置き換えることにしました。このアプローチは、その後の分析のためにデータの整合性を維持するのに役立ちます。

From Data to Decisions: How Data Analysis and Machine Learning Can Drive Business Growth

4.カテゴリ列の変換: 数値表現の作成

機械学習アルゴリズム用のカテゴリデータを準備するために、ワンホットエンコーディングや get_dummies() 関数などの手法を採用しました。これらのメソッドは、バイナリ変数を作成することによってカテゴリ列を数値形式に変換し、アルゴリズムがデータを効果的に処理および分析できるようにします。

From Data to Decisions: How Data Analysis and Machine Learning Can Drive Business Growth

5.機能の選択: 不要な列の削除

最後に、「ORDER_DATE」列と「ORDER_ID」列を調べました。これらの列には行ごとに一意の値が含まれるため、機械学習モデルに意味のあるパターンや関係は提供されません。それらをモデルに含めても、ターゲット変数を予測するための貴重な情報には寄与しません。その結果、これらの列を ML モデリングに使用される機能セットから除外することにしました。これらの列を削除する前に、元のデータフレームのコピーを作成しました。このコピーは、特徴の関係の視覚化と分析に利用され、不要な列が削除された変更されたデータフレームは、予測パフォーマンスを向上させるためのモデルトレーニングに使用されます。

。探索的データ分析

このセクションでは、さまざまな機能と売上の関係を理解するために、データセットを詳しく調査します。当社の分析は、顧客セグメント、製品カテゴリー、季節的傾向に焦点を当て、販売実績を向上させるための洞察を明らかにします。

意味のあるパターンを明らかにするために、棒グラフ、折れ線グラフ、記述統計などのさまざまな視覚化手法を採用しました。この調査の目的は、主要な顧客セグメント、人気のある製品カテゴリ、および時間の経過に伴う販売行動の変化を特定することです。

探索的分析から得られた重要な発見は次のとおりです:

1.顧客セグメントの頻度

「Y」顧客セグメントが最も頻繁に出現し、「Z」と「X」がそれに続きました。各セグメントの注文件数は約 10,000 件異なりました。

From Data to Decisions: How Data Analysis and Machine Learning Can Drive Business Growth

2.製品カテゴリ頻度

「B」製品カテゴリの頻度が最も高く、頻度が比較的近い他のカテゴリ (「A」、「C」、「D」) よりも約 110,000 件多く発生しました。

From Data to Decisions: How Data Analysis and Machine Learning Can Drive Business Growth

3.製品カテゴリーと顧客層の組み合わせ頻度

「Y」顧客セグメントと「B」製品カテゴリの組み合わせが最も頻繁でした。

From Data to Decisions: How Data Analysis and Machine Learning Can Drive Business Growth

4.各商品の合計売上金額

製品 78 の総売上高は 12,533,460 で最高を記録し、製品 21 は 11,956,700 で最低でした。これは、さまざまな製品の総売上高が比較的近いことを示しています。

5.季節別、年別の注文商品数（棒グラフ）

冬の注文は他の季節に比べて著しく減少しました。さらに、2022 年と 2023 年の各季節の注文数は、2023 年の注文数が 2022 年よりも少ない冬を除いて、同様でした。

From Data to Decisions: How Data Analysis and Machine Learning Can Drive Business Growth

6.季節ごとの注文された製品の数 (折れ線グラフ)

冬の間に製品注文の全体的な減少が観察されました。 2023 年は、2022 年に比べて、特に冬場の注文が減少しました。

From Data to Decisions: How Data Analysis and Machine Learning Can Drive Business Growth

7.月別注文商品数

2月は最低の注文率を記録した。 2023年12月を除き、上半期は奇数月の注文が多く、下半期は偶数月の注文が多かった。ただし、2023年11月の注文量と一致した。

From Data to Decisions: How Data Analysis and Machine Learning Can Drive Business Growth

8.シーズン別総売上高

2022 年と 2023 年の両方の冬月は、他の季節に比べて総売上高が減少しました。さらに、2023 年の冬の総売上高は、2022 年の冬よりもわずかに減少しました。

From Data to Decisions: How Data Analysis and Machine Learning Can Drive Business Growth

これらの探索的分析は、販売と顧客の行動のダイナミクスに関する貴重な洞察を提供します。これらのパターンを理解することで、情報に基づいた意思決定を行い、販売実績を最適化し、収益増加を促進するための戦略を立てることができます。

。モデルの開発と評価

このセクションでは、総売上高を予測するために機械学習モデルをトレーニングおよび評価するプロセスについて詳しく説明します。次の手順は、私たちのアプローチの概要を示しています:

1.データの前処理

まず、データセットのクリーニングと準備、欠損値の処理、カテゴリ変数のエンコードから始めました。この準備は、データセットがモデリングに適していることを確認するために非常に重要でした。

データの分割: 前処理されたデータをトレーニングセットとテストセットに分割し、トレーニングに 70%、テストに 30% を割り当てました。この分割は、目に見えないデータに対するモデルのパフォーマンスを評価するのに役立ち、一般化する能力の信頼できる評価を保証します。

当初は、より堅牢な評価のために k 分割相互検証を使用することを目的としていましたが、メモリの制限と、MLP、RBF、XGBoost などの特定のモデルの複雑さにより、トレーニングとテストの分割方法を使用することになりました。その単純さにもかかわらず、この方法はモデルのパフォーマンスを評価するための実行可能な代替手段を提供します。

2.モデルの選択

販売データセットの複雑さと問題の性質に基づいて、次の機械学習アルゴリズムを選択しました。

MLP (多層パーセプトロン): データ内の非線形相互作用や隠れたパターンをキャプチャするのに適しており、MLP はさまざまな顧客セグメント、製品カテゴリー、季節性の複雑さを効果的に処理できます。パターン。
XGBoost: 過学習に対する堅牢性と構造化データの処理能力で知られる XGBoost は、機能の重要性を特定し、売上に影響を与える要因を理解するのに役立ちます。
ランダムフォレスト: アンサンブルアプローチにより、ランダムフォレストは高次元データを適切に管理し、過剰適合のリスクを軽減し、ノイズの多いデータであっても安定した予測を提供します。
勾配ブースティング: 弱い学習器を順番に組み合わせることで、勾配ブースティングは複雑な特徴関係を捕捉し、モデルのパフォーマンスを反復的に向上させます。

3.モデルのトレーニング

選択された各モデルは、.fit() メソッドでトレーニングデータセットを使用してトレーニングされました。

4.モデルの評価

いくつかの指標を使用してトレーニングされたモデルを評価しました。

平均二乗誤差 (MSE): 予測値と実際の値の間の二乗差の平均を測定します。 MSE が低いほど、精度が高いことを示します。
平均絶対誤差 (MAE): 予測値と実際の値の間の絶対差の平均を計算し、誤差の平均の大きさを反映します。 MAE が低いほど、パフォーマンスが優れていることも示します。
R-squared Score: モデルによって説明されるターゲット変数 (TOTAL_SALES) の分散の割合を表します。 R 二乗スコアが 1 に近いほど、適合度が高いことを示します。

結果の解釈:

MLP (多層パーセプトロン): 非常に低い MSE と MAE を達成し、R 二乗スコアは 1 に近く、TOTAL_SALES の予測において優れたパフォーマンスを示しています。
XGBoost: 比較的低い MSE 値と MAE 値、高い R 二乗スコアでも良好なパフォーマンスを示し、予測値と実際の値の間に強い相関があることが示されています。
ランダムフォレスト: すべてのモデルの中で最も低い MSE と MAE と高い R 二乗スコアを実現し、TOTAL_SALES の予測が最も正確になります。
勾配ブースティング: 他のモデルと比較して MSE と MAE が高かったにもかかわらず、高い R 二乗スコアで予測と実際の値の間に強い相関関係があることが証明されました。

要約すると、ランダムフォレストモデルが最も優れたパフォーマンスを発揮し、MSE と MAE が最も低く、R 二乗スコアが最も高いことがわかりました。

From Data to Decisions: How Data Analysis and Machine Learning Can Drive Business Growth

5.ハイパーパラメータ調整

モデルのパフォーマンスをさらに最適化するために、グリッド検索やランダム検索などの手法を使用してハイパーパラメーター調整を実行しました。

6.予測

トレーニングされたモデルは、.predict() メソッドによる新しいデータの予測に使用されました。

7.モデルのデプロイメント

実際の使用を容易にするために、最高のパフォーマンスのモデルを運用環境にデプロイしました。

8.モデルの監視とメンテナンス

モデルのパフォーマンスを継続的に監視することが不可欠です。長期にわたって精度を維持するために、必要に応じてモデルを更新します。

9.解釈と分析

最後に、実用的な洞察を取得し、情報に基づいたビジネス上の意思決定を行うために、モデルの結果を分析しました。

この包括的なアプローチにより、売上を効果的に予測し、戦略的な意思決定をサポートできる堅牢で正確なモデルを確実に開発できます。

。ビジネスに関する洞察

当社のデータ分析により、売上の成長を促進し、ビジネス戦略を最適化できるいくつかの重要な洞察が明らかになりました。

1.ターゲットを絞ったマーケティング

「Y」顧客セグメントは、「Z」および「X」と比較して高い購入頻度を示しました。これを活用するには、セグメント「Y」向けに特別に設計されたターゲットを絞ったマーケティングキャンペーンを実施することをお勧めします。このアプローチにより、この潜在的な顧客グループをさらに引き込み、売上を伸ばすことができます。

2.製品プロモーション