電気通信会社の顧客損失予測
データソース:
Kaggle Telecom Customer Loss Data Set
githubコードライブラリ:
Telco Customer Churn -Github
プロジェクトの概要
このプロジェクトは、機械学習技術を使用して、通信会社の顧客の損失を予測しています。主な目標は、顧客がサービスをキャンセルできるようにする可能性のあるモデルを特定し、顧客がサービスを停止する前にアクティブな顧客維持戦略を実装できるようにすることです。
プロジェクトは、リコールレートの指標に焦点を当てています。
探索的データ分析(EDA)
毎月の契約と長期契約:
月額契約の顧客を失う可能性が高くなります。これは、長期契約が顧客ロイヤルティの改善をより助長する可能性があることを示しています。
値 - 添付サービス:
サブスクライティング価値サービス(オンラインセキュリティやテクニカルサポートなど)の顧客損失率はしばしば低いです。
顧客の使用時間と毎月の料金:
使用が長い顧客は、より高いロイヤルティを示しています。 -
Totalcharges列を削除します:Totalcharges列は使用時間の高さに関連しているため、モデルの安定性に影響を与える可能性があるため、削除します。
-
技術選択
-
なぜSVMアルゴリズムを選択するのですか?
サポートベクターマシン(SVM)を選択する理由は次のとおりです。
-
小型データセットの効率の処理:約7,000行のデータセットの場合、SVMはフィッティングなしで複雑なモードを効果的にキャプチャできます。
柔軟な核機能オプション:
線形核とRBFの核を組み合わせることにより、SVMはGridSearchCVを介して直線性と非線形の関係を識別できます。
バイナリ分類:SVMは、このような二重の問題に非常に適しています。目標は、顧客の損失を予測することです(はいかどうか)。
プロセス前の手順:
minmaxscaler:
SVMのようなモデルは、スケールの違いに敏感です。 0〜1の間の数値変数を放射するためのアプリケーション。 -
コード(OneHotenCoder):分類変数を仮想変数に変換します。これにより、カテゴリがモデルで理解できる形式で正しく表現されることが保証されます。
-
データのセグメンテーションと検証:
-
データセットは、70%のトレーニングセットと30%のテストセットに分割されます。
検証を50%オフにして検証して、結果の安定性を確保します。
機械学習プロセス
- 手順は次のとおりです
- データセット分割:変数(損失)と独立変数が原因で分離され、トレーニングセットとテストセットの正しいデータセグメンテーションを確保します。
SVMのスーパーリューズ調整:- 最適化のためにgridsearchCVで最適化された、調整:
c:
正規化パラメーターは、マージンとエラーのバランスを制御します。 -
コア関数:線形核とRBF核を評価します。
-
モデル評価インデックス:
次のインジケーター評価モデルを使用してください:
精度速度:- 正しい予測の割合。
リコール率:
顧客の損失の割合(実際の例)。 -
正確性:正しく認識されている損失顧客の割合。
- f1スコア:精度とリコール率の適合性。
ROC AUC:- さまざまなカテゴリの機能のモデリングインジケーター。
-
results
-
結果分析:
精度は非常に高いですが、主な焦点はリコール率に56%に達することです。これは、肯定的な介入措置を講じるために、失われる可能性のあるほとんどの顧客を特定することを意味します。
将来、改善の方向
指标 |
值 |
准确率 |
80.81% |
召回率 |
56.09% |
精确率 |
74.35% |
F1 分数 |
63.95% |
ROC AUC |
85.42% |
統合外部データ:
顧客満足度フィードバック(NPや調査返信など)を使用してください。リッチデータセット。
特定のモードを特定するための経済的または地域的な指標を含む。
他のモデルを試してみてください:
XgboostまたはLightGBMおよび複雑な相互作用をうまく処理できる他のモデルをテストします。
可変選択を最適化するための特性の重要性の実装。
-
オートメーション:
-
リアルタイムプロセスを開発し、定期的な更新でデータ更新モデルを使用します。 -
モデルをCRMシステムに統合して、自動化された顧客予約措置を実現します。
-
カスタマーサブディビジョン:
- 顧客の予約作業の焦点は、価値の高いまたはリスクの高い顧客の市場セグメントに焦点を当てています。
- 市場の特徴に応じたパーソナライズされた顧客保持戦略を設計します。
-
プロジェクトファイル
pre_processing.py:- データ前処理と変換スクリプト。
ml_application.py:
機械学習トレーニング、検証、結果のエクスポート。 -
config_template.py:- 環境変数(データセットパス)テンプレート。
連絡先情報:
質問や協力の機会がある場合は、いつでもLinkedInに連絡してください。
以上が解約予測-Telco Companyの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。