Die Kundenverlustprognose des Telekommunikationsunternehmens
Datenquelle:
Kaggle Telecom Kundenverlustdatensatz
GitHub -Code -Bibliothek:
Telco -Kunde Churn -github
Übersicht über das Projekt
Dieses Projekt verwendet maschinelles Lerntechnologie, um den Verlust von Kunden in Telekommunikationsunternehmen vorherzusagen. Das Hauptziel ist es, ein Modell zu identifizieren, das Kunden dazu veranlassen kann, den Service zu stornieren, und es dem Unternehmen ermöglicht, aktive Kundenbindungstrategien zu implementieren, bevor der Kunden den Service stoppt.
Das Projekt konzentriert sich auf den Rückrufratesindikator.
Explorationsdatenanalyse (EDA)
Im EDA -Prozess haben wir das Datenkonzentrationsmodell untersucht, um Faktoren im Zusammenhang mit dem Kundenverlust zu verstehen. Die Hauptentdeckung umfasst:
monatlicher Vertrag und langfristiger Vertrag: Die Möglichkeit, den monatlichen Vertragskunden zu verlieren, ist wahrscheinlicher, dass langfristige Verträge für die Verbesserung der Kundenbindung förderlicher sein können.
Value -Added -Service:
Die Kundenverlust -Rate des Abonnierens von Wert -added -Diensten (z. B. Online -Sicherheit oder technischen Support) ist häufig niedrig.
Kundennutzungszeit und monatliche Gebühren: - Kunden mit längerer Nutzung zeigen eine höhere Loyalität;
Löschen Sie die Spalte TotalCarges:
Da sich die Spalte Total -Lader mit der Höhe der Verwendungszeit bezieht, kann sie die Stabilität des Modells beeinflussen, also löschen Sie es. -
technische Auswahl -
Warum den SVM -Algorithmus wählen?
- Die Gründe für die Auswahl der Support Vector Machine (SVM) sind wie folgt:
Umgang mit der Effizienz kleiner Datensätze:
Für Datensätze mit etwa 7.000 Zeilen kann SVM komplexe Modi ohne Anpassung wirksam erfassen.
Flexible Kernfunktionsoptionen: Durch Kombination linearer Kern- und RBF -Kerne kann SVM Linearität und nichtlineare Beziehungen durch GridSearchCV identifizieren.
Binärklassifizierung:
SVM ist für solche doppelten Probleme sehr geeignet. Ziel ist es, den Kundenverlust vorherzusagen (ja oder nicht).
Vorbereitungsschritte:
- minmaxscaler: Modelle wie SVM sind empfindlich gegenüber Skalenunterschieden. Anwendung zur Ausstrahlung numerischer Variablen zwischen 0 und 1.
Code (OneHoTenCoder): - Die Klassifizierungsvariablen in virtuelle Variablen konvertieren. Dies stellt sicher, dass die Kategorie in dem Format, das von einem Modell verstanden werden kann, korrekt ausgedrückt wird.
Datensegmentierung und Überprüfung: -
Datensätze sind in 70% Trainingssätze und 30% Testsätze unterteilt.
Verwenden Sie eine Verifizierung von 50 % Rabatt, um die Stabilität der Ergebnisse sicherzustellen.
maschinelles Lernprozess -
Die Schritte sind wie folgt:
- Datensatzabteilung: getrennt aufgrund von Variablen (Verlust) und unabhängigen Variablen, um die korrekte Datensegmentierung von Trainingssätzen und Testsätzen sicherzustellen.
SVMs Super -Reses -Anpassung: - optimiert mit GridSearchCV zur Optimierung, Anpassung:
<:> C:
Regularisierungsparameter, steuern Sie das Gleichgewicht zwischen den Rändern und Fehlern. -
Kernfunktion: Linearer Kern und RBF -Kern bewerten.
-
Modellbewertungsindex:
Verwenden Sie das folgende Indikator -Bewertungsmodell:
Genauigkeitsrate: - Der Prozentsatz der richtigen Vorhersage.
Rückrufrate:
Der Anteil des Kundenverlusts (echte Beispiele). -
Genauigkeit: Prozentsatz des Verlustkunden, der korrekt erkannt wird.
- F1 -Punktzahl: Die Konformität der Genauigkeit und der Rückrufrate.
ROC AUC: - Modellierungsindikatoren für verschiedene Kategorien von Funktionen.
-
Ergebnisse
-
Ergebnisanalyse:
Obwohl die Genauigkeit sehr hoch ist, liegt der Schwerpunkt auf der Rückrufrate und erreicht 56%. Dies bedeutet, die meisten Kunden zu identifizieren, die möglicherweise verloren gehen, um positive Interventionsmaßnahmen zu ergreifen.
In der Zukunft die Verbesserungsrichtung
指标 |
值 |
准确率 |
80.81% |
召回率 |
56.09% |
精确率 |
74.35% |
F1 分数 |
63.95% |
ROC AUC |
85.42% |
Integrierte externe Daten:
Verwenden Sie das Feedback der Kundenzufriedenheit (z. B. NPs oder Umfrage -Antwort) Rich Dataset.
einschließlich wirtschaftlicher oder regionaler Indikatoren, um bestimmte Modi zu identifizieren.
Versuchen Sie andere Modelle:
testen xgboost oder lightGBM und andere Modelle, die eine komplexe Interaktion gut bewältigen können.
- Implementierung der Bedeutung von Merkmalen zur Optimierung der variablen Auswahl.
- Automatisierung:
-
Entwickeln Sie einen realen Zeitprozess und verwenden Sie das Datenaktualisierungsmodell mit regulärem Update.
Integrieren Sie das Modell in das CRM -System, um automatisierte Kundenreservierungsmaßnahmen zu erreichen. -
Kundenunterteilung: -
- Der Schwerpunkt der Reservierungsarbeit des Kunden konzentriert sich auf das Marktsegment für Kunden mit hohem Wert oder hoher Risk.
Entwerfen Sie personalisierte Kundenbetragungsstrategien nach den Merkmalen des Marktes.
-
eda.ipynb:
Datenanalyse und Hauptmeinung untersuchen. -
pre_processing.py: Daten vor -prozessing und konversionsskript.
- ml_application.py:
Training, Überprüfung und Ergebnisse aus dem maschinellen Lernen. -
config_template.py:
Umgebungsvariable (Datensatzpfad) Vorlage.
Kontaktinformationen:
Wenn Sie Fragen oder Kooperationsmöglichkeiten haben, wenden Sie sich jederzeit an LinkedIn.
Das obige ist der detaillierte Inhalt vonChurn Prediction - Telekommunikationsunternehmen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!