통신 회사의 고객 손실 예측
데이터 출처 :
Kaggle Telecom 고객 손실 데이터 세트
github 코드 라이브러리 :
통신 고객 이탈 -Github
프로젝트 개요
이 프로젝트는 기계 학습 기술을 사용하여 통신 회사의 고객 손실을 예측합니다. 주요 목표는 고객이 서비스를 취소 할 수있는 모델을 식별하여 고객이 서비스를 중단하기 전에 회사가 활성 고객 유지 전략을 구현할 수 있도록하는 것입니다.
프로젝트는 리콜 비율 지표에 중점을 둡니다. 일부 오해에 의해 비용이 증가하더라도 예방 보존 조치가 비즈니스에 더 유리하기 때문에 가능한 한 대부분의 손실 고객을 포착해야합니다.
탐색 데이터 분석 (EDA)
EDA 프로세스에서는 고객 손실과 관련된 요인을 이해하기 위해 데이터 집중 모델을 탐색했습니다. 주요 발견에는 다음이 포함됩니다.
월간 계약 및 장기 계약 : 월간 계약 고객을 잃을 가능성이 더 높으며, 이는 장기 계약이 고객 충성도 향상에 더 도움이 될 수 있음을 나타냅니다.
가치 -부드러운 서비스 : 가입 가치 -구독 서비스 (예 : 온라인 보안 또는 기술 지원)의 고객 손실률은 종종 낮습니다.
고객 사용 시간 및 월별 요금 : 사용이 더 긴 고객은 고객 손실과 관련하여 높은 충성도를 나타냅니다.
Total Charges 열을 삭제하십시오. Total Charges 열은 사용 시간의 높이와 관련되므로 모델의 안정성에 영향을 줄 수 있으므로 삭제하십시오.
기술 선택
왜 SVM 알고리즘을 선택합니까? <..>
지지 벡터 머신 (SVM)을 선택한 이유는 다음과 같습니다.
작은 데이터 세트의 효율성 처리 : 약 7,000 줄의 데이터 세트의 경우 SVM은 피팅없이 복잡한 모드를 효과적으로 캡처 할 수 있습니다.
유연한 핵 기능 옵션 : 선형 핵과 RBF 핵을 결합하여 SVM은 GridSearchCV를 통해 선형성 및 비선형 관계를 식별 할 수 있습니다.
이진 분류 : SVM은 이러한 이중 문제에 매우 적합하며 목표는 고객 손실을 예측하는 것입니다 (예 여부).
사전 처리 단계 :
minmaxscaler : SVM과 같은 모델은 스케일 차이에 민감합니다. 0과 1 사이의 숫자 변수를 방출하기위한 적용.
Code (OneHotencoder) : 분류 변수를 가상 변수로 변환합니다. 이를 통해 카테고리가 모델로 이해할 수있는 형식으로 올바르게 표현되도록합니다.
데이터 세분화 및 검증 :
데이터 세트는 70% 교육 세트와 30% 테스트 세트로 나뉩니다.
결과의 안정성을 확인하기 위해 50 % 할인 검증을 사용하십시오.
기계 학습 프로세스
단계는 다음과 같습니다
데이터 세트 부서 : 변수 (손실) 및 독립 변수로 인해 교육 세트 및 테스트 세트의 올바른 데이터 세분화를 보장합니다.
SVM의 슈퍼리스 조정 : 최적화, 조정을 위해 gridsearchcv로 최적화 :
<:> c : 정규화 매개 변수는 여백과 오류 사이의 균형을 제어합니다.
코어 함수 : 선형 핵 및 RBF 핵 평가.
모델 평가 지수 : 다음 지표 평가 모델 사용 :
정확도 속도 : 올바른 예측의 백분율.
리콜 비율 : 고객 손실 비율 (실제 예).
정확도 : 정확하게 인식 된 손실 고객의 비율.
f1 점수 : 정확도와 리콜 속도의 적합성.
roc auc :
다른 범주의 기능의 모델링 표시기.
결과
결과 분석 :
정확도는 매우 높지만 주요 초점은 리콜 속도에 56%에 도달하는 것입니다. 이는 긍정적 인 개입 조치를 취하기 위해 손실 될 수있는 대부분의 고객을 식별하는 것을 의미합니다.
미래에 개선 방향
통합 외부 데이터 :
고객 만족 피드백 (예 : NPS 또는 설문 조사 응답)을 사용하십시오.
특정 모드를 식별하기위한 경제 또는 지역 지표를 포함하여 .
다른 모델을 시도하십시오 :
XGBOOST 또는 LIGHTGBM 및 복잡한 상호 작용을 잘 처리 할 수있는 기타 모델을 테스트하십시오.
변수 선택을 최적화하기위한 특성의 중요성을 구현합니다.
자동화 :
실시간 프로세스를 개발하고 정기적 인 업데이트와 함께 데이터 업데이트 모델을 사용하십시오.
자동화 된 고객 예약 조치를 달성하기 위해 모델을 CRM 시스템에 통합합니다.
고객 세분 :
고객의 예약 작업의 초점은 높은 값 또는 높은 리스크 고객의 시장 부문에 중점을 둡니다.
시장의 특성에 따라 개인화 된 고객 유지 전략을 설계합니다.
指标
值
准确率
80.81%
召回率
56.09%
精确率
74.35%
F1 分数
63.95%
ROC AUC
85.42%
프로젝트 파일
eda.ipynb : 데이터 분석 및 주된 의견 탐색.
<re> pre_processing.py : </re> 로그인 후 복사
데이터 사전 처리 및 변환 스크립트.
ml_application.py :
기계 학습 교육, 검증 및 결과 수출.
config_template.py : 환경 변수 (데이터 세트 경로) 템플릿.
연락처 정보 :
질문이나 협력 기회가 있으면 언제든지 LinkedIn에 문의하십시오.
위 내용은 이탈 예측 - 통신 회사의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!