이탈 예측 - 통신 회사-파이썬 튜토리얼-php.cn

이탈 예측 - 통신 회사

Mary-Kate Olsen

풀어 주다： 2025-01-28 10:10:10

원래의

666명이 탐색했습니다.

통신 회사의 고객 손실 예측 Churn Prediction - Telco Company 데이터 출처 :

Kaggle Telecom 고객 손실 데이터 세트

github 코드 라이브러리 : 통신 고객 이탈 -Github

프로젝트 개요 이 프로젝트는 기계 학습 기술을 사용하여 통신 회사의 고객 손실을 예측합니다. 주요 목표는 고객이 서비스를 취소 할 수있는 모델을 식별하여 고객이 서비스를 중단하기 전에 회사가 활성 고객 유지 전략을 구현할 수 있도록하는 것입니다. 프로젝트는 리콜 비율 지표에 중점을 둡니다. 일부 오해에 의해 비용이 증가하더라도 예방 보존 조치가 비즈니스에 더 유리하기 때문에 가능한 한 대부분의 손실 고객을 포착해야합니다.

탐색 데이터 분석 (EDA) EDA 프로세스에서는 고객 손실과 관련된 요인을 이해하기 위해 데이터 집중 모델을 탐색했습니다. 주요 발견에는 다음이 포함됩니다.

월간 계약 및 장기 계약 :

월간 계약 고객을 잃을 가능성이 더 높으며, 이는 장기 계약이 고객 충성도 향상에 더 도움이 될 수 있음을 나타냅니다.

가치 -부드러운 서비스 : 가입 가치 -구독 서비스 (예 : 온라인 보안 또는 기술 지원)의 고객 손실률은 종종 낮습니다. 고객 사용 시간 및 월별 요금 : 사용이 더 긴 고객은 고객 손실과 관련하여 높은 충성도를 나타냅니다.

Total Charges 열을 삭제하십시오.

Total Charges 열은 사용 시간의 높이와 관련되므로 모델의 안정성에 영향을 줄 수 있으므로 삭제하십시오.

기술 선택 왜 SVM 알고리즘을 선택합니까? <..>

작은 데이터 세트의 효율성 처리 :

약 7,000 줄의 데이터 세트의 경우 SVM은 피팅없이 복잡한 모드를 효과적으로 캡처 할 수 있습니다.

유연한 핵 기능 옵션 :

선형 핵과 RBF 핵을 결합하여 SVM은 GridSearchCV를 통해 선형성 및 비선형 관계를 식별 할 수 있습니다.

이진 분류 : SVM은 이러한 이중 문제에 매우 적합하며 목표는 고객 손실을 예측하는 것입니다 (예 여부).

사전 처리 단계 : minmaxscaler : SVM과 같은 모델은 스케일 차이에 민감합니다. 0과 1 사이의 숫자 변수를 방출하기위한 적용.

Code (OneHotencoder) : 분류 변수를 가상 변수로 변환합니다. 이를 통해 카테고리가 모델로 이해할 수있는 형식으로 올바르게 표현되도록합니다.

데이터 세분화 및 검증 :

데이터 세트는 70% 교육 세트와 30% 테스트 세트로 나뉩니다. 결과의 안정성을 확인하기 위해 50 % 할인 검증을 사용하십시오.
기계 학습 프로세스 단계는 다음과 같습니다
데이터 세트 부서 : 변수 (손실) 및 독립 변수로 인해 교육 세트 및 테스트 세트의 올바른 데이터 세분화를 보장합니다.
~~SVM의 슈퍼리스 조정 : 최적화, 조정을 위해 gridsearchcv로 최적화 : <:> c : 정규화 매개 변수는 여백과 오류 사이의 균형을 제어합니다.~~
코어 함수 :
선형 핵 및 RBF 핵 평가.
모델 평가 지수 :
다음 지표 평가 모델 사용 : 정확도 속도 : 올바른 예측의 백분율. 리콜 비율 :
고객 손실 비율 (실제 예).
정확도 : 정확하게 인식 된 손실 고객의 비율. f1 점수 : 정확도와 리콜 속도의 적합성. roc auc :
다른 범주의 기능의 모델링 표시기.

결과

결과 분석 : 정확도는 매우 높지만 주요 초점은 리콜 속도에 56%에 도달하는 것입니다. 이는 긍정적 인 개입 조치를 취하기 위해 손실 될 수있는 대부분의 고객을 식별하는 것을 의미합니다.

미래에 개선 방향
통합 외부 데이터 :
고객 만족 피드백 (예 : NPS 또는 설문 조사 응답)을 사용하십시오. 특정 모드를 식별하기위한 경제 또는 지역 지표를 포함하여 .

다른 모델을 시도하십시오 : XGBOOST 또는 LIGHTGBM 및 복잡한 상호 작용을 잘 처리 할 수있는 기타 모델을 테스트하십시오.
변수 선택을 최적화하기위한 특성의 중요성을 구현합니다.
자동화 :
실시간 프로세스를 개발하고 정기적 인 업데이트와 함께 데이터 업데이트 모델을 사용하십시오.
자동화 된 고객 예약 조치를 달성하기 위해 모델을 CRM 시스템에 통합합니다.

고객 세분 : 고객의 예약 작업의 초점은 높은 값 또는 높은 리스크 고객의 시장 부문에 중점을 둡니다.
시장의 특성에 따라 개인화 된 고객 유지 전략을 설계합니다.

指标值

准确率 80.81%

召回率 56.09%

精确率 74.35%

F1 分数 63.95%

ROC AUC 85.42%

프로젝트 파일

eda.ipynb : 데이터 분석 및 주된 의견 탐색.
<re> pre_processing.py : </re>
로그인 후 복사
데이터 사전 처리 및 변환 스크립트.
ml_application.py :
기계 학습 교육, 검증 및 결과 수출.
config_template.py :
환경 변수 (데이터 세트 경로) 템플릿.
연락처 정보 :
질문이나 협력 기회가 있으면 언제든지 LinkedIn에 문의하십시오.