> 백엔드 개발 > 파이썬 튜토리얼 > 이탈 예측 - 통신 회사

이탈 예측 - 통신 회사

Mary-Kate Olsen
풀어 주다: 2025-01-28 10:10:10
원래의
605명이 탐색했습니다.

통신 회사의 고객 손실 예측 Churn Prediction - Telco Company 데이터 출처 :

Kaggle Telecom 고객 손실 데이터 세트

github 코드 라이브러리 : 통신 고객 이탈 -Github

프로젝트 개요 이 프로젝트는 기계 학습 기술을 사용하여 통신 회사의 고객 손실을 예측합니다. 주요 목표는 고객이 서비스를 취소 할 수있는 모델을 식별하여 고객이 서비스를 중단하기 전에 회사가 활성 고객 유지 전략을 구현할 수 있도록하는 것입니다. 프로젝트는 리콜 비율 지표에 중점을 둡니다. 일부 오해에 의해 비용이 증가하더라도 예방 보존 조치가 비즈니스에 더 유리하기 때문에 가능한 한 대부분의 손실 고객을 포착해야합니다.

탐색 데이터 분석 (EDA) EDA 프로세스에서는 고객 손실과 관련된 요인을 이해하기 위해 데이터 집중 모델을 탐색했습니다. 주요 발견에는 다음이 포함됩니다.

월간 계약 및 장기 계약 :
월간 계약 고객을 잃을 가능성이 더 높으며, 이는 장기 계약이 고객 충성도 향상에 더 도움이 될 수 있음을 나타냅니다.

가치 -부드러운 서비스 : 가입 가치 -구독 서비스 (예 : 온라인 보안 또는 기술 지원)의 고객 손실률은 종종 낮습니다. 고객 사용 시간 및 월별 요금 : 사용이 더 긴 고객은 고객 손실과 관련하여 높은 충성도를 나타냅니다.

Total Charges 열을 삭제하십시오.

Total Charges 열은 사용 시간의 높이와 관련되므로 모델의 안정성에 영향을 줄 수 있으므로 삭제하십시오.


기술 선택 왜 SVM 알고리즘을 선택합니까? <..>

작은 데이터 세트의 효율성 처리 :

약 7,000 줄의 데이터 세트의 경우 SVM은 피팅없이 복잡한 모드를 효과적으로 캡처 할 수 있습니다.

유연한 핵 기능 옵션 :

선형 핵과 RBF 핵을 결합하여 SVM은 GridSearchCV를 통해 선형성 및 비선형 관계를 식별 할 수 있습니다.

이진 분류 : SVM은 이러한 이중 문제에 매우 적합하며 목표는 고객 손실을 예측하는 것입니다 (예 여부).

사전 처리 단계 : minmaxscaler : SVM과 같은 모델은 스케일 차이에 민감합니다. 0과 1 사이의 숫자 변수를 방출하기위한 적용.

Code (OneHotencoder) : 분류 변수를 가상 변수로 변환합니다. 이를 통해 카테고리가 모델로 이해할 수있는 형식으로 올바르게 표현되도록합니다.

데이터 세분화 및 검증 :
  • 데이터 세트는 70% 교육 세트와 30% 테스트 세트로 나뉩니다. 결과의 안정성을 확인하기 위해 50 % 할인 검증을 사용하십시오.
  • 기계 학습 프로세스 단계는 다음과 같습니다
      데이터 세트 부서 : 변수 (손실) 및 독립 변수로 인해 교육 세트 및 테스트 세트의 올바른 데이터 세분화를 보장합니다.
    1. SVM의 슈퍼리스 조정 : 최적화, 조정을 위해 gridsearchcv로 최적화 : <:> c : 정규화 매개 변수는 여백과 오류 사이의 균형을 제어합니다.
    2. 코어 함수 :
    3. 선형 핵 및 RBF 핵 평가.
        모델 평가 지수 :
      • 다음 지표 평가 모델 사용 : 정확도 속도 : 올바른 예측의 백분율. 리콜 비율 :
      • 고객 손실 비율 (실제 예).
      • 정확도 : 정확하게 인식 된 손실 고객의 비율. f1 점수 : 정확도와 리콜 속도의 적합성. roc auc :
      • 다른 범주의 기능의 모델링 표시기.
    4. 결과
      • 결과 분석 : 정확도는 매우 높지만 주요 초점은 리콜 속도에 56%에 도달하는 것입니다. 이는 긍정적 인 개입 조치를 취하기 위해 손실 될 수있는 대부분의 고객을 식별하는 것을 의미합니다.
      • 미래에 개선 방향
      • 통합 외부 데이터 :
      • 고객 만족 피드백 (예 : NPS 또는 설문 조사 응답)을 사용하십시오. 특정 모드를 식별하기위한 경제 또는 지역 지표를 포함하여 .
      • 다른 모델을 시도하십시오 : XGBOOST 또는 LIGHTGBM 및 복잡한 상호 작용을 잘 처리 할 수있는 기타 모델을 테스트하십시오.
      • 변수 선택을 최적화하기위한 특성의 중요성을 구현합니다.
      • 자동화 :
      • 실시간 프로세스를 개발하고 정기적 인 업데이트와 함께 데이터 업데이트 모델을 사용하십시오.
      자동화 된 고객 예약 조치를 달성하기 위해 모델을 CRM 시스템에 통합합니다.

    고객 세분 : 고객의 예약 작업의 초점은 높은 값 또는 높은 리스크 고객의 시장 부문에 중점을 둡니다.

    시장의 특성에 따라 개인화 된 고객 유지 전략을 설계합니다.

    指标
    准确率 80.81%
    召回率 56.09%
    精确率 74.35%
    F1 分数 63.95%
    ROC AUC 85.42%
    프로젝트 파일

    eda.ipynb : 데이터 분석 및 주된 의견 탐색.

     <re> pre_processing.py : </re>
    로그인 후 복사

    데이터 사전 처리 및 변환 스크립트.

    ml_application.py :

    기계 학습 교육, 검증 및 결과 수출.
    config_template.py :

    환경 변수 (데이터 세트 경로) 템플릿.

    연락처 정보 :
      질문이나 협력 기회가 있으면 언제든지 LinkedIn에 문의하십시오.

위 내용은 이탈 예측 - 통신 회사의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿