> 백엔드 개발 > 파이썬 튜토리얼 > 개념에서 영향까지: 사기 탐지 모델을 통한 여정

개념에서 영향까지: 사기 탐지 모델을 통한 여정

Mary-Kate Olsen
풀어 주다: 2024-12-29 00:17:17
원래의
844명이 탐색했습니다.

금융 시스템에서 사기 탐지는 건초 더미에서 바늘을 찾는 것과 같습니다. 하지만 건초 더미는 역동적이고 끊임없이 변화하며 거대합니다. 이러한 사기 거래를 어떻게 식별합니까? 이것이 제가 해결하려고 시작한 과제였습니다. 방대한 데이터 바다에서 의심스러운 활동을 식별할 뿐만 아니라 새로운 사기 패턴이 등장함에 따라 적응하고 진화하도록 설계된 사기 탐지 모델을 개발하는 것입니다.

다음은 제가 백지 상태에서 통찰력, 과제, 혁신을 갖춘 강력한 사기 탐지 시스템으로 전환한 방법에 대한 이야기입니다.

스파크: 이 프로젝트를 진행하는 이유는 무엇인가요?

매초 수백만 건의 거래가 흐르고 있으며, 그 중에는 기업에 수십억 달러의 비용이 들 수 있는 활동이 숨겨져 있다고 상상해 보십시오. 내 임무는 분명했습니다. 모든 그림자 앞에서 늑대를 울지 않고 이러한 변칙성을 탐지하는 시스템을 만드는 것입니다. 이를 염두에 두고 저는 합성 데이터, 혁신적인 기능 엔지니어링, 기계 학습을 기반으로 하는 솔루션을 구상했습니다.

놀이터 만들기: 데이터 생성

훌륭한 모델에는 훌륭한 데이터가 필요하지만 사기 데이터는 드뭅니다. 그래서 나는 내 자신을 만들었습니다. Python의 ⁠Faker⁠ 및 ⁠NumPy⁠ 라이브러리를 사용하여 실제 패턴을 모방하도록 설계된 1,000,000 트랜잭션의 합성 데이터세트를 생성했습니다. 수행된 각 거래:

  • 거래 ID, 고유하면서도 무작위입니다.

  • 계정 ID와 수신자 계정 ID는 각각 20%와 15%의 고유성을 가지며 현실적인 중복을 보장합니다.

  • 거래 금액은 마이크로에서 메가까지, 그럴듯한 시나리오를 반영하도록 분배됩니다.

  • 타임스탬프, 시간별, 일별 및 계절별 추세를 포착합니다.

  • 계좌 유형(개인 또는 기업), 결제 유형(신용 또는 직불) 및 거래 유형(은행 송금, 방송시간 등).

From Concept to Impact: A Journey Through My Fraud Detection Model

From Concept to Impact: A Journey Through My Fraud Detection Model

개인 및 비즈니스 계정, 소액 구매부터 고액 이체에 이르는 거래, 예금, 방송 시간 구매, 스포츠 베팅과 같은 다양한 거래 유형으로 데이터세트가 생생하게 구현되었습니다.

변화의 예술: 특성 공학

데이터가 준비되면 숨겨진 패턴을 찾아내기 위한 탐정의 툴킷인 기능 엔지니어링에 초점을 맞췄습니다. 진짜 설렘은 여기서부터 시작됐다. 제가 계산한 내용은 다음과 같습니다.

  • 계정 연령: 각 계정이 존재한 기간은 얼마나 됩니까? 이는 이상하게 동작하는 새 계정을 찾아내는 데 도움이 됩니다.
  • 일일 거래 금액: 매일 각 계좌를 통해 얼마나 많은 돈이 흘러갔나요?
  • 빈도 측정항목: 짧은 기간 내에 계정이 특정 수신자와 상호 작용한 빈도를 추적합니다.
  • Time Delta: 연속적인 거래 사이의 간격을 측정하여 활동 급증을 표시합니다.

이러한 기능은 모델이 의심스러운 활동을 찾아내는 데 도움이 되는 단서 역할을 합니다. 예를 들어, 비정상적으로 큰 금액을 이체하는 새로운 계정은 조사해 볼 가치가 있습니다.

From Concept to Impact: A Journey Through My Fraud Detection Model

도메인 지식을 바탕으로 의심스러운 거래를 분류하는 규칙을 만들었습니다. 이러한 규칙은 데이터세트를 감시하는 보호자 역할을 했습니다. 다음은 몇 가지입니다:

  • 큰 지출 주의: 단일 거래로 500만 달러 이상을 이체하는 개인 계정.
  • 빠른 거래: 한 시간에 같은 계좌로 3건 이상 거래
  • Midnight Madness: 심야 시간 동안 거액의 은행 이체

저는 이러한 규칙을 거래가 의심스럽거나 안전한 것으로 표시하는 기능으로 코딩했습니다.

From Concept to Impact: A Journey Through My Fraud Detection Model

모델의 어휘 준비

사기 탐지를 위한 머신러닝 모델을 가르치기 전에 데이터를 이해하기 쉽게 만들어야 했습니다. 새로운 언어를 가르치는 것과 같다고 생각하세요. 계정 유형이나 거래 방법과 같은 범주형 변수를 숫자 값으로 이해하는 데 필요한 모델입니다.

이러한 카테고리를 인코딩하여 이를 달성했습니다. 예를 들어, 거래 유형("은행 송금", "방송 시간" 등)은 원-핫 인코딩을 사용하여 숫자 열로 변환되었으며, 여기서 각 고유 값은 이진 표시기가 있는 자체 열이 되었습니다. 이를 통해 모델은 범주형 특성의 의미를 잃지 않고 데이터를 처리할 수 있었습니다.

From Concept to Impact: A Journey Through My Fraud Detection Model

일꾼: 모델 개발

규칙과 기능이 풍부한 데이터 세트를 통해 이제 머신러닝이라는 큰 무기를 도입할 때가 되었습니다. 저는 각각 고유한 장점을 지닌 여러 모델을 훈련했습니다.
1.⁠ ⁠로지스틱 회귀: 신뢰할 수 있고 해석 가능하며 훌륭한 출발점입니다.
2.⁠ ⁠XGBoost: 복잡한 패턴을 감지하는 강력한 도구입니다.

하지만 먼저 계급 불균형 문제를 해결했습니다. 사기 거래가 합법적인 거래보다 훨씬 많았습니다. SMOTE 오버샘플링 기법을 사용하여 스케일의 균형을 맞췄습니다.

SMOTE 전:
From Concept to Impact: A Journey Through My Fraud Detection Model

SMOTE 이후:
From Concept to Impact: A Journey Through My Fraud Detection Model

훈련 및 결과

모델은 정밀도, 재현율, AUC(Area Under the Curve)와 같은 지표를 사용하여 평가되었습니다.

  • 로지스틱 회귀: AUC 0.97, 재현율 92%.
    From Concept to Impact: A Journey Through My Fraud Detection Model

  • ⁠XGBoost: AUC 0.99, 재현율 94%.
    From Concept to Impact: A Journey Through My Fraud Detection Model

확실한 승자는? 복잡한 사기 패턴을 포착하는 기능을 갖춘 XGBoost.

매일 더 스마트하게: 피드백 루프 통합

제 시스템의 뛰어난 특징은 적응성이었습니다. 저는 다음과 같은 피드백 루프를 설계했습니다.

  • ⁠신고된 거래는 사기팀에서 검토했습니다.
  • ⁠그들의 피드백으로 훈련 데이터가 업데이트되었습니다.
  • ⁠모델은 새로운 사기 수법에 대비하기 위해 주기적으로 재교육을 받습니다.

전개

데이터 랭글링, 특성 추출, 기계 학습으로 가득 찬 여정을 마치고 모델 배포 준비가 완료되었습니다. .pkl 파일로 저장된 XGBoost 모델은 이제 사기 탐지를 위한 신뢰할 수 있는 도구입니다.

에필로그: 반성과 앞으로의 방향

이 사기 탐지 모델을 구축하면서 비즈니스 지식, 데이터 과학, 기계 학습을 결합하는 것이 얼마나 강력한지 배웠습니다. 하지만 여행은 여기서 끝나지 않습니다. 사기는 진화하고 이에 대한 방어 수단도 진화해야 합니다.

내가 배운 것

이 프로젝트는 기술적인 연습 그 이상이었습니다. 다음 여행을 떠나보세요:
•⁠ ⁠확장성: 방대한 양의 데이터를 처리하는 시스템을 설계합니다.
•⁠ ⁠적응성: 피드백을 통해 진화하는 모델 구축.
•⁠ ⁠협업: 기술팀과 도메인 전문가 간의 격차를 해소합니다.

앞으로 나는 다음을 계획하고 있다:

  • 이상 탐지를 위한 딥 러닝을 살펴보세요.
  • 실시간 모니터링 시스템을 구현하세요.
  • 새로운 사기 패턴에 따라 규칙을 지속적으로 개선합니다.

사기 탐지는 숫자에만 국한되지 않고 신뢰를 보호하는 것입니다. 그리고 이번 프로젝트가 그런 방향으로 작지만 의미 있는 발걸음이 되길 바랍니다.

읽어주셔서 감사합니다. 의견이나 질문을 댓글로 자유롭게 공유해주세요.

위 내용은 개념에서 영향까지: 사기 탐지 모델을 통한 여정의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:dev.to
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿