데이터 마이닝의 기본 단계는 무엇입니까

王林
풀어 주다: 2023-01-13 00:36:12
원래의
32884명이 탐색했습니다.

데이터 마이닝의 기본 단계는 다음과 같습니다. 1. 문제 정의 2. 데이터 분석 4. 모델 구축 7. 구현하다.

데이터 마이닝의 기본 단계는 무엇입니까

이 기사의 운영 환경: windows10 시스템, thinkpad t480 컴퓨터.

구체적인 단계는 다음과 같습니다.

1. 문제 정의

지식 발견을 시작하기 전에 가장 먼저이자 가장 중요한 요구 사항은 데이터와 비즈니스 문제를 이해하는 것입니다. 목표에 대한 명확하고 명확한 정의, 즉 무엇을 하고 싶은지 결정해야 합니다. 예를 들어 이메일의 활용률을 높이고 싶다면 '사용자 활용률을 높이고' 싶을 수도 있고, '한 명의 사용자 사용 가치를 높이고' 싶을 수도 있습니다. 이 두 가지 문제를 해결하기 위해 확립된 모델은 거의 대부분입니다. 완전히 다릅니다. 결정을 내려야 합니다.

2. 데이터 마이닝 라이브러리 구축

데이터 마이닝 라이브러리 구축에는 데이터 수집, 데이터 설명, 선택, 데이터 품질 평가 및 데이터 정리, 병합 및 통합, 메타데이터 구축, 데이터 마이닝 라이브러리 로드 및 유지 관리 단계가 포함됩니다. 데이터 마이닝 라이브러리.

3. 데이터 분석

분석의 목적은 예측 결과에 가장 큰 영향을 미치는 데이터 필드를 찾고 내보내기 필드를 정의해야 하는지 결정하는 것입니다. 데이터 세트에 수백 또는 수천 개의 필드가 포함되어 있는 경우 데이터를 탐색하고 분석하는 것은 매우 시간이 많이 걸리고 피곤한 작업입니다. 이 경우 좋은 인터페이스와 강력한 기능을 갖춘 도구 소프트웨어를 선택해야 합니다. 이러한 작업을 완료합니다.

4. 데이터 준비

모델 구축 전 데이터 준비의 마지막 단계입니다. 이 단계는 변수 선택, 레코드 선택, 새 변수 생성, 변수 변환의 네 부분으로 나눌 수 있습니다.

5. 모델 구축

모델 구축은 반복적인 프로세스입니다. 어떤 모델이 직면한 비즈니스 문제에 가장 유용한지 결정하려면 다양한 모델을 주의 깊게 조사해야 합니다. 먼저 데이터의 일부를 사용하여 모델을 구축한 다음 나머지 데이터를 사용하여 결과 모델을 테스트하고 검증합니다. 테스트 세트는 모델의 특성에 영향을 받을 수 있으므로 모델의 정확성을 검증하려면 독립적인 데이터 세트가 필요하기 때문에 검증 세트라고 하는 세 번째 데이터 세트가 있는 경우도 있습니다. 데이터 마이닝 모델을 훈련하고 테스트하려면 데이터를 최소한 두 부분으로 분할해야 합니다. 하나는 모델 훈련용이고 다른 하나는 모델 테스트용입니다.

6. 모델 평가

모델이 확립된 후에는 얻은 결과를 평가하고 모델의 가치를 설명해야 합니다. 테스트 세트에서 얻은 정확도는 모델을 구축하는 데 사용된 데이터에만 의미가 있습니다. 실제 적용에서는 오류 유형과 오류로 인해 발생하는 관련 비용을 더 깊이 이해하는 것이 필요합니다. 경험에 따르면 유효한 모델이 반드시 올바른 모델은 아니라는 것이 입증되었습니다. 이에 대한 직접적인 이유는 모델 구축에 내재된 다양한 가정 때문이므로 실제 세계에서 모델을 직접 테스트하는 것이 중요합니다. 작은 영역에 먼저 적용하고, 테스트 데이터를 얻은 후, 만족감을 느끼면 넓은 영역으로 추진해 보세요.

7. 구현

모델이 확립되고 검증된 후 이를 사용하는 방법은 크게 두 가지가 있습니다. 첫 번째는 분석가에게 참조를 제공하는 것이고, 다른 하나는 이 모델을 다양한 데이터 세트에 적용하는 것입니다.

무료 학습 영상 공유: 프로그래밍 입문

위 내용은 데이터 마이닝의 기본 단계는 무엇입니까의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿