데이터 마이닝이란 무엇입니까?-일반적인 문제-php.cn

집

일반적인 문제

데이터 마이닝이란 무엇입니까?

青灯夜游

Jul 24, 2020 am 11:53 AM

데이터 마이닝

데이터 마이닝은 대량의 데이터 속에 숨겨진 알려지지 않았지만 잠재적으로 유용한 정보를 추출하는 프로세스입니다. 데이터 마이닝의 목표는 과거 행동 데이터를 기반으로 미래 행동을 예측하는 의사결정 모델을 구축하는 것입니다.

데이터 마이닝이란 무엇입니까?

데이터마이닝이란 대용량 데이터 속에 숨겨진 정보를 알고리즘을 통해 찾아내는 과정을 말합니다.

데이터 마이닝은 일반적으로 컴퓨터 과학과 관련이 있으며 통계, 온라인 분석 처리, 지능 검색, 기계 학습, 전문가 시스템(과거 경험 법칙에 의존) 및 패턴 인식과 같은 다양한 방법을 통해 위의 목표를 달성합니다.

데이터 마이닝은 데이터베이스(KDD)의 지식 발견에 없어서는 안될 부분이며, KDD는 원시 데이터를 유용한 정보로 변환하는 전체 프로세스입니다. 이 프로세스에는 데이터 전처리부터 사후 처리까지 일련의 변환 단계가 포함됩니다. 데이터 마이닝 결과 처리.

데이터 마이닝이란 무엇입니까?

데이터 마이닝의 기원

다양한 분야의 연구자들이 모여 다양한 데이터 유형을 처리할 수 있는 보다 효율적이고 확장 가능한 도구를 개발하기 시작했습니다. 이러한 작업은 이전에 연구자들이 사용했던 방법론과 알고리즘을 기반으로 하며 데이터 마이닝 분야에서 정점을 이룹니다.

특히 데이터 마이닝은 다음 분야의 아이디어를 활용합니다: (1) 통계를 통한 샘플링, 추정 및 가설 테스트 (2) 검색 알고리즘 모델링 기술 및 인공 지능, 패턴 인식 및 기계 학습의 학습 이론.

데이터 마이닝은 또한 최적화, 진화 계산, 정보 이론, 신호 처리, 시각화 및 정보 검색을 포함한 다른 분야의 아이디어를 빠르게 수용했습니다.

다른 영역도 중요한 지원 역할을 합니다. 데이터베이스 시스템은 효율적인 저장, 인덱싱 및 쿼리 처리 지원을 제공합니다. 고성능(병렬) 컴퓨팅에서 파생된 기술은 대규모 데이터 세트를 처리하는 데 중요한 경우가 많습니다. 분산 기술은 또한 대량의 데이터를 처리하는 데 도움이 될 수 있으며 데이터를 중앙에서 처리할 수 없는 경우 더욱 중요합니다.

데이터 마이닝이란 무엇입니까?

KDD(데이터베이스에서 지식 검색)

데이터 정리

데이터 제거
데이터 통합

여러 데이터 소스를 함께 결합할 수 있습니다.
데이터베이스에서 분석 작업과 관련된 데이터 추출
요약 또는 집계 작업을 통해 데이터를 마이닝에 적합한 형식으로 변환 및 통합
기본 단계, 지능형 사용
특정 관심도를 기반으로 지식을 나타내는 정말 흥미로운 패턴을 식별합니다.
사용자에게 마이닝 지식을 제공합니다.

데이터 마이닝이란 무엇입니까?

데이터 마이닝 방법론

비즈니스 관점에서 프로젝트의 목표와 요구 사항을 이해하고, 이 이해 지식을 이론을 통해 실행 가능한 데이터 마이닝 문제로 변환합니다. 분석, 목표 달성을 위한 예비 계획 수립
데이터 이해 단계는 원본 데이터 수집으로 시작한 다음 데이터에 익숙해지고, 데이터 품질 문제를 식별하고, 데이터에 대한 사전 이해를 탐구합니다. , 데이터의 흥미로운 부분을 찾아 정보 탐색에 대한 가설을 형성합니다.
데이터 준비 단계는 데이터 마이닝에 필요한 정보를 구성하는 활동을 의미합니다. 원본 원시 데이터에 있는 처리되지 않은 데이터입니다. 데이터 준비 작업은 정해진 순서 없이 여러 번 수행될 수 있습니다. 이러한 작업의 주요 목적은 데이터 변환, 정리, 구성 및 통합과 같은 데이터 전처리가 필요한 차원 분석의 요구 사항에 따라 소스 시스템에서 필요한 정보를 얻는 것입니다.
단계에서는 주로 다양한 모델링 기법을 선택하고 적용하는 것에 관한 것입니다. 동시에 해당 매개변수는 최적의 값을 달성하도록 조정됩니다. 일반적으로 동일한 데이터 마이닝 문제 유형에 대해 여러 가지 모델링 기술이 있습니다. 일부 기술에는 데이터 형식에 대한 특별한 요구 사항이 있으며 데이터 준비 단계로 돌아가야 하는 경우가 많습니다.
모델을 배포하고 출시하기 전에 기술적인 측면에서 모델 효과를 판단해야 합니다. 모델 수립의 다양한 단계를 확인하고, 비즈니스 목표를 기반으로 실제 비즈니스 시나리오에서 모델의 실용성을 평가합니다. 이 단계의 핵심 목적은 완전히 고려되지 않은 몇 가지 중요한 비즈니스 문제가 있는지 확인하는 것입니다.
모델이 완료된 후 모델 사용자(고객)가 이를 기반으로 패키징합니다. 당시 배경 및 목표 달성에 대한 비즈니스 시스템 사용 요구 사항을 충족합니다.

데이터 마이닝이란 무엇입니까?

데이터 마이닝 작업

일반적으로 데이터 마이닝 작업은 다음 두 가지 범주로 나뉩니다.

예측 작업. 이 작업의 목표는 다른 속성의 값을 기반으로 특정 속성의 값을 예측하는 것입니다. 예측되는 속성을 일반적으로 목표변수 또는 종속변수라고 하며, 예측에 사용되는 속성을 설명변수 또는 독립변수라고 합니다.
작업을 설명하세요. 목표는 데이터의 기본 연결을 요약하는 패턴(상관 관계, 추세, 클러스터, 궤적 및 이상 현상)을 도출하는 것입니다. 설명적 데이터 마이닝 작업은 본질적으로 탐색적인 작업인 경우가 많으며 결과를 확인하고 해석하기 위해 후처리 기술이 필요한 경우가 많습니다.

Predictive Modeling(예측 모델링) 변수의 기능을 설명하는 방식으로 대상 변수에 대한 모델을 구축하는 작업입니다.

예측 모델링 작업에는 두 가지 유형이 있습니다. 분류는 이산 목표 변수를 예측하는 데 사용되며 연속 목표 변수를 예측하는 데 사용됩니다.

예를 들어 웹 사용자가 온라인 서점에서 책을 구입할지 여부를 예측하는 것은 대상 변수가 이진이므로 분류 작업인 반면, 주식의 미래 가격을 예측하는 것은 가격이 연속적인 가치 속성을 갖기 때문에 회귀 작업입니다.

두 작업의 목표는 목표 변수의 예측 값과 실제 값 사이의 오류를 최소화하도록 모델을 교육하는 것입니다. 예측 모델링을 사용하면 제품 프로모션에 대한 고객의 반응을 판단하고, 지구 생태계의 교란을 예측하거나, 테스트 결과를 기반으로 환자에게 질병이 있는지 여부를 판단할 수 있습니다.

연관 분석(Association Analysis) 은 데이터에서 강력한 상관 관계 특성을 설명하는 패턴을 발견하는 데 사용됩니다.

발견된 패턴은 일반적으로 암시 규칙 또는 기능 하위 집합의 형태로 표현됩니다. 검색 공간의 크기는 기하급수적으로 크기 때문에 상관 분석의 목표는 가장 흥미로운 패턴을 효율적으로 추출하는 것입니다. 연관 분석의 적용에는 관련 기능을 가진 게놈 찾기, 사용자가 함께 방문하는 웹 페이지 식별, 지구 기후 시스템의 다양한 요소 간의 연결 이해 등이 포함됩니다.

클러스터 분석은 동일한 클러스터에 속하는 관측치가 다른 클러스터에 속하는 관측치와 최대한 유사하도록 밀접하게 관련된 관측치 그룹을 찾는 것을 목표로 합니다. 클러스터링은 관련 고객을 그룹화하고, 지구의 기후에 큰 영향을 미치는 해양 영역을 식별하고, 데이터를 압축하는 등의 작업에 사용할 수 있습니다.

이상 탐지(anomaly detector)의 임무는 다른 데이터와 특성이 크게 다른 관찰을 식별하는 것입니다.

이러한 관찰을 이상치 또는 이상치라고 합니다. 이상 탐지 알고리즘의 목표는 실제 이상을 발견하고 정상적인 객체를 이상으로 잘못 표시하는 것을 방지하는 것입니다. 즉, 좋은 이상 탐지는 탐지율이 높고 오경보율이 낮아야 합니다.

이상 탐지의 응용 분야에는 사기, 사이버 공격, 비정상적인 질병 패턴, 생태계 교란 등이 포함됩니다.

더 많은 관련 지식을 보려면 PHP 중국어 웹사이트를 방문하세요!

위 내용은 데이터 마이닝이란 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7741

자바 튜토리얼

1643

Cakephp 튜토리얼

1397

라라벨 튜토리얼

1290

PHP 튜토리얼

1233

Related knowledge

데이터 마이닝에 Go 언어를 사용하는 방법은 무엇입니까? Jun 10, 2023 am 08:39 AM

빅데이터와 데이터 마이닝의 등장으로 데이터 마이닝 기능을 지원하는 프로그래밍 언어가 점점 더 많아지기 시작했습니다. 빠르고 안전하며 효율적인 프로그래밍 언어인 Go 언어는 데이터 마이닝에도 사용할 수 있습니다. 그렇다면 데이터 마이닝에 Go 언어를 사용하는 방법은 무엇입니까? 다음은 몇 가지 중요한 단계와 기술입니다. 데이터 획득 먼저 데이터를 획득해야 합니다. 이는 웹페이지 정보 크롤링, API를 사용하여 데이터 가져오기, 데이터베이스에서 데이터 읽기 등 다양한 수단을 통해 달성할 수 있습니다. Go 언어에는 풍부한 HTTP가 제공됩니다.

MySql을 사용한 데이터 분석: 데이터 마이닝 및 통계 처리 방법 Jun 16, 2023 am 11:43 AM

MySql은 기업 및 개인 데이터 저장 및 관리에 널리 사용되는 인기 있는 관계형 데이터베이스 관리 시스템입니다. MySql은 데이터를 저장하고 쿼리하는 것 외에도 사용자가 데이터를 더 잘 이해하고 활용할 수 있도록 데이터 분석, 데이터 마이닝, 통계 등의 기능을 제공합니다. 데이터는 모든 비즈니스나 조직에서 귀중한 자산이며, 데이터 분석은 기업이 올바른 비즈니스 결정을 내리는 데 도움이 될 수 있습니다. MySql은 다양한 방법으로 데이터 분석과 데이터 마이닝을 수행할 수 있습니다. 다음은 몇 가지 실용적인 기술과 도구입니다.

데이터 마이닝과 데이터 분석의 차이점은 무엇입니까? Dec 07, 2020 pm 03:16 PM

차이점: 1. "데이터 분석"에 의해 도출된 결론은 인간 지적 활동의 결과인 반면, "데이터 마이닝"에 의해 도출된 결론은 학습 세트[또는 트레이닝 세트, 샘플 세트]에서 기계가 발견한 지식 규칙입니다. 2. "데이터 분석"은 수학적 모델을 구축할 수 없으며 수동 모델링이 필요한 반면, "데이터 마이닝"은 수학적 모델링을 직접 완성합니다.

인공지능 및 데이터 마이닝 분야의 Redis 적용 사례 Jun 20, 2023 pm 07:10 PM

인공지능, 빅데이터 기술의 발전으로 데이터를 효율적으로 저장하고 처리하는 방법에 주목하는 기업과 기업이 늘어나고 있습니다. 고성능 분산 메모리 데이터베이스인 Redis는 인공 지능 및 데이터 마이닝 분야에서 점점 더 많은 주목을 받고 있습니다. 이 기사에서는 Redis의 특성과 인공 지능 및 데이터 마이닝 애플리케이션에서의 실제 사례에 대해 간략하게 소개합니다. Redis는 오픈 소스, 고성능, 확장 가능한 NoSQL 데이터베이스입니다. 다양한 데이터 구조를 지원하고 캐싱, 메시지 큐, 카운터 등을 제공합니다.

Python의 시계열 예측 팁 Jun 10, 2023 am 08:10 AM

데이터 시대가 도래하면서 분석과 예측을 위해 수집되고 활용되는 데이터가 점점 더 많아지고 있습니다. 시계열 데이터는 시간을 기준으로 한 일련의 데이터를 포함하는 일반적인 데이터 유형입니다. 이러한 유형의 데이터를 예측하는 데 사용되는 방법을 시계열 예측 기술이라고 합니다. Python은 강력한 데이터 과학 및 기계 학습 지원을 갖춘 매우 인기 있는 프로그래밍 언어이므로 시계열 예측에도 매우 적합한 도구입니다. 이 기사에서는 Python에서 일반적으로 사용되는 시계열 예측 기술을 소개하고 실용적인 응용 프로그램을 제공합니다.

Python의 Apriori 알고리즘에 대한 자세한 설명 Jun 10, 2023 am 08:03 AM

Apriori 알고리즘은 데이터 마이닝 분야에서 연관 규칙 마이닝을 위한 일반적인 방법이며 비즈니스 인텔리전스, 마케팅 및 기타 분야에서 널리 사용됩니다. 일반 프로그래밍 언어로서 Python은 Apriori 알고리즘을 구현하기 위한 여러 타사 라이브러리도 제공합니다. 이 기사에서는 Python에서 Apriori 알고리즘의 원리, 구현 및 적용을 자세히 소개합니다. 1. Apriori 알고리즘의 원리 Apriori 알고리즘의 원리를 소개하기 전에 먼저 연관 규칙 마이닝의 다음 두 가지 개념인 빈발 항목 집합과 지원에 대해 알아보겠습니다.

화산 엔진 도구 기술 공유: AI를 사용하여 제로 임계값으로 데이터 마이닝을 완료하고 SQL 작성을 완료합니다. May 18, 2023 pm 08:19 PM

BI 도구를 사용하다 보면 흔히 접하게 되는 질문은 "SQL 없이 어떻게 데이터를 생산하고 처리할 수 있는가? 알고리즘 없이 마이닝 분석을 할 수 있는가?"입니다. 전문 알고리즘 팀이 데이터 마이닝을 할 때 데이터 분석과 시각화도 상대적으로 제시됩니다. 단편화된 현상. 알고리즘 모델링과 데이터 분석 작업을 효율적으로 완성하는 것도 효율성을 높이는 좋은 방법입니다. 동시에, 전문 데이터 웨어하우스 팀의 경우 동일한 주제의 데이터 콘텐츠는 "반복적인 구성, 상대적으로 분산된 사용 및 관리" 문제에 직면합니다. 동일한 주제와 다른 콘텐츠를 동시에 사용하여 데이터 세트를 생성할 수 있는 방법이 있습니까? 한 작업에 시간이 걸리나요? 생성된 데이터 세트를 데이터 구성에 다시 참여하기 위한 입력으로 사용할 수 있나요? 1. DataWind의 시각적 모델링 기능은 Volcano Engine이 출시한 BI 플랫폼 Da와 함께 제공됩니다.

PHP에서 자동 텍스트 분류 및 데이터 마이닝을 수행하는 방법은 무엇입니까? May 22, 2023 pm 02:31 PM

PHP는 웹사이트 개발, 데이터 처리 등의 분야에서 널리 사용되는 뛰어난 서버측 스크립팅 언어입니다. 인터넷의 급속한 발전과 데이터의 양이 증가함에 따라 자동 텍스트 분류 및 데이터 마이닝을 어떻게 효율적으로 수행할 것인가가 중요한 문제가 되고 있다. 이 기사에서는 PHP의 자동 텍스트 분류 및 데이터 마이닝을 위한 방법과 기술을 소개합니다. 1. 자동 텍스트 분류 및 데이터 마이닝이란 무엇입니까? 자동 텍스트 분류는 일반적으로 기계 학습 알고리즘을 사용하여 구현되는 내용에 따라 텍스트를 자동으로 분류하는 프로세스를 의미합니다. 데이터 마이닝은 다음을 가리킨다.

데이터 마이닝이란 무엇입니까?

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제