Maison Problème commun Quelles sont les techniques de data mining ?

Quelles sont les techniques de data mining ?

Jun 10, 2021 pm 04:07 PM

Les technologies d'exploration de données comprennent : 1. Technologie statistique ; 2. Règles d'association ; 3. Analyse basée sur l'historique ; 5. Détection d'agrégation ; 7. Arbre de décision ; Réseau neuronal ; 9. Ensemble approximatif ; 10. Ensemble flou ; 11. Analyse de régression ; 13. Description du concept ;

Quelles sont les techniques de data mining ?

L'environnement d'exploitation de ce tutoriel : système Windows 7, ordinateur Dell G3.

Le data mining consiste à extraire des informations et des connaissances cachées que les gens ne connaissent pas à l'avance mais qui sont potentiellement utiles à partir d'une grande quantité de données incomplètes, bruyantes, floues et aléatoires.

La tâche du data mining est de découvrir des modèles à partir d'ensembles de données. Il existe de nombreux types de modèles qui peuvent être découverts. Ils peuvent être divisés en deux catégories selon leurs fonctions : les modèles prédictifs et les modèles descriptifs.

Il existe de nombreux types de technologies d'exploration de données, et il existe différentes méthodes de classification selon différentes classifications. Ce qui suit se concentre sur certaines techniques couramment utilisées dans l'exploration de données : techniques statistiques, règles d'association, analyse basée sur l'historique, algorithmes génétiques, détection d'agrégation, analyse de connexion, arbres de décision, réseaux de neurones, ensembles approximatifs, ensembles flous, analyse de régression, analyse différentielle, Description du concept et treize autres techniques d'exploration de données couramment utilisées.

1. Technologie statistique

L'exploration de données implique de nombreux domaines et technologies scientifiques, comme la technologie statistique. L'idée principale de l'utilisation de la technologie statistique pour extraire des ensembles de données est que les méthodes statistiques supposent un modèle de distribution ou de probabilité (comme une distribution normale) pour un ensemble de données donné, puis utilisent les méthodes correspondantes pour extraire selon le modèle.

2. Règles d'association

L'association de données est un type important de connaissances découvrables qui existent dans la base de données. S'il existe une certaine régularité dans les valeurs de deux variables ou plus, on parle de corrélation. Les associations peuvent être divisées en associations simples, associations temporelles et associations causales. Le but de l'analyse de corrélation est de trouver le réseau de corrélation caché dans la base de données. Parfois, la fonction de corrélation des données dans la base de données n'est pas connue, et même si elle est connue, elle est incertaine, de sorte que les règles générées par l'analyse de corrélation sont crédibles.

3. Analyse historique MBR (Memory-based Reasoning)

Recherchez d'abord des situations similaires basées sur des connaissances empiriques, puis appliquez les informations de ces situations à l'actualité. situation Exemple. C’est l’essence même du MBR (Memory Based Reasoning). MBR recherche d'abord les voisins similaires au nouvel enregistrement, puis utilise ces voisins pour classer et valoriser les nouvelles données. L'utilisation du MBR présente trois problèmes principaux : trouver des données historiques déterministes ; décider de la manière la plus efficace de représenter les données historiques et décider de la fonction de distance, de la fonction conjointe et du nombre de voisins ;

4. Algorithmes génétiques GA (Algorithmes génétiques)

Une technologie d'optimisation basée sur la théorie de l'évolution et utilisant des méthodes de conception telles que la combinaison génétique, la variation génétique et la sélection naturelle. L'idée principale est la suivante : selon le principe de survie du plus fort, former un nouveau groupe composé des règles les plus adaptées du groupe actuel, et des descendants de ces règles. En règle générale, l'adéquation d'une règle est évaluée par sa précision de classification sur l'ensemble d'échantillons d'apprentissage.

5. Détection de cluster

Le processus de regroupement d'une collection d'objets physiques ou abstraits en plusieurs classes composées d'objets similaires est appelé clustering. Un cluster généré par clustering est un ensemble d'objets de données similaires les uns aux autres dans le même cluster et différents des objets des autres clusters. Le degré de dissemblance est calculé en fonction de la valeur d'attribut de l'objet décrit, et la distance est une méthode de mesure couramment utilisée.

6. Analyse de connexion

Analyse de liens, sa théorie de base est la théorie des graphes. L'idée de la théorie des graphes est de trouver un algorithme capable de produire de bons résultats mais pas des résultats parfaits, plutôt que de trouver un algorithme qui fournit une solution parfaite. L'analyse des connexions utilise l'idée que si des résultats imparfaits sont réalisables, alors une telle analyse est une bonne analyse. Grâce à l'analyse des connexions, certains modèles peuvent être analysés à partir du comportement de certains utilisateurs et les concepts générés peuvent en même temps être appliqués à un groupe d'utilisateurs plus large.

7. Arbre de décision

L'arbre de décision fournit un moyen d'afficher des règles telles que quelle valeur sera obtenue dans quelles conditions.

8. Réseau neuronal

Structurellement, un réseau neuronal peut être divisé en couche d'entrée, couche de sortie et couche cachée. Chaque nœud de la couche d'entrée correspond à une variable prédictive. Les nœuds de la couche de sortie correspondent aux variables cibles et il peut y avoir plusieurs nœuds. Entre la couche d'entrée et la couche de sortie se trouve la couche cachée (invisible pour les utilisateurs du réseau neuronal). Le nombre de couches cachées et le nombre de nœuds dans chaque couche déterminent la complexité du réseau neuronal.

En plus des nœuds de la couche d'entrée, chaque nœud du réseau de neurones est connecté à de nombreux nœuds devant lui (appelés nœuds d'entrée de ce nœud). Chaque connexion correspond à un poids Wxy, le). valeur de ce nœud Elle est obtenue en prenant la somme des produits des valeurs de tous ses nœuds d'entrée et les poids de connexion correspondants comme entrée d'une fonction. Nous appelons cette fonction la fonction d'activité ou la fonction de compression.

9. Ensemble brut

La théorie des ensembles bruts est basée sur l'établissement de classes d'équivalence au sein de données de formation données. Tous les échantillons de données formant une classe d'équivalence sont aveugles, c'est-à-dire que ces échantillons sont équivalents pour les attributs qui décrivent les données. Compte tenu des données réelles, il existe souvent des classes qui ne peuvent pas être distinguées par les attributs disponibles. Des ensembles approximatifs sont utilisés pour approximer ou définir grossièrement cette classe.

10. Ensemble flou

La théorie des ensembles flous introduit la logique floue dans le système de classification d'exploration de données, permettant la définition de valeurs ou de limites de domaine « floues ». La logique floue utilise des valeurs de vérité comprises entre 0,0 et 1,0 pour représenter le degré selon lequel une valeur particulière est un membre donné, plutôt que des seuils exacts pour les classes ou les ensembles. La logique floue offre la possibilité de traiter à un niveau élevé d'abstraction.

11. Analyse de régression

L'analyse de régression est divisée en régression linéaire, régression multiple et régression non linéaire. En régression linéaire, les données sont modélisées avec une ligne droite, tandis que la régression multiple est une extension de la régression linéaire impliquant plusieurs variables prédictives. La régression non linéaire consiste à ajouter des termes polynomiaux au modèle linéaire de base pour former un modèle non linéaire.

12. Analyse différentielle

Le but de l'analyse différentielle est d'essayer de trouver des anomalies dans les données, telles que les données de bruit, les données de fraude et autres données anormales, donc afin d'obtenir des informations utiles.

13. Description du concept

La description conceptuelle consiste à décrire la connotation d'un certain type d'objet et à résumer les caractéristiques pertinentes de ce type d'objet. La description de concept est divisée en description caractéristique et description différentielle. La première décrit les caractéristiques communes d'un certain type d'objets, tandis que la seconde décrit les différences entre les objets de différents types. La génération d'une description caractéristique d'une classe implique uniquement les caractéristiques communes de tous. objets dans ce type d’objet.

Pour plus de connaissances connexes, veuillez visiter la colonne FAQ !

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Où trouver la courte de la grue à atomide atomique
1 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Recherche approfondie Entrée du site officiel Deepseek Recherche approfondie Entrée du site officiel Deepseek Mar 12, 2025 pm 01:33 PM

Au début de 2025, l'IA domestique "Deepseek" a fait un début magnifique! Ce modèle d'IA gratuit et open source a une performance comparable à la version officielle d'OpenAI d'Openai, et a été entièrement lancé sur le côté Web, l'application et l'API, prenant en charge l'utilisation multi-terminale des versions iOS, Android et Web. Recherche approfondie du site officiel de Deepseek et du guide d'utilisation: Adresse officielle du site Web: https://www.deepseek.com/using étapes pour la version Web: cliquez sur le lien ci-dessus pour entrer le site officiel Deepseek. Cliquez sur le bouton "Démarrer la conversation" sur la page d'accueil. Pour la première utilisation, vous devez vous connecter avec votre code de vérification de téléphone mobile. Après vous être connecté, vous pouvez entrer dans l'interface de dialogue. Deepseek est puissant, peut écrire du code, lire des fichiers et créer du code

Version Web Deepseek Entrée officielle Version Web Deepseek Entrée officielle Mar 12, 2025 pm 01:42 PM

La profondeur domestique de l'IA Dark Horse a fortement augmenté, choquant l'industrie mondiale de l'IA! Cette société chinoise de renseignement artificiel, qui n'a été créée que depuis un an et demi, a gagné des éloges des utilisateurs mondiaux pour ses maquettes gratuites et open source, Deepseek-V3 et Deepseek-R1. Deepseek-R1 est désormais entièrement lancé, avec des performances comparables à la version officielle d'Openaio1! Vous pouvez vivre ses fonctions puissantes sur la page Web, l'application et l'interface API. Méthode de téléchargement: prend en charge les systèmes iOS et Android, les utilisateurs peuvent le télécharger via l'App Store; Version Web Deepseek Entrée officielle: HT

Comment résoudre le problème des serveurs occupés pour Deepseek Comment résoudre le problème des serveurs occupés pour Deepseek Mar 12, 2025 pm 01:39 PM

Deepseek: Comment gérer l'IA populaire qui est encombré de serveurs? En tant qu'IA chaude en 2025, Deepseek est gratuit et open source et a une performance comparable à la version officielle d'Openaio1, qui montre sa popularité. Cependant, une concurrence élevée apporte également le problème de l'agitation du serveur. Cet article analysera les raisons et fournira des stratégies d'adaptation. Entrée de la version Web Deepseek: https://www.deepseek.com/deepseek serveur Raison: Accès simultané: des fonctionnalités gratuites et puissantes de Deepseek attirent un grand nombre d'utilisateurs à utiliser en même temps, ce qui entraîne une charge de serveur excessive. Cyber ​​Attack: Il est rapporté que Deepseek a un impact sur l'industrie financière américaine.