Le Data Mining est le processus d'extraction d'informations inconnues mais potentiellement utiles cachées dans de grandes quantités de données. L'objectif de l'exploration de données est de construire un modèle de prise de décision pour prédire les comportements futurs sur la base des données d'actions passées.
L'exploration de données fait référence au processus de recherche d'informations cachées dans de grandes quantités de données grâce à des algorithmes.
L'exploration de données est généralement liée à l'informatique et atteint les objectifs ci-dessus grâce à de nombreuses méthodes telles que les statistiques, le traitement analytique en ligne, la récupération de renseignements, l'apprentissage automatique, les systèmes experts (s'appuyant sur des règles empiriques passées) et la reconnaissance de formes.
L'exploration de données est un élément indispensable de la découverte de connaissances dans une base de données (KDD), et KDD est l'ensemble du processus de conversion des données brutes en informations utiles. Ce processus comprend une série d'étapes de conversion allant du prétraitement des données au processus. post-traitement des résultats du data mining.
L'origine de l'exploration de données
Des chercheurs de différentes disciplines se sont réunis et ont commencé à développer des outils capables de gérer différents types de données. Des outils plus efficaces et évolutifs. Ces travaux s’appuient sur les méthodologies et algorithmes précédemment utilisés par les chercheurs, et culminent dans le domaine du data mining.
En particulier, l'exploration de données utilise des idées issues des domaines suivants : (1) échantillonnage, estimation et test d'hypothèses à partir de statistiques ; (2) modélisation d'algorithmes de recherche de l'intelligence artificielle, de la reconnaissance de formes et de l'apprentissage automatique. Technologie et théorie de l'apprentissage.
L'exploration de données a également rapidement adopté des idées issues d'autres domaines, notamment l'optimisation, le calcul évolutif, la théorie de l'information, le traitement du signal, la visualisation et la récupération d'informations.
Certains autres domaines jouent également un rôle de soutien important. Les systèmes de bases de données fournissent une prise en charge efficace du stockage, de l'indexation et du traitement des requêtes. Les technologies dérivées du calcul (parallèle) haute performance jouent souvent un rôle important dans le traitement d’ensembles de données massifs. Les technologies distribuées peuvent également faciliter le traitement de quantités massives de données et sont encore plus critiques lorsque les données ne peuvent pas être traitées de manière centralisée.
KDD (Découverte de connaissances à partir d'une base de données)
Nettoyage des données
Éliminer le bruit et données incohérentes ;
Intégration des données
Plusieurs sources de données peuvent être combinées ensemble
Sélection des données
Extraire les données liées aux tâches d'analyse de la base de données;
Transformation des données
Transformer et unifier les données en données adaptées à l'exploration via des opérations de synthèse ou d'agrégation Formulaire
Méthodologie d'exploration de données
Tâches d'exploration de données
Généralement, les tâches d'exploration de données sont divisées dans les deux catégories suivantes.
Tâche de prédiction. Le but de ces tâches est de prédire la valeur d'un attribut spécifique en fonction de la valeur d'autres attributs. Les attributs prédits sont généralement appelés variables cibles ou variables dépendantes, et les attributs utilisés pour la prédiction sont appelés variables explicatives ou variables indépendantes.
Décrivez la tâche . L'objectif est de dériver des modèles (corrélations, tendances, clusters, trajectoires et anomalies) qui résument les connexions sous-jacentes dans les données. Les tâches d'exploration de données descriptives sont souvent de nature exploratoire et nécessitent souvent des techniques de post-traitement pour vérifier et interpréter les résultats.
Modélisation prédictive (modélisation prédictive) Implante la construction d'un modèle pour une variable cible d'une manière qui décrit la fonction de la variable.
Il existe deux types de tâches de modélisation prédictive : la classification, utilisée pour prédire les variables cibles discrètes ; la régression, utilisée pour prédire les variables cibles continues.
Par exemple, prédire si un internaute achètera un livre dans une librairie en ligne est une tâche de classification car la variable cible est binaire, tandis que prédire le prix futur d'une action est une tâche de régression car le prix a une évolution continue. -attributs valorisés.
Le but des deux tâches est de former un modèle pour minimiser l'erreur entre la valeur prédite et la valeur réelle de la variable cible. La modélisation prédictive peut être utilisée pour déterminer les réponses des clients aux promotions de produits, prédire les perturbations des écosystèmes terrestres ou déterminer si un patient souffre d'une maladie sur la base des résultats de tests.
L'analyse d'association est utilisée pour découvrir des modèles qui décrivent des caractéristiques fortement corrélées dans les données.
Les modèles découverts sont souvent exprimés sous la forme de règles d'implication ou de sous-ensembles de fonctionnalités. L’espace de recherche étant de taille exponentielle, l’objectif de l’analyse de corrélation est d’extraire les modèles les plus intéressants de manière efficace. Les applications de l'analyse d'association comprennent la recherche de génomes ayant des fonctions connexes, l'identification des pages Web que les utilisateurs visitent ensemble et la compréhension des liens entre les différents éléments du système climatique terrestre.
L'analyse de cluster vise à trouver des groupes d'observations étroitement liés tels que les observations appartenant à un même cluster soient plus distinctes les unes des autres que les observations appartenant à des clusters différents aussi similaires que possible. Le clustering peut être utilisé pour regrouper des clients associés, identifier les zones océaniques qui affectent de manière significative le climat de la Terre, compresser les données, etc.
Détection des anomalies La tâche de est d'identifier les observations dont les caractéristiques sont significativement différentes des autres données.
Ces observations sont appelées anomalies ou valeurs aberrantes. L’objectif des algorithmes de détection d’anomalies est de découvrir de véritables anomalies et d’éviter de qualifier par erreur des objets normaux d’anomalies. En d’autres termes, un bon détecteur d’anomalies doit avoir un taux de détection élevé et un faible taux de fausses alarmes.
Les applications de la détection des anomalies incluent la détection de fraudes, de cyberattaques, de schémas inhabituels de maladies, de perturbations des écosystèmes, etc.
Pour plus de connaissances connexes, veuillez visiter : Site Web PHP chinois !
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!