Maison Problème commun Qu'est-ce que l'exploration de données ?

Qu'est-ce que l'exploration de données ?

Jul 16, 2020 am 11:54 AM
数据挖掘

L'exploration de données fait référence au processus de recherche d'informations cachées dans de grandes quantités de données grâce à des algorithmes. L'exploration de données est généralement liée à l'informatique et utilise de nombreuses méthodes telles que les statistiques, le traitement analytique en ligne, la récupération de renseignements, l'apprentissage automatique, les systèmes experts (s'appuyant sur des règles empiriques antérieures) et la reconnaissance de formes pour atteindre l'objectif de recherche d'informations cachées dans un grand nombre de domaines. quantités de données.

Qu'est-ce que l'exploration de données ?

L'exploration de données est un sujet brûlant dans le domaine de l'intelligence artificielle et de la recherche de bases de données. L'exploration de données fait référence à la révélation d'informations cachées et jusqu'alors inconnues d'un utilisateur. une grande quantité de données dans la base de données et des informations potentiellement précieuses.

Le data mining est un processus d'aide à la décision. Il repose principalement sur l'intelligence artificielle, l'apprentissage automatique, la reconnaissance de formes, les statistiques, les bases de données, la technologie de visualisation, etc. Il analyse les données de l'entreprise de manière hautement automatisée et fait des inférences inductives. . Découvrez leurs modèles potentiels pour aider les décideurs à ajuster les stratégies de marché, à réduire les risques et à prendre les bonnes décisions.

Le processus de découverte des connaissances comprend les trois étapes suivantes : ① préparation des données ; ② exploration des données ; ③ expression et interprétation des résultats ; Le data mining peut interagir avec les utilisateurs ou les bases de connaissances.

Objets de data mining

Le type de données peut être structuré, semi-structuré, voire hétérogène. Les méthodes de découverte des connaissances peuvent être mathématiques, non mathématiques ou inductives. Les connaissances finalement découvertes peuvent être utilisées pour la gestion de l'information, l'optimisation des requêtes, l'aide à la décision et la maintenance des données elles-mêmes. [4]

L'objet du data mining peut être n'importe quel type de source de données. Il peut s'agir d'une base de données relationnelle, qui est une source de données contenant des données structurées ; il peut également s'agir d'un entrepôt de données, de textes, de données multimédias, de données spatiales, de données de séries chronologiques et de données Web, qui sont une source de données contenant des données semi-structurées. des données structurées voire des données hétérogènes. [4]

La méthode de découverte des connaissances peut être numérique, non numérique ou inductive. Les connaissances finalement découvertes peuvent être utilisées pour la gestion de l’information, l’optimisation des requêtes, l’aide à la décision et la maintenance des données elles-mêmes.

Étapes de l'exploration de données

Avant de mettre en œuvre l'exploration de données, il est nécessaire de formuler les étapes à suivre, que faire à chaque étape et quels objectifs sont nécessaires pour atteindre Ce n'est qu'avec un bon plan que l'exploration de données peut être mise en œuvre de manière ordonnée et réussir. De nombreux éditeurs de logiciels et sociétés de conseil en exploration de données proposent des modèles de processus d'exploration de données pour guider leurs utilisateurs étape par étape dans le travail d'exploration de données. Par exemple, le 5A de SPSS et le SEMMA de SAS.

Les étapes du modèle de processus d'exploration de données comprennent principalement la définition des problèmes, l'établissement de bibliothèques d'exploration de données, l'analyse des données, la préparation des données, la création de modèles, l'évaluation des modèles et la mise en œuvre. Examinons de plus près le contenu spécifique de chaque étape :

(1) Définir le problème. La première et la plus importante exigence avant de commencer la découverte de connaissances est de comprendre les données et le problème commercial. Vous devez avoir une définition claire de vos objectifs, c’est-à-dire décider de ce que vous voulez faire. Par exemple, lorsque vous souhaitez améliorer le taux d'utilisation de votre courrier électronique, vous souhaiterez peut-être « augmenter le taux d'utilisation des utilisateurs » ou « augmenter la valeur d'utilisation d'un utilisateur ». Les modèles établis pour résoudre ces deux problèmes. sont presque complètement différents, une décision doit être prise.

(2) Établir une bibliothèque d'exploration de données. La création d'une bibliothèque d'exploration de données comprend les étapes suivantes : collecte de données, description des données, sélection, évaluation de la qualité des données et nettoyage des données, fusion et intégration, création de métadonnées, chargement de la bibliothèque d'exploration de données et maintenance de la bibliothèque d'exploration de données.

(3) Analyser les données. Le but de l'analyse est de trouver les champs de données qui ont le plus grand impact sur les résultats des prévisions et de déterminer si les champs d'exportation doivent être définis. Si l'ensemble de données contient des centaines ou des milliers de champs, la navigation et l'analyse des données seront une tâche très longue et fatigante. Dans ce cas, vous devez choisir un outil logiciel doté d'une bonne interface et de fonctions puissantes pour vous aider. accomplissant ces tâches.

(4) Préparer les données. Il s'agit de la dernière étape de préparation des données avant de construire le modèle. Cette étape peut être divisée en quatre parties : sélection des variables, sélection des enregistrements, création de nouvelles variables et conversion des variables.

(5) Construisez le modèle. Construire un modèle est un processus itératif. Différents modèles doivent être soigneusement examinés pour déterminer celui qui est le plus utile au problème commercial rencontré. Utilisez d’abord une partie des données pour créer un modèle, puis utilisez les données restantes pour tester et valider le modèle résultant. Parfois, il existe un troisième ensemble de données, appelé ensemble de validation, car l'ensemble de test peut être affecté par les caractéristiques du modèle et un ensemble de données indépendant est nécessaire pour vérifier l'exactitude du modèle. La formation et le test des modèles d'exploration de données nécessitent de diviser les données en au moins deux parties, l'une pour la formation du modèle et l'autre pour les tests du modèle.

(6) Modèle d'évaluation. Une fois le modèle établi, les résultats obtenus doivent être évalués et la valeur du modèle expliquée. La précision obtenue à partir de l'ensemble de test n'est significative que pour les données utilisées pour construire le modèle. Dans les applications pratiques, il est nécessaire de mieux comprendre les types d’erreurs et les coûts associés qu’elles entraînent. L'expérience a prouvé qu'un modèle valide n'est pas nécessairement un modèle correct. La raison directe en est les diverses hypothèses implicites dans la construction du modèle. Il est donc important de tester le modèle directement dans le monde réel. Appliquez-le d'abord sur une petite zone, obtenez des données de test, puis diffusez-le sur une grande zone une fois que vous vous sentez satisfait.

(7) Mise en œuvre. Une fois qu’un modèle est construit et validé, il peut être utilisé de deux manières principales. La première consiste à fournir une référence aux analystes ; la seconde consiste à appliquer ce modèle à différents ensembles de données.

Pour plus de connaissances connexes, veuillez visiter : Site Web PHP chinois !

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Comment utiliser le langage Go pour le data mining ? Comment utiliser le langage Go pour le data mining ? Jun 10, 2023 am 08:39 AM

Avec l'essor du Big Data et de l'exploration de données, de plus en plus de langages de programmation ont commencé à prendre en charge les fonctions d'exploration de données. En tant que langage de programmation rapide, sûr et efficace, le langage Go peut également être utilisé pour l'exploration de données. Alors, comment utiliser le langage Go pour le data mining ? Voici quelques étapes et techniques importantes. Acquisition de données Tout d'abord, vous devez obtenir les données. Cela peut être réalisé par divers moyens, tels que l'exploration d'informations sur des pages Web, l'utilisation d'API pour obtenir des données, la lecture de données à partir de bases de données, etc. Le langage Go est livré avec un HTTP riche

Analyse de données avec MySql : comment gérer l'exploration de données et les statistiques Analyse de données avec MySql : comment gérer l'exploration de données et les statistiques Jun 16, 2023 am 11:43 AM

MySql est un système de gestion de bases de données relationnelles populaire largement utilisé dans le stockage et la gestion de données d'entreprise et personnelles. En plus de stocker et d'interroger des données, MySql fournit également des fonctions telles que l'analyse des données, l'exploration de données et les statistiques qui peuvent aider les utilisateurs à mieux comprendre et utiliser les données. Les données constituent un atout précieux dans toute entreprise ou organisation, et leur analyse peut aider les entreprises à prendre les bonnes décisions commerciales. MySql peut effectuer l'analyse et l'exploration de données de plusieurs manières. Voici quelques techniques et outils pratiques : Utilisation.

Quelle est la différence entre l'exploration de données et l'analyse de données ? Quelle est la différence entre l'exploration de données et l'analyse de données ? Dec 07, 2020 pm 03:16 PM

Différences : 1. Les conclusions tirées par « l'analyse des données » sont les résultats des activités intellectuelles humaines, tandis que les conclusions tirées par « l'exploration de données » sont les règles de connaissances découvertes par la machine à partir de l'ensemble d'apprentissage [ou ensemble d'entraînement, ensemble d'échantillons] ; 2. L'« analyse » des données ne peut pas établir de modèles mathématiques et nécessite une modélisation manuelle, tandis que le « data mining » complète directement la modélisation mathématique.

Partage de la technologie des outils du moteur Volcano : utilisez l'IA pour terminer l'exploration de données et l'écriture SQL avec un seuil zéro Partage de la technologie des outils du moteur Volcano : utilisez l'IA pour terminer l'exploration de données et l'écriture SQL avec un seuil zéro May 18, 2023 pm 08:19 PM

Lors de l'utilisation des outils de BI, les questions souvent rencontrées sont : "Comment pouvons-nous produire et traiter des données sans SQL ? Pouvons-nous faire de l'analyse minière sans connaître les algorithmes ?" Lorsqu'une équipe d'algorithmes professionnelle effectue de l'exploration de données, l'analyse et la visualisation des données seront également présentées. phénomène relativement fragmenté. Réaliser les travaux de modélisation d’algorithmes et d’analyse de données de manière rationalisée est également un bon moyen d’améliorer l’efficacité. Dans le même temps, pour les équipes professionnelles d'entrepôt de données, le contenu des données sur le même thème est confronté au problème de « construction répétée, utilisation et gestion relativement dispersées » : existe-t-il un moyen de produire des ensembles de données avec le même thème et un contenu différent en même temps ? temps dans une tâche ? L’ensemble de données produit peut-il être utilisé comme entrée pour participer à nouveau à la construction des données ? 1. La capacité de modélisation visuelle de DataWind est fournie avec la plateforme BI Da lancée par Volcano Engine

Conseils de prévision de séries chronologiques en Python Conseils de prévision de séries chronologiques en Python Jun 10, 2023 am 08:10 AM

Avec l’avènement de l’ère des données, de plus en plus de données sont collectées et utilisées à des fins d’analyse et de prédiction. Les données de séries chronologiques sont un type de données courant qui contient une série de données basées sur le temps. Les méthodes utilisées pour prévoir ce type de données sont appelées techniques de prévision de séries chronologiques. Python est un langage de programmation très populaire avec une forte prise en charge de la science des données et de l'apprentissage automatique, c'est donc également un outil très approprié pour la prévision de séries chronologiques. Cet article présentera certaines techniques de prévision de séries chronologiques couramment utilisées en Python et fournira quelques applications pratiques.

La pratique d'application de Redis dans l'intelligence artificielle et l'exploration de données La pratique d'application de Redis dans l'intelligence artificielle et l'exploration de données Jun 20, 2023 pm 07:10 PM

Avec l’essor de l’intelligence artificielle et de la technologie du Big Data, de plus en plus d’entreprises s’intéressent à la manière de stocker et de traiter efficacement les données. En tant que base de données à mémoire distribuée hautes performances, Redis attire de plus en plus l'attention dans les domaines de l'intelligence artificielle et de l'exploration de données. Cet article donnera une brève introduction aux caractéristiques de Redis et à sa pratique dans les applications d'intelligence artificielle et d'exploration de données. Redis est une base de données NoSQL open source, hautes performances et évolutive. Il prend en charge une variété de structures de données et fournit une mise en cache, des files d'attente de messages, des compteurs, etc.

Comment effectuer une classification automatique de texte et une exploration de données en PHP ? Comment effectuer une classification automatique de texte et une exploration de données en PHP ? May 22, 2023 pm 02:31 PM

PHP est un excellent langage de script côté serveur largement utilisé dans des domaines tels que le développement de sites Web et le traitement de données. Avec le développement rapide d’Internet et la quantité croissante de données, la manière d’effectuer efficacement une classification automatique des textes et une exploration des données est devenue une question importante. Cet article présentera les méthodes et techniques de classification automatique de texte et d'exploration de données en PHP. 1. Qu'est-ce que la classification automatique de textes et l'exploration de données ? La classification automatique du texte fait référence au processus de classification automatique du texte en fonction de son contenu, qui est généralement mis en œuvre à l'aide d'algorithmes d'apprentissage automatique. L'exploration de données fait référence à

Comment utiliser les règles d'association pour le data mining en Python ? Comment utiliser les règles d'association pour le data mining en Python ? Jun 04, 2023 am 09:02 AM

Python est un langage de programmation puissant qui peut être appliqué à diverses tâches d'exploration de données. Les règles d'association sont l'une des techniques courantes d'exploration de données, qui visent à découvrir des associations entre différents points de données afin de mieux comprendre l'ensemble de données. Dans cet article, nous verrons comment utiliser les règles d'association en Python pour l'exploration de données. Que sont les règles d'association ? Les règles d'association sont une technique d'exploration de données utilisée pour découvrir des associations entre différents points de données. Il est souvent utilisé pour l'analyse du panier, où nous pouvons découvrir quels articles sont souvent achetés ensemble.