Maison > développement back-end > Tutoriel Python > COMPRENDRE VOS DONNÉES : L'ESSENTIEL DE L'ANALYSE EXPLORATOIRE DES DONNÉES.

COMPRENDRE VOS DONNÉES : L'ESSENTIEL DE L'ANALYSE EXPLORATOIRE DES DONNÉES.

王林
Libérer: 2024-08-13 10:08:03
original
952 Les gens l'ont consulté

Présentation
Sur la base de l'objectif final que vous vous fixez concernant vos données grâce à un modèle d'apprentissage automatique, au développement de visualisations et à l'incorporation d'applications conviviales, le développement de la maîtrise des données au début du projet renforcera le succès final.
Les essentiels de l'EDA
C'est là que nous apprenons comment la nécessité du prétraitement des données est bénéfique pour les analystes de données.
En raison de l'immensité et de la diversité des sources, les données d'aujourd'hui sont plus susceptibles d'être anormales. Le prétraitement des données est devenu l'étape fondamentale dans le domaine de la science des données, car des données de haute qualité permettent d'obtenir des modèles et des prédictions plus robustes.
L'analyse exploratoire des données est un outil utilisé par un data scientist pour voir quelles données peuvent être exposées en dehors de la tâche formelle de modélisation ou de test d'hypothèses.
Le data scientist doit toujours effectuer une EDA pour garantir des résultats fiables et applicables à tous les résultats et objectifs concernés. Il aide également les scientifiques et les analystes à confirmer qu'ils sont sur la bonne voie pour atteindre les résultats souhaités.
Voici quelques exemples de questions de recherche qui guident l'étude :
1.Y a-t-il un effet significatif du prétraitement des données
approches d'analyse - valeurs manquantes, agrégation de valeurs, filtrage des données, valeurs aberrantes, transformation de variables et réduction de variables - sur des résultats d'analyse de données précis ?
2. À quel niveau significatif l’analyse des données de prétraitement est-elle nécessaire dans les études de recherche ?
Mesures d'analyse exploratoire des données et leur importance
1. Filtrage des données
Il s'agit de la pratique consistant à sélectionner une section plus petite d'un ensemble de données et à utiliser ce sous-ensemble à des fins de visualisation ou d'analyse. L'ensemble complet des données est conservé, mais seul un sous-ensemble est utilisé pour le calcul ; le filtrage est généralement une procédure temporaire. La découverte d'observations inexactes, incorrectes ou médiocres de l'étude, l'extraction de données pour un groupe d'intérêt spécifique ou la recherche d'informations sur une période spécifique peuvent toutes être résumées à l'aide de filtres. Le data scientist doit spécifier une règle ou une logique lors du filtrage pour extraire les cas pour l'étude.

2.Agrégation de données
L'agrégation des données nécessite de rassembler les données non traitées en un seul endroit et de les résumer pour analyse. L'agrégation des données augmente la valeur informationnelle, pratique et utilisable des données. Le point de vue d’un utilisateur technique est souvent utilisé pour définir l’expression. L'agrégation de données est le processus d'intégration de données non traitées provenant de nombreuses bases de données ou sources de données dans une base de données centralisée dans le cas d'un analyste ou d'un ingénieur. Les nombres agrégés sont ensuite créés en combinant les données brutes. Une somme ou une moyenne est une illustration simple d’une valeur globale. Les données agrégées sont utilisées dans l'analyse, le reporting, les tableaux de bord et d'autres produits de données. L'agrégation des données peut augmenter la productivité, la prise de décision et le temps d'obtention d'informations.

3.Données manquantes
Dans l'analyse de données, les valeurs manquantes sont un autre nom pour manquant
données. Cela se produit lorsque des variables ou des répondants spécifiques sont omis ou ignorés. Des omissions peuvent survenir en raison d'une saisie de données incorrecte, de fichiers perdus ou d'une technologie défectueuse. Les données manquantes peuvent entraîner par intermittence un biais du modèle, selon leur type, ce qui les rend problématiques. Les données manquantes impliquent que, étant donné que les données peuvent parfois provenir d'un échantillon trompeur, les résultats ne peuvent être généralisés qu'au sein des paramètres de l'étude. Pour garantir la cohérence sur l'ensemble de l'ensemble de données, il est nécessaire de recoder toutes les valeurs manquantes avec les étiquettes « N/A » (abréviation de « non applicable »).

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.
4.Transformation des données
Les données sont redimensionnées à l'aide d'une fonction ou d'autres mathématiques
opération sur chaque observation lors d’une transformation. Nous
modifier occasionnellement les données pour faciliter la modélisation lorsqu'elles
est très significativement asymétrique (soit positivement, soit négativement).
En d'autres termes, il faut essayer une transformation de données pour répondre à l'hypothèse d'application d'un test statistique paramétrique si
la ou les variables ne correspondent pas à une distribution normale. La transformation de données la plus populaire est le journal (ou journal naturel), qui est fréquemment utilisé lorsque toutes les observations sont positives et que la plupart des valeurs de données se regroupent autour de zéro concernant les valeurs les plus significatives de l'ensemble de données.

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.
Illustration du diagramme

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.

Techniques de visualisation en EDA
Les techniques de visualisation jouent un rôle essentiel dans l'EDA, nous permettant d'explorer et de comprendre visuellement des structures et des relations de données complexes. Certaines techniques de visualisation courantes utilisées en EDA sont :
1.Histogrammes :
Les histogrammes sont des représentations graphiques qui montrent la distribution de variables numériques. Ils aident à comprendre la tendance centrale et la répartition des données en visualisant la distribution de fréquence.

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.
2.Boxplots : Un boxplot est un graphique montrant la distribution d'une variable numérique. Cette technique de visualisation permet d'identifier les valeurs aberrantes et de comprendre la répartition des données en visualisant ses quartiles.

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.
3.Heatmaps : Ce sont des représentations graphiques de données dans lesquelles les couleurs représentent des valeurs. Ils sont souvent utilisés pour afficher des ensembles de données complexes, offrant un moyen rapide et simple de visualiser des modèles et des tendances dans de grandes quantités de données.

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.

4.Graphiques à barres : Un diagramme à barres est un graphique qui montre la distribution d'une variable catégorielle. Il est utilisé pour visualiser la distribution de fréquence des données, ce qui permet de comprendre la fréquence relative de chaque catégorie.

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.
5.Graphiques linéaires : Un graphique linéaire est un graphique qui montre la tendance d'une variable numérique au fil du temps. Il est utilisé pour visualiser les changements dans les données au fil du temps et pour identifier tout modèle ou tendance.

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.
5.Graphiques circulaires : Les diagrammes circulaires sont un graphique qui présente la proportion d'une variable catégorielle. Il est utilisé pour visualiser la proportion relative de chaque catégorie et comprendre la distribution des données.

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal