11 méthodes de base pour déterminer la normalité des distributions de données-IA-php.cn

Table des matières

1) est une méthode largement utilisée pour vérifier si une distribution de données. est conforme à une distribution normale. Dans le tracé QQ, les quantiles des données sont comparés aux quantiles de la distribution normale standard. Si la distribution des données est proche de la distribution normale, les points sur le tracé QQ seront proches d'une ligne droite

Le tracé KDE (Kernel Density Estimation) est une méthode de visualisation de la distribution des données, ce qui peut aider Nous avons testé la normalité des données. Dans le tracé KDE, en estimant la densité des données et en les dessinant dans une courbe lisse, cela nous aide à observer la forme de distribution des données.

L'exemple de code suivant est utilisé pour générer des données aléatoires suivant une distribution normale pour démontrer Violin Plot. Après avoir exécuté le code, vous pouvez voir le tracé Violin et la courbe de distribution normale correspondante. Détectez la forme de la distribution des données grâce à la visualisation pour juger dans un premier temps si les données sont proches d'une distribution normale

Le test de Shapiro-Wilk est une méthode statistique utilisée pour tester si les données sont conformes à la distribution normale, également connue sous le nom de test W. Lors de l'exécution du test de Shapiro-Wilk, nous nous concentrons généralement sur deux indicateurs principaux :

6.KS检验

7.Anderson-Darling检验

8.Lilliefors检验

9.距离测量Distance Measures

Maison

Périphériques technologiques

11 méthodes de base pour déterminer la normalité des distributions de données

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Dec 14, 2023 pm 08:50 PM

机器学习数据可视化数据科学

Dans le domaine de la science des données et de l'apprentissage automatique, de nombreux modèles supposent que les données sont normalement distribuées ou que les données fonctionnent mieux sous une distribution normale. Par exemple, la régression linéaire suppose que les résidus sont distribués normalement et l'analyse discriminante linéaire (LDA) est dérivée d'hypothèses telles que la distribution normale. Par conséquent, comprendre comment tester la normalité des données est crucial pour les data scientists et les praticiens de l'apprentissage automatique

11 méthodes de base pour déterminer la normalité des distributions de données

Cet article vise à présenter 11 méthodes de base pour tester la normalité des données afin d'aider les lecteurs à mieux comprendre les caractéristiques de la distribution des données et à apprendre comment appliquer des méthodes d’analyse appropriées. Cela permet de mieux gérer l'impact de la distribution des données sur les performances du modèle et de devenir plus à l'aise dans le processus d'apprentissage automatique et de modélisation des données

11 méthodes de base pour déterminer la normalité des distributions de données

Méthodes de traçage

1) est une méthode largement utilisée pour vérifier si une distribution de données. est conforme à une distribution normale. Dans le tracé QQ, les quantiles des données sont comparés aux quantiles de la distribution normale standard. Si la distribution des données est proche de la distribution normale, les points sur le tracé QQ seront proches d'une ligne droite

Pour démontrer le Tracé QQ, ce qui suit L'exemple de code génère un ensemble de données aléatoires qui suivent une distribution normale. Après avoir exécuté le code, vous pouvez voir le tracé QQ ainsi que la courbe de distribution normale correspondante. En observant la distribution des points sur le graphique, vous pouvez dans un premier temps juger si les données sont proches d'une distribution normale

import numpy as npimport scipy.stats as statsimport matplotlib.pyplot as plt# 生成一组随机数据，假设它们服从正态分布data = np.random.normal(0, 1, 1000)# 绘制QQ图stats.probplot(data, dist="norm", plot=plt)plt.title('Q-Q Plot')plt.show()

Copier après la connexion

11 méthodes de base pour déterminer la normalité des distributions de données 2 KDE Plot

Le tracé KDE (Kernel Density Estimation) est une méthode de visualisation de la distribution des données, ce qui peut aider Nous avons testé la normalité des données. Dans le tracé KDE, en estimant la densité des données et en les dessinant dans une courbe lisse, cela nous aide à observer la forme de distribution des données.

Pour démontrer le tracé KDE, l'exemple de code suivant génère un ensemble de données aléatoires qui obéit à un répartition normale. Après avoir exécuté le code, vous pouvez voir le tracé KDE et la courbe de distribution normale correspondante, et utiliser la visualisation pour détecter si la distribution des données est conforme à la normalité

import numpy as npimport seaborn as snsimport matplotlib.pyplot as plt# 生成随机数据np.random.seed(0)data = np.random.normal(loc=0, scale=1, size=1000)# 创建KDE Plotsns.kdeplot(data, shade=True, label='KDE Plot')# 添加正态分布曲线mu, sigma = np.mean(data), np.std(data)x = np.linspace(min(data), max(data), 100)y = (1/(sigma * np.sqrt(2 * np.pi))) * np.exp(-0.5 * ((x - mu) / sigma) ** 2)plt.plot(x, y, 'r--', label='Normal Distribution')# 显示图表plt.legend()plt.show()

Copier après la connexion

11 méthodes de base pour déterminer la normalité des distributions de données 3. Vous pouvez découvrir la distribution des données. en observant la forme du Violin Plot pour déterminer initialement si les données sont proches d'une distribution normale. Si le tracé en violon prend la forme d'une courbe en cloche, les données sont probablement distribuées à peu près normalement. Si votre tracé Violin est fortement asymétrique ou présente plusieurs pics, les données risquent de ne pas être distribuées normalement.

L'exemple de code suivant est utilisé pour générer des données aléatoires suivant une distribution normale pour démontrer Violin Plot. Après avoir exécuté le code, vous pouvez voir le tracé Violin et la courbe de distribution normale correspondante. Détectez la forme de la distribution des données grâce à la visualisation pour juger dans un premier temps si les données sont proches d'une distribution normale

import numpy as npimport seaborn as snsimport matplotlib.pyplot as plt# 生成随机数据np.random.seed(0)data = np.random.normal(loc=0, scale=1, size=100)# 创建 Violin Plotsns.violinplot(data, inner="points")# 添加正态分布曲线mu, sigma = np.mean(data), np.std(data)x = np.linspace(min(data), max(data), 100)y = (1/(sigma * np.sqrt(2 * np.pi))) * np.exp(-0.5 * ((x - mu) / sigma) ** 2)plt.plot(x, y, 'r--', label='Normal Distribution')# 显示图表plt.legend()plt.show()

Copier après la connexion

4.Histogramme

11 méthodes de base pour déterminer la normalité des distributions de données L'utilisation d'un histogramme (Histogramme) pour détecter la normalité de la distribution des données est également courante méthode. L'histogramme peut nous aider à comprendre intuitivement la distribution des données et peut déterminer de manière préliminaire si les données sont proches d'une distribution normale

import numpy as npimport matplotlib.pyplot as pltimport scipy.stats as stats# 生成一组随机数据，假设它们服从正态分布data = np.random.normal(0, 1, 1000)# 绘制直方图plt.hist(data, bins=30, density=True, alpha=0.6, color='g')plt.title('Histogram of Data')plt.xlabel('Value')plt.ylabel('Frequency')# 绘制正态分布的概率密度函数xmin, xmax = plt.xlim()x = np.linspace(xmin, xmax, 100)p = stats.norm.pdf(x, np.mean(data), np.std(data))plt.plot(x, p, 'k', linewidth=2)plt.show()

Copier après la connexion

Comme le montre la figure ci-dessus, si l'histogramme présente approximativement une courbe en forme de cloche et est cohérent avec la distribution normale correspondante. Si les formes de courbe sont similaires, alors les données sont susceptibles d'être distribuées normalement. Bien entendu, la visualisation n’est qu’un jugement préliminaire. Si une détection plus précise est requise, des méthodes statistiques telles que les tests de normalité peuvent être utilisées pour l’analyse.

11 méthodes de base pour déterminer la normalité des distributions de données Méthodes statistiques

5. Test de Shapiro-Wilk

Le test de Shapiro-Wilk est une méthode statistique utilisée pour tester si les données sont conformes à la distribution normale, également connue sous le nom de test W. Lors de l'exécution du test de Shapiro-Wilk, nous nous concentrons généralement sur deux indicateurs principaux :

Statistique W : calculez la statistique W en fonction de la corrélation entre les données observées et la valeur attendue sous la distribution normale, et la plage de valeurs de W entre 0 et 1, lorsque W est proche de 1, cela signifie que les données observées correspondent mieux à la distribution normale.

Valeur P : La valeur P indique la probabilité d'observer cette corrélation. Si la valeur P est supérieure au niveau de signification (généralement 0,05), cela indique que les données observées sont susceptibles de provenir d'une distribution normale.

Par conséquent, lorsque la statistique W est proche de 1 et que la valeur P est supérieure à 0,05, nous pouvons conclure que les données observées satisfont à la distribution normale.
Dans le code suivant, un ensemble de données aléatoires obéissant à la distribution normale est d'abord généré, puis le test de Shapiro-Wilk est effectué pour obtenir la statistique du test et la valeur P. Sur la base de la comparaison entre la valeur P et le niveau de signification, vous pouvez déterminer si les données de l'échantillon proviennent d'une distribution normale.

from scipy import statsimport numpy as np# 生成一组服从正态分布的随机数据data = np.random.normal(0, 1, 100)# 执行Shapiro-Wilk检验stat, p = stats.shapiro(data)print('Shapiro-Wilk Statistic:', stat)print('P-value:', p)# 根据P值判断正态性alpha = 0.05if p > alpha:print('样本数据可能来自正态分布')else:print('样本数据不符合正态分布')

Copier après la connexion

11 méthodes de base pour déterminer la normalité des distributions de données

6.KS检验

KS检验（Kolmogorov-Smirnov检验）是一种用于检验数据是否符合特定分布（例如正态分布）的统计方法。它通过计算观测数据与理论分布的累积分布函数（CDF）之间的最大差异来评估它们是否来自同一分布。其基本步骤如下：

对两个样本数据进行排序。
计算两个样本的经验累积分布函数(ECDF)，即计算每个值在样本中的累积百分比。
计算两个累积分布函数之间的差异，通常使用KS统计量衡量。
根据样本的大小和显著性水平，使用参考表活计算p值判断两个样本是否来自同一分布。

Python中使用KS检验来检验数据是否符合正态分布时，可以使用Scipy库中的kstest函数。下面是一个简单的示例，演示了如何使用Python进行KS检验来检验数据是否符合正态分布。

from scipy import statsimport numpy as np# 生成一组服从正态分布的随机数据data = np.random.normal(0, 1, 100)# 执行KS检验statistic, p_value = stats.kstest(data, 'norm')print('KS Statistic:', statistic)print('P-value:', p_value)# 根据P值判断正态性alpha = 0.05if p_value > alpha:print('样本数据可能来自正态分布')else:print('样本数据不符合正态分布')

Copier après la connexion

11 méthodes de base pour déterminer la normalité des distributions de données

7.Anderson-Darling检验

Anderson-Darling检验是一种用于检验数据是否来自特定分布（例如正态分布）的统计方法。它特别强调观察值在分布尾部的差异，因此在检测极端值的偏差方面非常有效

下面的代码使用stats.anderson函数执行Anderson-Darling检验，并获取检验统计量、临界值以及显著性水平。然后通过比较统计量和临界值，可以判断样本数据是否符合正态分布

from scipy import statsimport numpy as np# 生成一组服从正态分布的随机数据data = np.random.normal(0, 1, 100)# 执行Anderson-Darling检验result = stats.anderson(data, dist='norm')print('Anderson-Darling Statistic:', result.statistic)print('Critical Values:', result.critical_values)print('Significance Level:', result.significance_level)# 判断正态性if result.statistic <p style="text-align:center;"><img src="/static/imghw/default1.png" data-src="https://img.php.cn/upload/article/000/887/227/170255826239547.png" class="lazy" alt="11 méthodes de base pour déterminer la normalité des distributions de données"></p><h4 id="Lilliefors检验">8.Lilliefors检验</h4><p>Lilliefors检验（也被称为Kolmogorov-Smirnov-Lilliefors检验）是一种用于检验数据是否符合正态分布的统计检验方法。它是Kolmogorov-Smirnov检验的一种变体，专门用于小样本情况。与K-S检验不同，Lilliefors检验不需要假定数据的分布类型，而是基于观测数据来评估是否符合正态分布</p><p>在下面的例子中，我们使用lilliefors函数进行Lilliefors检验，并获得了检验统计量和P值。通过将P值与显著性水平进行比较，我们可以判断样本数据是否符合正态分布</p><pre class="brush:php;toolbar:false">import numpy as npfrom statsmodels.stats.diagnostic import lilliefors# 生成一组服从正态分布的随机数据data = np.random.normal(0, 1, 100)# 执行Lilliefors检验statistic, p_value = lilliefors(data)print('Lilliefors Statistic:', statistic)print('P-value:', p_value)# 根据P值判断正态性alpha = 0.05if p_value > alpha:print('样本数据可能来自正态分布')else:print('样本数据不符合正态分布')

Copier après la connexion

11 méthodes de base pour déterminer la normalité des distributions de données

9.距离测量Distance Measures

距离测量（Distance measures）是一种有效的测试数据正态性的方法，它提供了更直观的方式来比较观察数据分布与参考分布之间的差异。

11 méthodes de base pour déterminer la normalité des distributions de données

下面是一些常见的距离测量方法及其在测试正态性时的应用：

(1) "巴氏距离（Bhattacharyya distance）"的定义是：

测量两个分布之间的重叠，通常被解释为两个分布之间的接近程度。
选择与观察到的分布具有最小Bhattacharyya距离的参考分布，作为最接近的分布。

(2) 「海林格距离（Hellinger distance）」：

用于衡量两个分布之间的相似度，类似于Bhattacharyya距离。
与Bhattacharyya距离不同的是，Hellinger距离满足三角不等式，这使得它在一些情况下更为实用。

(3) "KL 散度（KL Divergence）"：

它本身并不是严格意义上的“距离度量”，但在测试正态性时可以用作衡量信息丢失的指标。
选择与观察到的分布具有最小KL散度的参考分布，作为最接近的分布。

运用这些距离测量方法，我们能够比对观测到的分布与多个参考分布之间的差异，进而更好地评估数据的正态性。通过找出与观察到的分布距离最短的参考分布，我们可以更精确地判断数据是否符合正态分布

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

1 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Où trouver la courte de la grue à atomide atomique

1 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7422

Tutoriel CakePHP

1359

Quel est le format du nom de compte de Steam

Clé d&#39;activation Win11 permanent

Afficher plus

Related knowledge

Cet article vous amènera à comprendre SHAP : explication du modèle pour l'apprentissage automatique Jun 01, 2024 am 10:58 AM

Dans les domaines de l’apprentissage automatique et de la science des données, l’interprétabilité des modèles a toujours été au centre des préoccupations des chercheurs et des praticiens. Avec l'application généralisée de modèles complexes tels que l'apprentissage profond et les méthodes d'ensemble, la compréhension du processus décisionnel du modèle est devenue particulièrement importante. Explainable AI|XAI contribue à renforcer la confiance dans les modèles d'apprentissage automatique en augmentant la transparence du modèle. L'amélioration de la transparence des modèles peut être obtenue grâce à des méthodes telles que l'utilisation généralisée de plusieurs modèles complexes, ainsi que les processus décisionnels utilisés pour expliquer les modèles. Ces méthodes incluent l'analyse de l'importance des caractéristiques, l'estimation de l'intervalle de prédiction du modèle, les algorithmes d'interprétabilité locale, etc. L'analyse de l'importance des fonctionnalités peut expliquer le processus de prise de décision du modèle en évaluant le degré d'influence du modèle sur les fonctionnalités d'entrée. Estimation de l’intervalle de prédiction du modèle

Transparent! Une analyse approfondie des principes des principaux modèles de machine learning ! Apr 12, 2024 pm 05:55 PM

En termes simples, un modèle d’apprentissage automatique est une fonction mathématique qui mappe les données d’entrée à une sortie prédite. Plus précisément, un modèle d'apprentissage automatique est une fonction mathématique qui ajuste les paramètres du modèle en apprenant à partir des données d'entraînement afin de minimiser l'erreur entre la sortie prédite et la véritable étiquette. Il existe de nombreux modèles dans l'apprentissage automatique, tels que les modèles de régression logistique, les modèles d'arbre de décision, les modèles de machines à vecteurs de support, etc. Chaque modèle a ses types de données et ses types de problèmes applicables. Dans le même temps, il existe de nombreux points communs entre les différents modèles, ou il existe une voie cachée pour l’évolution du modèle. En prenant comme exemple le perceptron connexionniste, en augmentant le nombre de couches cachées du perceptron, nous pouvons le transformer en un réseau neuronal profond. Si une fonction noyau est ajoutée au perceptron, elle peut être convertie en SVM. celui-ci

Identifier le surapprentissage et le sous-apprentissage grâce à des courbes d'apprentissage Apr 29, 2024 pm 06:50 PM

Cet article présentera comment identifier efficacement le surajustement et le sous-apprentissage dans les modèles d'apprentissage automatique grâce à des courbes d'apprentissage. Sous-ajustement et surajustement 1. Surajustement Si un modèle est surentraîné sur les données de sorte qu'il en tire du bruit, alors on dit que le modèle est en surajustement. Un modèle surajusté apprend chaque exemple si parfaitement qu'il classera mal un exemple inédit/inédit. Pour un modèle surajusté, nous obtiendrons un score d'ensemble d'entraînement parfait/presque parfait et un score d'ensemble/test de validation épouvantable. Légèrement modifié : "Cause du surajustement : utilisez un modèle complexe pour résoudre un problème simple et extraire le bruit des données. Parce qu'un petit ensemble de données en tant qu'ensemble d'entraînement peut ne pas représenter la représentation correcte de toutes les données."

L'évolution de l'intelligence artificielle dans l'exploration spatiale et l'ingénierie des établissements humains Apr 29, 2024 pm 03:25 PM

Dans les années 1950, l’intelligence artificielle (IA) est née. C’est à ce moment-là que les chercheurs ont découvert que les machines pouvaient effectuer des tâches similaires à celles des humains, comme penser. Plus tard, dans les années 1960, le Département américain de la Défense a financé l’intelligence artificielle et créé des laboratoires pour poursuivre son développement. Les chercheurs trouvent des applications à l’intelligence artificielle dans de nombreux domaines, comme l’exploration spatiale et la survie dans des environnements extrêmes. L'exploration spatiale est l'étude de l'univers, qui couvre l'ensemble de l'univers au-delà de la terre. L’espace est classé comme environnement extrême car ses conditions sont différentes de celles de la Terre. Pour survivre dans l’espace, de nombreux facteurs doivent être pris en compte et des précautions doivent être prises. Les scientifiques et les chercheurs pensent qu'explorer l'espace et comprendre l'état actuel de tout peut aider à comprendre le fonctionnement de l'univers et à se préparer à d'éventuelles crises environnementales.

Implémentation d'algorithmes d'apprentissage automatique en C++ : défis et solutions courants Jun 03, 2024 pm 01:25 PM

Les défis courants rencontrés par les algorithmes d'apprentissage automatique en C++ incluent la gestion de la mémoire, le multithread, l'optimisation des performances et la maintenabilité. Les solutions incluent l'utilisation de pointeurs intelligents, de bibliothèques de threads modernes, d'instructions SIMD et de bibliothèques tierces, ainsi que le respect des directives de style de codage et l'utilisation d'outils d'automatisation. Des cas pratiques montrent comment utiliser la bibliothèque Eigen pour implémenter des algorithmes de régression linéaire, gérer efficacement la mémoire et utiliser des opérations matricielles hautes performances.

IA explicable : Expliquer les modèles IA/ML complexes Jun 03, 2024 pm 10:08 PM

Traducteur | Revu par Li Rui | Chonglou Les modèles d'intelligence artificielle (IA) et d'apprentissage automatique (ML) deviennent aujourd'hui de plus en plus complexes, et le résultat produit par ces modèles est une boîte noire – impossible à expliquer aux parties prenantes. L'IA explicable (XAI) vise à résoudre ce problème en permettant aux parties prenantes de comprendre comment fonctionnent ces modèles, en s'assurant qu'elles comprennent comment ces modèles prennent réellement des décisions et en garantissant la transparence des systèmes d'IA, la confiance et la responsabilité pour résoudre ce problème. Cet article explore diverses techniques d'intelligence artificielle explicable (XAI) pour illustrer leurs principes sous-jacents. Plusieurs raisons pour lesquelles l’IA explicable est cruciale Confiance et transparence : pour que les systèmes d’IA soient largement acceptés et fiables, les utilisateurs doivent comprendre comment les décisions sont prises

Cinq écoles d'apprentissage automatique que vous ne connaissez pas Jun 05, 2024 pm 08:51 PM

L'apprentissage automatique est une branche importante de l'intelligence artificielle qui donne aux ordinateurs la possibilité d'apprendre à partir de données et d'améliorer leurs capacités sans être explicitement programmés. L'apprentissage automatique a un large éventail d'applications dans divers domaines, de la reconnaissance d'images et du traitement du langage naturel aux systèmes de recommandation et à la détection des fraudes, et il change notre façon de vivre. Il existe de nombreuses méthodes et théories différentes dans le domaine de l'apprentissage automatique, parmi lesquelles les cinq méthodes les plus influentes sont appelées les « Cinq écoles d'apprentissage automatique ». Les cinq grandes écoles sont l’école symbolique, l’école connexionniste, l’école évolutionniste, l’école bayésienne et l’école analogique. 1. Le symbolisme, également connu sous le nom de symbolisme, met l'accent sur l'utilisation de symboles pour le raisonnement logique et l'expression des connaissances. Cette école de pensée estime que l'apprentissage est un processus de déduction inversée, à travers les connaissances existantes.

Flash Attention est-il stable ? Meta et Harvard ont constaté que les écarts de poids de leur modèle fluctuaient de plusieurs ordres de grandeur. May 30, 2024 pm 01:24 PM

MetaFAIR s'est associé à Harvard pour fournir un nouveau cadre de recherche permettant d'optimiser le biais de données généré lors de l'apprentissage automatique à grande échelle. On sait que la formation de grands modèles de langage prend souvent des mois et utilise des centaines, voire des milliers de GPU. En prenant comme exemple le modèle LLaMA270B, sa formation nécessite un total de 1 720 320 heures GPU. La formation de grands modèles présente des défis systémiques uniques en raison de l’ampleur et de la complexité de ces charges de travail. Récemment, de nombreuses institutions ont signalé une instabilité dans le processus de formation lors de la formation des modèles d'IA générative SOTA. Elles apparaissent généralement sous la forme de pics de pertes. Par exemple, le modèle PaLM de Google a connu jusqu'à 20 pics de pertes au cours du processus de formation. Le biais numérique est à l'origine de cette imprécision de la formation,

See all articles