La science des données à connaître : 10 concepts importants + la signification de 22 graphiques-IA-php.cn

Table des matières

01 偏差-方差权衡

02 基尼不纯度与熵

03 精度与召回曲线

04 ROC曲线

05 弯头曲线

06三块地块

07线性和逻辑回归曲线

08支持向量机（几何理解）

09标准正态分布规则（z-分布）

Résumé

Maison

Périphériques technologiques

La science des données à connaître : 10 concepts importants + la signification de 22 graphiques

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 08, 2023 pm 02:41 PM

机器学习数据科学

01 偏差-方差权衡

这是一个总是在机器学习最重要理论中名列前茅的概念。机器学习中的几乎所有算法（包括深度学习）都努力在偏差和方差之间取得适当的平衡，这个图清楚地解释了二者的对立关系。

La science des données à connaître : 10 concepts importants + la signification de 22 graphiques

02 基尼不纯度与熵

Gini（缺乏同质性的度量）和 Entropy（随机性的度量）都是决策树中节点不纯度的度量。

La science des données à connaître : 10 concepts importants + la signification de 22 graphiques

对于这两个概念更重要的是要了解它们之间的关系，以便能够在给定的场景中选择正确的指标。

基尼不纯度（系数）通常比熵更容易计算（因为熵涉及对数计算）。

03 精度与召回曲线

精度-召回曲线显示了不同阈值的精度和召回率之间的权衡。曲线下面积大代表高召回率和高精度，其中高精度与低误报率相关，高召回率与低误报率相关。

它可以帮助我们根据需要选择正确的阈值。例如，如果我们的目标是减少类型 1 错误，我们需要选择高精度，而如果我们的目标是最小化类型 2 错误，那么我们应该选择一个阈值，使得召回率很高。 La science des données à connaître : 10 concepts importants + la signification de 22 graphiques

精度分母是一个变量：即假阳性（归类为阳性的负样本）每次都会变化。
召回分母是一个常数：它代表真值的总数，因此将始终保持不变。

这就是为什么下图 Precision 在结束时有一个波动，而召回始终保持平稳的原因。

La science des données à connaître : 10 concepts importants + la signification de 22 graphiques

04 ROC曲线

ROC 曲线是显示分类模型在所有分类阈值下的性能的图表。

这条曲线绘制了两个参数：

真阳性率<br>误报率

Copier après la connexion

La science des données à connaître : 10 concepts importants + la signification de 22 graphiques

此曲线下的面积（称为 AUC），也可用作性能指标。AUC 越高，模型越好。

La science des données à connaître : 10 concepts importants + la signification de 22 graphiques

05 弯头曲线

用于K-means算法中最优簇数的选择。WCSS（簇内平方和）是给定簇中每个点与质心之间的平方距离之和。当我们用 K（簇数）值绘制 WCSS 时，该图看起来像一个肘部（弯头）。

随着聚类数量的增加，WCSS 值将开始下降。K = 1时WCSS值最大

Copier après la connexion

La science des données à connaître : 10 concepts importants + la signification de 22 graphiques

06三块地块

它帮助我们在对高维数据执行主成分分析后，可视化每个主成分解释的变异百分比。为了选择正确数量的主成分来考虑我们的模型，我们通常会绘制此图并选择能够为我们提供足够好的总体方差百分比的值。

La science des données à connaître : 10 concepts importants + la signification de 22 graphiques

07线性和逻辑回归曲线

La science des données à connaître : 10 concepts importants + la signification de 22 graphiques

对于线性可分数据，我们可以进行线性回归或逻辑回归，二者都可以作为决策边界曲线/线。但是，在逻辑回归的情况下，由于通常只有 2 个类别，因此具有线性直线决策边界可能不起作用，在一条直线上值从低到高非常均匀地上升，因为它不够陡峭在值突然上升后会得到很多临界的高值或者低值，最终会错误分类。因此，"边界"区域，即概率从高到低转变的区域并不真正存在。所以一般情况下会应用 sigmoid 变换将其转换为 sigmoid 曲线，该曲线在极端情况下是平滑的，在中间几乎是线性的。

La science des données à connaître : 10 concepts importants + la signification de 22 graphiques

08支持向量机（几何理解）

La science des données à connaître : 10 concepts importants + la signification de 22 graphiques

09标准正态分布规则（z-分布）

均值为0，标准差为1的特殊正态分布。 La science des données à connaître : 10 concepts importants + la signification de 22 graphiques

经验法则指出，按照正态分布观察到的数据中有 99.7% 位于平均值的 3 个标准差以内。根据该规则，68% 的数据在一个标准差内，95% 在两个标准差内，99.7% 在三个标准差内。10学生T分布T 分布（也称为学生 T 分布）是一系列分布，看起来几乎与正态分布曲线相同，只是更短和更宽/更胖。当我们有较小的样本时，我们使用 T分布而不是正态分布。样本量越大，t 分布越像正态分布。事实上，在 30 个样本之后，T 分布几乎与正态分布完全一样。

La science des données à connaître : 10 concepts importants + la signification de 22 graphiques

Résumé

Nous pouvons rencontrer de nombreux concepts petits mais cruciaux qui constituent la base sur laquelle nous pouvons prendre une décision ou choisir le bon modèle. Les concepts importants mentionnés dans cet article peuvent être représentés par des diagrammes associés. Ces concepts sont très importants et nous devons connaître leur signification la première fois que nous les voyons. Si vous maîtrisez les concepts ci-dessus, vous pouvez essayer d'expliquer ce qui suit. la photo représente :

La science des données à connaître : 10 concepts importants + la signification de 22 graphiques

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7461

Tutoriel CakePHP

1376

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Cet article vous amènera à comprendre SHAP : explication du modèle pour l'apprentissage automatique Jun 01, 2024 am 10:58 AM

Dans les domaines de l’apprentissage automatique et de la science des données, l’interprétabilité des modèles a toujours été au centre des préoccupations des chercheurs et des praticiens. Avec l'application généralisée de modèles complexes tels que l'apprentissage profond et les méthodes d'ensemble, la compréhension du processus décisionnel du modèle est devenue particulièrement importante. Explainable AI|XAI contribue à renforcer la confiance dans les modèles d'apprentissage automatique en augmentant la transparence du modèle. L'amélioration de la transparence des modèles peut être obtenue grâce à des méthodes telles que l'utilisation généralisée de plusieurs modèles complexes, ainsi que les processus décisionnels utilisés pour expliquer les modèles. Ces méthodes incluent l'analyse de l'importance des caractéristiques, l'estimation de l'intervalle de prédiction du modèle, les algorithmes d'interprétabilité locale, etc. L'analyse de l'importance des fonctionnalités peut expliquer le processus de prise de décision du modèle en évaluant le degré d'influence du modèle sur les fonctionnalités d'entrée. Estimation de l’intervalle de prédiction du modèle

Transparent! Une analyse approfondie des principes des principaux modèles de machine learning ! Apr 12, 2024 pm 05:55 PM

En termes simples, un modèle d’apprentissage automatique est une fonction mathématique qui mappe les données d’entrée à une sortie prédite. Plus précisément, un modèle d'apprentissage automatique est une fonction mathématique qui ajuste les paramètres du modèle en apprenant à partir des données d'entraînement afin de minimiser l'erreur entre la sortie prédite et la véritable étiquette. Il existe de nombreux modèles dans l'apprentissage automatique, tels que les modèles de régression logistique, les modèles d'arbre de décision, les modèles de machines à vecteurs de support, etc. Chaque modèle a ses types de données et ses types de problèmes applicables. Dans le même temps, il existe de nombreux points communs entre les différents modèles, ou il existe une voie cachée pour l’évolution du modèle. En prenant comme exemple le perceptron connexionniste, en augmentant le nombre de couches cachées du perceptron, nous pouvons le transformer en un réseau neuronal profond. Si une fonction noyau est ajoutée au perceptron, elle peut être convertie en SVM. celui-ci

Identifier le surapprentissage et le sous-apprentissage grâce à des courbes d'apprentissage Apr 29, 2024 pm 06:50 PM

Cet article présentera comment identifier efficacement le surajustement et le sous-apprentissage dans les modèles d'apprentissage automatique grâce à des courbes d'apprentissage. Sous-ajustement et surajustement 1. Surajustement Si un modèle est surentraîné sur les données de sorte qu'il en tire du bruit, alors on dit que le modèle est en surajustement. Un modèle surajusté apprend chaque exemple si parfaitement qu'il classera mal un exemple inédit/inédit. Pour un modèle surajusté, nous obtiendrons un score d'ensemble d'entraînement parfait/presque parfait et un score d'ensemble/test de validation épouvantable. Légèrement modifié : "Cause du surajustement : utilisez un modèle complexe pour résoudre un problème simple et extraire le bruit des données. Parce qu'un petit ensemble de données en tant qu'ensemble d'entraînement peut ne pas représenter la représentation correcte de toutes les données."

L'évolution de l'intelligence artificielle dans l'exploration spatiale et l'ingénierie des établissements humains Apr 29, 2024 pm 03:25 PM

Dans les années 1950, l’intelligence artificielle (IA) est née. C’est à ce moment-là que les chercheurs ont découvert que les machines pouvaient effectuer des tâches similaires à celles des humains, comme penser. Plus tard, dans les années 1960, le Département américain de la Défense a financé l’intelligence artificielle et créé des laboratoires pour poursuivre son développement. Les chercheurs trouvent des applications à l’intelligence artificielle dans de nombreux domaines, comme l’exploration spatiale et la survie dans des environnements extrêmes. L'exploration spatiale est l'étude de l'univers, qui couvre l'ensemble de l'univers au-delà de la terre. L’espace est classé comme environnement extrême car ses conditions sont différentes de celles de la Terre. Pour survivre dans l’espace, de nombreux facteurs doivent être pris en compte et des précautions doivent être prises. Les scientifiques et les chercheurs pensent qu'explorer l'espace et comprendre l'état actuel de tout peut aider à comprendre le fonctionnement de l'univers et à se préparer à d'éventuelles crises environnementales.

Implémentation d'algorithmes d'apprentissage automatique en C++ : défis et solutions courants Jun 03, 2024 pm 01:25 PM

Les défis courants rencontrés par les algorithmes d'apprentissage automatique en C++ incluent la gestion de la mémoire, le multithread, l'optimisation des performances et la maintenabilité. Les solutions incluent l'utilisation de pointeurs intelligents, de bibliothèques de threads modernes, d'instructions SIMD et de bibliothèques tierces, ainsi que le respect des directives de style de codage et l'utilisation d'outils d'automatisation. Des cas pratiques montrent comment utiliser la bibliothèque Eigen pour implémenter des algorithmes de régression linéaire, gérer efficacement la mémoire et utiliser des opérations matricielles hautes performances.

IA explicable : Expliquer les modèles IA/ML complexes Jun 03, 2024 pm 10:08 PM

Traducteur | Revu par Li Rui | Chonglou Les modèles d'intelligence artificielle (IA) et d'apprentissage automatique (ML) deviennent aujourd'hui de plus en plus complexes, et le résultat produit par ces modèles est une boîte noire – impossible à expliquer aux parties prenantes. L'IA explicable (XAI) vise à résoudre ce problème en permettant aux parties prenantes de comprendre comment fonctionnent ces modèles, en s'assurant qu'elles comprennent comment ces modèles prennent réellement des décisions et en garantissant la transparence des systèmes d'IA, la confiance et la responsabilité pour résoudre ce problème. Cet article explore diverses techniques d'intelligence artificielle explicable (XAI) pour illustrer leurs principes sous-jacents. Plusieurs raisons pour lesquelles l’IA explicable est cruciale Confiance et transparence : pour que les systèmes d’IA soient largement acceptés et fiables, les utilisateurs doivent comprendre comment les décisions sont prises

Cinq écoles d'apprentissage automatique que vous ne connaissez pas Jun 05, 2024 pm 08:51 PM

L'apprentissage automatique est une branche importante de l'intelligence artificielle qui donne aux ordinateurs la possibilité d'apprendre à partir de données et d'améliorer leurs capacités sans être explicitement programmés. L'apprentissage automatique a un large éventail d'applications dans divers domaines, de la reconnaissance d'images et du traitement du langage naturel aux systèmes de recommandation et à la détection des fraudes, et il change notre façon de vivre. Il existe de nombreuses méthodes et théories différentes dans le domaine de l'apprentissage automatique, parmi lesquelles les cinq méthodes les plus influentes sont appelées les « Cinq écoles d'apprentissage automatique ». Les cinq grandes écoles sont l’école symbolique, l’école connexionniste, l’école évolutionniste, l’école bayésienne et l’école analogique. 1. Le symbolisme, également connu sous le nom de symbolisme, met l'accent sur l'utilisation de symboles pour le raisonnement logique et l'expression des connaissances. Cette école de pensée estime que l'apprentissage est un processus de déduction inversée, à travers les connaissances existantes.

Flash Attention est-il stable ? Meta et Harvard ont constaté que les écarts de poids de leur modèle fluctuaient de plusieurs ordres de grandeur. May 30, 2024 pm 01:24 PM

MetaFAIR s'est associé à Harvard pour fournir un nouveau cadre de recherche permettant d'optimiser le biais de données généré lors de l'apprentissage automatique à grande échelle. On sait que la formation de grands modèles de langage prend souvent des mois et utilise des centaines, voire des milliers de GPU. En prenant comme exemple le modèle LLaMA270B, sa formation nécessite un total de 1 720 320 heures GPU. La formation de grands modèles présente des défis systémiques uniques en raison de l’ampleur et de la complexité de ces charges de travail. Récemment, de nombreuses institutions ont signalé une instabilité dans le processus de formation lors de la formation des modèles d'IA générative SOTA. Elles apparaissent généralement sous la forme de pics de pertes. Par exemple, le modèle PaLM de Google a connu jusqu'à 20 pics de pertes au cours du processus de formation. Le biais numérique est à l'origine de cette imprécision de la formation,

See all articles