首页 > 后端开发 > Python教程 > 全面的机器学习术语指南

全面的机器学习术语指南

WBOY
发布: 2024-07-26 12:58:51
原创
497 人浏览过

Comprehensive Machine Learning Terminology Guide

介绍

欢迎来到综合机器学习术语指南!无论您是机器学习领域的新手,还是希望温习词汇的经验丰富的从业者,本指南都旨在成为您了解构成 ML 基础的关键术语和概念的首选资源。


基本概念

机器学习 (ML):人工智能的一个子集,专注于构建可以从数据中学习并根据数据做出决策的系统。

人工智能 (AI):创造可以模拟人类思维能力和行为的智能机器的更广泛领域。

深度学习:基于多层人工神经网络的机器学习子集。

数据集:用于训练和测试机器学习模型的数据集合。

特征:所观察到的现象的单个可测量属性或特征。

标签:我们在监督学习中尝试预测的目标变量。

模型:从数据中学习的现实世界过程的数学表示。

算法:解决问题的逐步过程或公式。

训练:教授模型根据数据做出预测或决策的过程。

推理:使用经过训练的模型对新的、未见过的数据进行预测。


机器学习的类型

监督学习:从标记数据中学习以预测不可预见数据的结果。

无监督学习:在没有标记响应的情况下查找输入数据中隐藏的模式或内在结构。

半监督学习:从标记和未标记数据的组合中学习。

强化学习:学习通过与环境交互来做出决策。

迁移学习:将从一项任务中获得的知识应用于相关任务。


模型评估和指标

准确率:正确预测占所检查案例总数的比例。

精度:真阳性预测占所有阳性预测的比例。

召回率:真阳性预测占所有实际阳性案例的比例。

F1 分数:精确率和召回率的调和平均值。

ROC 曲线:说明二元分类器系统的诊断能力的图形。

AUC(曲线下面积):衡量分类器区分类别的能力。

混淆矩阵:用于描述分类模型性能的表格。

交叉验证:用于在有限数据样本上评估机器学习模型的重采样过程。

过度拟合:当模型对训练数据学习得很好时,包括噪声和波动。

欠拟合:当模型太简单而无法捕获数据的底层结构时。


神经网络和深度学习

神经元:神经网络的基本单位,大致模仿生物神经元。

激活函数:在给定输入或一组输入的情况下确定神经元输出的函数。

权重:神经网络中决定神经元之间连接强度的参数。

偏差:神经网络中的附加参数,用于调整输出以及神经元输入的加权和。

反向传播:一种通过根据预测误差迭代调整网络权重来训练神经网络的算法。

梯度下降:一种优化算法,用于通过沿最陡下降的方向迭代移动来最小化损失函数。

Epoch:一次完整地遍历整个训练数据集。

批次:模型训练的一次迭代中使用的训练数据的子集。

学习率:一个超参数,用于控制每次更新模型权重时响应估计误差而改变模型的程度。

卷积神经网络(CNN):一种常用于图像识别和处理的神经网络。

递归神经网络 (RNN):一种旨在识别数据序列中的模式的神经网络。

长短期记忆 (LSTM):一种能够学习长期依赖关系的 RNN。

Transformer:完全依赖注意力机制来绘制输入和输出之间的全局依赖关系的模型架构。


特征工程和选择

特征工程:利用领域知识从原始数据中提取特征的过程。

特征选择:选择相关特征子集用于模型构建的过程。

降维:减少数据集中输入变量数量的技术。

主成分分析 (PCA):一种统计过程,使用正交变换将一组可能相关变量的观测值转换为一组线性不相关变量的值。


集成方法

集成学习:组合多个模型来解决计算智能问题的过程。

Bagging:一种使用训练数据的多个子集来训练不同模型的集成方法。

Boosting:一种将弱学习器组合起来创建强学习器的集成方法。

随机森林:一种构建大量决策树的集成学习方法。


自然语言处理(NLP)

标记化:将文本分解为单个单词或子词的过程。

词干提取:将词形变化的单词缩减为其词干或词根形式的过程。

词形还原:将单词的不同变形形式分组在一起的过程。

词嵌入:一种学习的文本表示,其中具有相似含义的单词具有相似的表示。

命名实体识别 (NER):识别和分类文本中的命名实体的任务。

情感分析:使用自然语言处理从文本中识别和提取主观信息。


强化学习

代理:强化学习场景中的学习者或决策者。

环境:智能体运行和学习的世界。

状态:环境中代理的当前情况或状况。

行动:代理做出的举动或决定。

奖励:来自环境的反馈,用于评估代理所采取的操作。

策略:代理根据当前状态确定下一步操作的策略。


先进理念

生成对抗网络(GAN):一类机器学习框架,其中两个神经网络相互竞争。

注意力机制:一种模仿认知注意力的技术,增强输入数据的重要部分并减少不相关部分。

迁移学习:机器学习中的一个研究问题,重点是存储在解决一个问题时获得的知识并将其应用于另一个不同但相关的问题。

少样本学习:一种机器学习,模型经过训练仅从几个示例中识别新类别。

可解释的人工智能 (XAI):结果可以被人类理解的人工智能系统。

联邦学习:一种机器学习技术,可跨多个分散的设备或保存本地数据样本的服务器训练算法。

AutoML:将机器学习应用于现实世界问题的端到端过程自动化的过程。


结论

如果您正在阅读本文,非常感谢您!我非常感激❤️。

在 Twitter appyzdl5 上关注我,获取有关 ML 的定期更新、见解和引人入胜的对话。

我的 Github,其中包含从头开始的 miniGit 和 ML 算法等项目:@appyzdl

以上是全面的机器学习术语指南的详细内容。更多信息请关注PHP中文网其他相关文章!

来源:dev.to
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板