一文读懂什么是机器学习-人工智能-PHP中文网

训练数据——指机器学习系统必须从中学习的文本、图像、视频或时间序列信息。训练数据通常被标记以向 ML 系统显示“正确答案”是什么，例如人脸检测器中人脸周围的边界框，或股票预测器中的未来股票表现。
表示——它指的是训练数据中对象的编码表示，例如用“眼睛”等特征表示的人脸。编码某些模型比其他模型更容易，这就是驱动模型选择的原因。例如，神经网络形成一种表示，而支持向量机形成另一种表示。大多数现代方法都使用神经网络。
评估——这是关于我们如何判断或确定一种模型而不是另一种模型。我们通常称其为效用函数、损失函数或评分函数。均方误差（模型的输出与数据输出）或似然（给定观察数据的模型的估计概率）是不同评估函数的示例。
优化——这是指如何搜索表示模型的空间或改进训练数据中的标签以获得更好的评估。优化意味着更新模型参数以最小化损失函数的值。它有助于模型以更快的速度提高其准确性。

以上是机器学习算法的四个组成部分的详细分类。

机器学习系统的功能

描述性：系统收集历史数据，对其进行组织，然后以易于理解的方式呈现。

主要重点是掌握企业中已经发生的事情，而不是从其发现中得出推论或预测。描述性分析使用简单的数学和统计工具，例如算术、平均值和百分比，而不是预测性和规范性分析所需的复杂计算。

描述性分析主要针对历史数据进行分析并推断，而预测性分析则关注于预测和理解未来可能出现的情况。

通过查看历史数据来分析过去的数据模式和趋势可以预测未来可能发生的事情。

规范性的分析告诉我们如何行动，而描述性分析告诉我们过去发生了什么。预测性分析则告诉我们通过从过去学习，未来可能会发生什么。但是，一旦我们对可能发生的事情有了洞察力，应该做什么呢？

这就是规范性分析。它帮助系统使用过去的知识对一个人可以采取的行动提出多项建议。规范性分析可以模拟场景并提供实现预期结果的途径。

三机器学习是如何工作的

ML算法的学习可以分为三个主要部分。

决策过程

机器学习模型旨在从数据中学习模式并应用这些知识进行预测。问题是：模型如何进行预测？

这个过程非常基础——从输入数据（标记或未标记）中找到模式并应用它来得出结果。

误差函数

机器学习模型旨在将自己做出的预测与基本事实进行比较。目标是了解它是否在朝着正确的方向学习。这决定了模型的准确性，并暗示了我们如何改进模型的训练。

模型优化过程

该模型的最终目标是改进预测，这意味着减少已知结果与相应模型估计之间的差异。

该模型需要通过不断更新权重来更好地适应训练数据样本。该算法循环工作，评估和优化结果，更新权重，直到获得关于模型准确性的最大值。

机器学习方法的类型

机器学习主要包括四种类型。

1. 监督机器学习

在监督学习中，顾名思义，机器在指导下学习。

这是通过向计算机提供一组标记数据来完成的，以使机器了解输入的内容以及输出应该是什么。在这里，人类充当向导，为模型提供带标签的训练数据（输入-输出对），机器从中学习模式。

一旦从以前的数据集中学习了输入和输出之间的关系，机器就可以轻松地预测新数据的输出值。

我们可以在哪里使用监督学习？

答案是：在我们知道在输入数据中查看什么以及我们想要什么作为输出的情况下。

监督学习问题的主要类型包括回归和分类问题。

2. 无监督机器学习

无监督学习的工作方式与监督学习的工作方式恰恰相反。

它使用未标记的数据——机器必须理解数据，找到隐藏的模式并做出相应的预测。

在这里，机器在独立地从数据中推导出隐藏模式后为我们提供新发现，而无需人工指定要寻找的内容。

无监督学习问题的主要类型包括聚类和关联规则分析。

一文读懂什么是机器学习

3.强化学习

强化学习涉及一个代理，该代理通过执行操作来学习在环境中的行为。

根据这些行动的结果，它会提供反馈并调整其未来的路线——对于每一个好的动作，代理都会得到积极的反馈，而对于每一个坏的动作，代理都会得到负面的反馈或惩罚。

强化学习在没有任何标记数据的情况下进行学习。由于没有标记数据，代理只能根据自己的经验进行学习。

4. 半监督学习

半监督是监督和无监督学习之间的状态。

它从每个学习中获取积极的方面，即它使用较小的标记数据集来指导分类，并从较大的未标记数据集中执行无监督特征提取。

使用半监督学习的主要优点是它能够在没有足够的标记数据来训练模型时解决问题，或者当数据根本无法标记时因为人类不知道要在其中寻找什么。

四 6 个真实世界的机器学习应用

如今，机器学习几乎是所有科技公司的核心，包括谷歌或 Youtube 搜索引擎等企业。

下面，汇总了一些您可能熟悉的机器学习在现实生活中的应用示例：

自动驾驶汽车

车辆在道路上会遇到各种各样的情况。

为了让自动驾驶汽车比人类表现更好，它们需要学习并适应不断变化的路况和其他车辆的行为。

一文读懂什么是机器学习

自动驾驶汽车从传感器和摄像头收集周围环境的数据，然后对其进行解释并做出相应的反应。它使用监督学习识别周围物体，使用无监督学习识别其他车辆的模式，并最终在强化算法的帮助下采取相应的行动。

图像分析和物体检测

图像分析用于从图像中提取不同的信息。

它在检查制造缺陷、分析智能城市的汽车交通或像谷歌镜头这样的视觉搜索引擎等领域得到应用。

主要思想是使用深度学习技术从图像中提取特征，然后将这些特征应用于对象检测。

客户服务聊天机器人

如今，公司使用 AI 聊天机器人来提供客户支持和销售的情况非常普遍。AI 聊天机器人通过提供 24/7 支持帮助企业处理大量客户查询，从而降低支持成本并带来额外收入和满意的客户。

AI 机器人技术使用自然语言处理 (NLP) 来处理文本、提取查询关键字并做出相应响应。

医学成像和诊断

事实是这样的：医学影像数据既是最丰富的信息来源，也是最复杂的信息来源之一。

手动分析数以千计的医学图像是一项乏味的工作，并且浪费病理学家可以更有效地利用的宝贵时间。

但这不仅仅是节省时间——肉眼可能看不到伪影或结节等小特征，从而导致疾病诊断延迟和错误预测。这就是为什么使用涉及神经网络的深度学习技术（可用于从图像中提取特征）具有如此大的潜力。

欺诈识别

随着电子商务领域的扩张，我们可以观察到在线交易数量的增加和可用支付方式的多样化。不幸的是，有些人利用了这种情况。当今世界的欺诈者非常熟练，可以非常迅速地采用新技术。

这就是为什么我们需要一个能够分析数据模式、做出准确预测并响应在线网络安全威胁（如虚假登录尝试或网络钓鱼攻击）的系统。

例如，根据您过去购买的地点或您在线的时间，防欺诈系统可以发现购买是否合法。同样，他们可以检测是否有人试图在网上或电话中冒充您。

五机器学习的挑战和局限性

欠拟合和过拟合

在大多数情况下，任何机器学习算法性能不佳的原因都是由于欠拟合和过拟合。

一文读懂什么是机器学习

让我们在训练机器学习模型的背景下分解这些术语。

欠拟合是机器学习模型既不能学习数据中变量之间的关系也不能正确预测新数据点的场景。换句话说，机器学习系统没有发现跨数据点的趋势。
当机器学习模型从训练数据中学习得太多时，就会发生过度拟合，注意那些本来就是噪声或与数据集范围无关的数据点。它试图拟合曲线上的每个点，并因此记住数据模式。

由于该模型的灵活性很小，因此无法预测新的数据点。换句话说，它过于关注给出的例子，无法看到更大的图景。

一文读懂什么是机器学习

欠拟合和过拟合的原因是什么？

更一般的情况包括用于训练的数据不干净并且包含大量噪声或垃圾值，或者数据的大小太小的情况。但是，还有一些更具体的原因。

让我们来看看那些。

欠拟合的发生可能是因为：

该模型使用错误的参数进行训练，并且未充分观察到训练数据
模型太简单，记不住足够多的特征
训练数据过于多样化或复杂

在以下情况下可能会发生过度拟合：

该模型使用错误的参数进行训练，并过度观察训练数据
该模型过于复杂，并且没有针对更多不同的数据进行预训练。
训练数据的标签过于严格或原始数据过于均匀，不代表真实的分布。

一文读懂什么是机器学习

维数

任何机器学习模型的准确性都与数据集的维度成正比。但它只适用于特定的阈值。

数据集的维度是指数据集中存在的属性/特征的数量。以指数方式增加维数会导致添加非必需属性，从而混淆模型，从而降低机器学习模型的准确性。

我们将这些与训练机器学习模型相关的困难称为“维数灾难”。

一文读懂什么是机器学习

数据质量

机器学习算法对低质量的训练数据很敏感。

由于数据不正确或缺失值导致数据中出现噪声，数据质量可能会受到影响。即使训练数据中相对较小的错误也会导致系统输出出现大规模错误。

当算法表现不佳时，通常是由于数据质量问题，例如数量/倾斜/噪声数据不足或描述数据的特征不足。

因此，在训练机器学习模型之前，往往需要进行数据清洗以获得高质量的数据。

以上是一文读懂什么是机器学习的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7484

CakePHP 教程

1377

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

一文带您了解SHAP：机器学习的模型解释 Jun 01, 2024 am 10:58 AM

在机器学习和数据科学领域，模型的可解释性一直是研究者和实践者关注的焦点。随着深度学习和集成方法等复杂模型的广泛应用，理解模型的决策过程变得尤为重要。可解释人工智能（ExplainableAI|XAI）通过提高模型的透明度，帮助建立对机器学习模型的信任和信心。提高模型的透明度可以通过多种复杂模型的广泛应用等方法来实现，以及用于解释模型的决策过程。这些方法包括特征重要性分析、模型预测区间估计、局部可解释性算法等。特征重要性分析可以通过评估模型对输入特征的影响程度来解释模型的决策过程。模型预测区间估计

使用C++实现机器学习算法：常见挑战及解决方案 Jun 03, 2024 pm 01:25 PM

C++中机器学习算法面临的常见挑战包括内存管理、多线程、性能优化和可维护性。解决方案包括使用智能指针、现代线程库、SIMD指令和第三方库，并遵循代码风格指南和使用自动化工具。实践案例展示了如何利用Eigen库实现线性回归算法，有效地管理内存和使用高性能矩阵操作。

可解释性人工智能：解释复杂的AI/ML模型 Jun 03, 2024 pm 10:08 PM

译者|李睿审校|重楼人工智能（AI）和机器学习（ML）模型如今变得越来越复杂，这些模型产生的输出是黑盒——无法向利益相关方解释。可解释性人工智能（XAI）致力于通过让利益相关方理解这些模型的工作方式来解决这一问题，确保他们理解这些模型实际上是如何做出决策的，并确保人工智能系统中的透明度、信任度和问责制来解决这个问题。本文探讨了各种可解释性人工智能（XAI）技术，以阐明它们的基本原理。可解释性人工智能至关重要的几个原因信任度和透明度：为了让人工智能系统被广泛接受和信任，用户需要了解决策是如何做出的

改进的检测算法：用于高分辨率光学遥感图像目标检测 Jun 06, 2024 pm 12:33 PM

01前景概要目前，难以在检测效率和检测结果之间取得适当的平衡。我们就研究出了一种用于高分辨率光学遥感图像中目标检测的增强YOLOv5算法，利用多层特征金字塔、多检测头策略和混合注意力模块来提高光学遥感图像的目标检测网络的效果。根据SIMD数据集，新算法的mAP比YOLOv5好2.2%，比YOLOX好8.48%，在检测结果和速度之间实现了更好的平衡。02背景&动机随着远感技术的快速发展，高分辨率光学远感图像已被用于描述地球表面的许多物体，包括飞机、汽车、建筑物等。目标检测在远感图像的解释中

你所不知道的机器学习五大学派 Jun 05, 2024 pm 08:51 PM

机器学习是人工智能的重要分支，它赋予计算机从数据中学习的能力，并能够在无需明确编程的情况下改进自身能力。机器学习在各个领域都有着广泛的应用，从图像识别和自然语言处理到推荐系统和欺诈检测，它正在改变我们的生活方式。机器学习领域存在着多种不同的方法和理论，其中最具影响力的五种方法被称为“机器学习五大派”。这五大派分别为符号派、联结派、进化派、贝叶斯派和类推学派。1.符号学派符号学（Symbolism），又称为符号主义，强调利用符号进行逻辑推理和表达知识。该学派认为学习是一种逆向演绎的过程，通过已有的

Flash Attention稳定吗？Meta、哈佛发现其模型权重偏差呈现数量级波动 May 30, 2024 pm 01:24 PM

MetaFAIR联合哈佛优化大规模机器学习时产生的数据偏差，提供了新的研究框架。据所周知，大语言模型的训练常常需要数月的时间，使用数百乃至上千个GPU。以LLaMA270B模型为例，其训练总共需要1,720,320个GPU小时。由于这些工作负载的规模和复杂性，导致训练大模型存在着独特的系统性挑战。最近，许多机构在训练SOTA生成式AI模型时报告了训练过程中的不稳定情况，它们通常以损失尖峰的形式出现，比如谷歌的PaLM模型训练过程中出现了多达20次的损失尖峰。数值偏差是造成这种训练不准确性的根因，

C++技术中的机器学习：使用C++实现常见机器学习算法的指南 Jun 03, 2024 pm 07:33 PM

在C++中，机器学习算法的实施方式包括：线性回归：用于预测连续变量，步骤包括加载数据、计算权重和偏差、更新参数和预测。逻辑回归：用于预测离散变量，流程与线性回归类似，但使用sigmoid函数进行预测。支持向量机：一种强大的分类和回归算法，涉及计算支持向量和预测标签。

Golang技术在机器学习中未来趋势展望 May 08, 2024 am 10:15 AM

Go语言在机器学习领域的应用潜力巨大，其优势在于：并发性：支持并行编程，适合机器学习任务中的计算密集型操作。高效性：垃圾收集器和语言特性确保代码高效，即使处理大型数据集。易用性：语法简洁，学习和编写机器学习应用程序容易。

See all articles