用机器学习解决非结构化数据问题
译者 | 布加迪
审校 | 孙淑娟
数据革命如火如荼。未来五年内创建的数字数据总量将是迄今生成的数据总量的两倍,非结构化数据将定义这个倡导数字体验的新时代。
非结构化数据指不遵循传统模型或不适合结构化数据库格式的信息,占所有企业新数据的80%以上。为了准备迎接这个转变,许多公司在寻找创新的方法,管理、分析和尽量利用业务分析和人工智能等各种工具中的所有数据。但决策者也遇到了一个老问题:如何维护和改善庞大笨拙的数据集的质量?
机器学习是解决之道。现在,机器学习技术方面的进步使组织能够有效处理非结构化数据,并改进质量保证工作。随着数据革命方兴未艾,贵公司在哪里遇到了难题?是面临一大堆宝贵但难以管理的数据集,还是使用数据推动业务向前发展?
非结构化数据需要的不仅仅是复制粘贴
准确、及时、一致的数据对于现代企业的价值无可争议,它与云计算和数字应用程序一样重要。尽管如此,糟糕的数据质量仍然使公司/企业每年平均损失1300万美元。
为了解决数据问题,您要运用统计方法来测量数据形状,这使数据团队能够跟踪变化、剔除异常数据,并消除数据漂移。基于统计方法的控制对于在做出关键决策之前判断数据质量,确定应该如何以及何时使用数据集仍很有价值。虽然这种统计方法有效,但通常保留用于结构化数据集,这类数据集适合客观定量的测量。
但是那些不完全适合Microsoft Excel或Google Sheets的数据该如何是好?包括:
- 物联网:传感器数据、股票数据和日志数据
- 多媒体:照片、音频和视频
- 富媒体:地理空间数据、卫星图像、天气数据和监视数据
- 文档:文字处理文档、电子表格、演示文稿、电子邮件和通讯数据
当这些类型的非结构化数据发挥作用时,不完整或不准确的信息很容易进入到模型。如果错误无人注意,数据问题就会越积越多,对季度报告和预测预估等各项工作造成严重破坏。从结构化数据到非结构化数据的简单复制粘贴方法不够,实际上可能会使业务变得更糟。
常说的“垃圾进垃圾出”非常适用于非结构化数据集。也许是时候抛弃当前的数据方法了。
机器学习用于保证数据质量时要注意的事项
考虑非结构化数据的解决方案时,机器学习应该是首选。这是由于机器学习可以分析海量数据集,并在杂乱数据中快速找到模式。如果借助正确的训练,机器学习模型可以学习解释、组织和分类任何形式的非结构化数据类型。
比如说,机器学习模型可以学习为数据分析、清理和规模推荐规则,从而使医疗保健和保险等行业的工作更高效更精确。同样,机器学习程序可以按非结构化数据源(比如社交媒体上或电子邮件记录中的数据源)中的主题或情绪,识别和分类文本数据。
当您通过机器学习改进数据质量工作时,记住几个关键的注意事项:
- 实现自动化:数据解耦和校正等手动数据操作乏味又耗时。鉴于当今的自动化功能,它们也是日益过时的操作,自动化功能可以处理乏味的日常操作,使数据团队能够专注于更重要、更高效的工作。将自动化纳入到数据管道中,只需确保已落实了标准化的操作程序和治理模型,以鼓励围绕任何自动化活动进行简化、可预测的流程。
- 不要忽视人的监督:数据的复杂性总是需要一定程度的专业知识和只有人类才能提供的上下文,无论是结构化数据还是非结构化数据。虽然机器学习及其他数字解决方案会帮助数据团队,但不要光依赖技术。相反,让团队能够利用技术,同时对单个数据流程定期监管。这种兼顾可以纠正任何现有技术措施无法处理的数据错误。之后,可以根据这些差异来重新训练模型。
- 检测根本原因:出现异常或其他数据错误时,这常常不是单一事件。如果收集和分析数据时忽略更深层次的问题,贵企业会面临整个数据管道出现普遍性的质量问题这一风险。即使是最好的机器学习计划也无法解决上游产生的错误,选择性的人工干预再次可以夯实整体数据流程,并防止重大错误。
- 质量方面不要做假设:要长期分析数据质量,应想方设法来定性测量非结构化数据,而不是对数据形状做出假设。您可以创建和测试“假设分析”场景,以开发自己的独特的测量方法、预期输出和参数。使用您的数据运行实验提供了一种确定的方法来计算数据质量和性能,您可以自动测量数据质量本身。这个步骤确保始终进行质量控制,并且作为数据摄取管道的基本功能,而不是事后添加上去的。
非结构化数据是带来新机遇和新见解的宝库。然而,目前只有18%的组织利用其非结构化数据,而数据质量正是阻碍更多企业的主要因素之一。
随着非结构化数据变得越来越流行,并与日常业务决策和运营更紧密相关,基于机器学习的质量控制提供了亟需的保证:您的数据是相关、准确、有用的。如果您没有在数据质量方面卡壳,就可以致力于使用数据推动贵公司向前发展。
想想当您有效控制数据或者更好的是让机器学习为您处理工作时带来的种种机会。
原文标题:Solve the problem of unstructured data with machine learning,作者:Edgar Honing
以上是用机器学习解决非结构化数据问题的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

在机器学习和数据科学领域,模型的可解释性一直是研究者和实践者关注的焦点。随着深度学习和集成方法等复杂模型的广泛应用,理解模型的决策过程变得尤为重要。可解释人工智能(ExplainableAI|XAI)通过提高模型的透明度,帮助建立对机器学习模型的信任和信心。提高模型的透明度可以通过多种复杂模型的广泛应用等方法来实现,以及用于解释模型的决策过程。这些方法包括特征重要性分析、模型预测区间估计、局部可解释性算法等。特征重要性分析可以通过评估模型对输入特征的影响程度来解释模型的决策过程。模型预测区间估计

本文将介绍如何通过学习曲线来有效识别机器学习模型中的过拟合和欠拟合。欠拟合和过拟合1、过拟合如果一个模型对数据进行了过度训练,以至于它从中学习了噪声,那么这个模型就被称为过拟合。过拟合模型非常完美地学习了每一个例子,所以它会错误地分类一个看不见的/新的例子。对于一个过拟合的模型,我们会得到一个完美/接近完美的训练集分数和一个糟糕的验证集/测试分数。略有修改:"过拟合的原因:用一个复杂的模型来解决一个简单的问题,从数据中提取噪声。因为小数据集作为训练集可能无法代表所有数据的正确表示。"2、欠拟合如

20世纪50年代,人工智能(AI)诞生。当时研究人员发现机器可以执行类似人类的任务,例如思考。后来,在20世纪60年代,美国国防部资助了人工智能,并建立了实验室进行进一步开发。研究人员发现人工智能在许多领域都有用武之地,例如太空探索和极端环境中的生存。太空探索是对宇宙的研究,宇宙涵盖了地球以外的整个宇宙空间。太空被归类为极端环境,因为它的条件与地球不同。要在太空中生存,必须考虑许多因素,并采取预防措施。科学家和研究人员认为,探索太空并了解一切事物的现状有助于理解宇宙的运作方式,并为潜在的环境危机

通俗来说,机器学习模型是一种数学函数,它能够将输入数据映射到预测输出。更具体地说,机器学习模型就是一种通过学习训练数据,来调整模型参数,以最小化预测输出与真实标签之间的误差的数学函数。在机器学习中存在多种模型,例如逻辑回归模型、决策树模型、支持向量机模型等,每一种模型都有其适用的数据类型和问题类型。同时,不同模型之间存在着许多共性,或者说有一条隐藏的模型演化的路径。将联结主义的感知机为例,通过增加感知机的隐藏层数量,我们可以将其转化为深度神经网络。而对感知机加入核函数的话就可以转化为SVM。这一

C++中机器学习算法面临的常见挑战包括内存管理、多线程、性能优化和可维护性。解决方案包括使用智能指针、现代线程库、SIMD指令和第三方库,并遵循代码风格指南和使用自动化工具。实践案例展示了如何利用Eigen库实现线性回归算法,有效地管理内存和使用高性能矩阵操作。

机器学习是人工智能的重要分支,它赋予计算机从数据中学习的能力,并能够在无需明确编程的情况下改进自身能力。机器学习在各个领域都有着广泛的应用,从图像识别和自然语言处理到推荐系统和欺诈检测,它正在改变我们的生活方式。机器学习领域存在着多种不同的方法和理论,其中最具影响力的五种方法被称为“机器学习五大派”。这五大派分别为符号派、联结派、进化派、贝叶斯派和类推学派。1.符号学派符号学(Symbolism),又称为符号主义,强调利用符号进行逻辑推理和表达知识。该学派认为学习是一种逆向演绎的过程,通过已有的

MetaFAIR联合哈佛优化大规模机器学习时产生的数据偏差,提供了新的研究框架。据所周知,大语言模型的训练常常需要数月的时间,使用数百乃至上千个GPU。以LLaMA270B模型为例,其训练总共需要1,720,320个GPU小时。由于这些工作负载的规模和复杂性,导致训练大模型存在着独特的系统性挑战。最近,许多机构在训练SOTA生成式AI模型时报告了训练过程中的不稳定情况,它们通常以损失尖峰的形式出现,比如谷歌的PaLM模型训练过程中出现了多达20次的损失尖峰。数值偏差是造成这种训练不准确性的根因,

编辑|ScienceAI问答(QA)数据集在推动自然语言处理(NLP)研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型,也可以有效评估大语言模型(LLM)的能力,尤其是针对科学知识的理解和推理能力。尽管当前已有许多科学QA数据集,涵盖了医学、化学、生物等领域,但这些数据集仍存在一些不足。其一,数据形式较为单一,大多数为多项选择题(multiple-choicequestions),它们易于进行评估,但限制了模型的答案选择范围,无法充分测试模型的科学问题解答能力。相比之下,开放式问答
