译者 | 布加迪
审校 | 孙淑娟
数据革命如火如荼。未来五年内创建的数字数据总量将是迄今生成的数据总量的两倍,非结构化数据将定义这个倡导数字体验的新时代。
非结构化数据指不遵循传统模型或不适合结构化数据库格式的信息,占所有企业新数据的80%以上。为了准备迎接这个转变,许多公司在寻找创新的方法,管理、分析和尽量利用业务分析和人工智能等各种工具中的所有数据。但决策者也遇到了一个老问题:如何维护和改善庞大笨拙的数据集的质量?
机器学习是解决之道。现在,机器学习技术方面的进步使组织能够有效处理非结构化数据,并改进质量保证工作。随着数据革命方兴未艾,贵公司在哪里遇到了难题?是面临一大堆宝贵但难以管理的数据集,还是使用数据推动业务向前发展?
准确、及时、一致的数据对于现代企业的价值无可争议,它与云计算和数字应用程序一样重要。尽管如此,糟糕的数据质量仍然使公司/企业每年平均损失1300万美元。
为了解决数据问题,您要运用统计方法来测量数据形状,这使数据团队能够跟踪变化、剔除异常数据,并消除数据漂移。基于统计方法的控制对于在做出关键决策之前判断数据质量,确定应该如何以及何时使用数据集仍很有价值。虽然这种统计方法有效,但通常保留用于结构化数据集,这类数据集适合客观定量的测量。
但是那些不完全适合Microsoft Excel或Google Sheets的数据该如何是好?包括:
当这些类型的非结构化数据发挥作用时,不完整或不准确的信息很容易进入到模型。如果错误无人注意,数据问题就会越积越多,对季度报告和预测预估等各项工作造成严重破坏。从结构化数据到非结构化数据的简单复制粘贴方法不够,实际上可能会使业务变得更糟。
常说的“垃圾进垃圾出”非常适用于非结构化数据集。也许是时候抛弃当前的数据方法了。
考虑非结构化数据的解决方案时,机器学习应该是首选。这是由于机器学习可以分析海量数据集,并在杂乱数据中快速找到模式。如果借助正确的训练,机器学习模型可以学习解释、组织和分类任何形式的非结构化数据类型。
比如说,机器学习模型可以学习为数据分析、清理和规模推荐规则,从而使医疗保健和保险等行业的工作更高效更精确。同样,机器学习程序可以按非结构化数据源(比如社交媒体上或电子邮件记录中的数据源)中的主题或情绪,识别和分类文本数据。
当您通过机器学习改进数据质量工作时,记住几个关键的注意事项:
非结构化数据是带来新机遇和新见解的宝库。然而,目前只有18%的组织利用其非结构化数据,而数据质量正是阻碍更多企业的主要因素之一。
随着非结构化数据变得越来越流行,并与日常业务决策和运营更紧密相关,基于机器学习的质量控制提供了亟需的保证:您的数据是相关、准确、有用的。如果您没有在数据质量方面卡壳,就可以致力于使用数据推动贵公司向前发展。
想想当您有效控制数据或者更好的是让机器学习为您处理工作时带来的种种机会。
原文标题:Solve the problem of unstructured data with machine learning,作者:Edgar Honing
以上是用机器学习解决非结构化数据问题的详细内容。更多信息请关注PHP中文网其他相关文章!