面向AI的数据治理体系如何构建?
近年来,随着新技术模式的出现,各行业应用场景价值打磨与海量数据积累下的产品效果提升,人工智能应用已从消费、互联网等领域,向制造、能源、电力等传统行业辐射。各行业企业在设计、采购、生产、管理、销售等经济生产活动主要环节的人工智能技术和应用成熟度在不断提升,加速人工智能在各环节的落地覆盖,逐渐将其与主营业务相结合,以实现产业地位提高或经营效益优化,进一步扩大自身优势。
人工智能技术创新应用的大规模落地,推动了大数据智能市场的蓬勃发展,同样也为底层的数据治理服务注入了市场活力。
伴随着大数据、云计算以及算法的发展,人工智能的热潮从几年前一直延续至今,并且广泛应用于多个行业和领域,成为当前正在进行的科技革命的一个领军技术。而人工智能在如火如荼的数据治理领域又怎么能缺席呢?数据治理和人工智能,看似不相关的两个词,他们两者放一起,会发生什么故事呢?
一、数据治理为人工智能奠定基础
大数据是不断积累、清洗、转换、分类等的数据积累,而数据治理则为大数据的呈现提供了更为规范的管理模式。由于目前大部分人工智能的形式需要通过大量的数据运算实现,因此离不开大数据和数据治理的支持。人工智能需要依赖大数据平台和技术来帮助完成深度学习进化。
1.数据治理为人工智能提供优质数据
大部分的人工智能分为训练(Training)和预测(Predict)两个环节。机器训练算法的效果依赖于所输入的数据质量的优势,如果输入的数据存在偏差,那么输出的算法也将产生偏差,这可能直接导致所得结果的不可用。数据治理在提升数据质量方面具有重要作用。通过梳理数据质量需求、定义数据质量检查规则、制定数据质量改善方案、设计并实施数据质量管理工具、监控数据质量管理操作程序和绩效等数据质量管理环节,企业可以获得干净的、结构清晰的数据,为深度学习等人工智能技术提供可信的数据输入。
2.数据治理为人工智能保障数据隐私
当前人工智能发展中面临的很大制约就是数据权属和隐私保护问题。个人隐私数据应该受到保护,这些数据的滥用可能对个人造成巨大的财产损失甚至人身伤害。所谓隐私保护,其实就是对隐私数据的保护,归根结底是对数据用户的隐私保护。数据治理工具从技术层面设计了保护隐私数据的诸多环节,提供数据模糊化、数据脱敏、数据加密,可为企业个人数据保护奠定基础,从而实现人工智能应用的数据合规性。
二、人工智能提升数据治理智能化水平
1.元数据管理
在传统的元数据管理中,对于非结构化数据的元数据采集通常是通过创建非结构化数据的搜索索引的方式。而语音识别、图像识别、文本分析等人工智能技术能帮助实现元数据的最初业务词库的构建,成为提取各类有价值的非结构化元数据的资源池。
2.数据标准管理
在数据标准的实施初期,需要对存量系统的数据库字段进行摸底,识别出共有的、重复使用的业务字段,作为建立数据标准的依据。如果完全靠人工梳理,需要协调各业务部门大量人员参与,工作量巨大且容易出错。借助机器学习、自然语言处理技术,可以根据字段业务名快速的整理出高频词根,将可能需要几个月的工作在几天内完成。
数据标准管理的另一个重要环节是标准与元数据的映射。在业务系统众多,数据标准与业务系统的元数据进行映射往往是实施工程师的恶梦,一不小心就容易出错。有了人工智能技术,可以对业务字段名进行自然语言处理,精确分词,根据词根相似性将数据标准与元数据自动映射起来。
3.数据质量管理
数据质量是保证数据高效应用的基础。衡量数据质量的指标体系包括完整性、规范性、一致性、准确性、唯一性、时效性。在实施数据质量提升方案之前,需要依据不同的业务规则和业务期望选择合适的数据质量指标体系,并进行数据的清洗。
一般数据质量改善的理想模式是从数据源头剔除脏数据,但是在现实中并不可行。因此,根据业务期望,应针对性地提升各个业务阶段的数据质量。机器学习(如分类学习、聚类、回归等)可提取并识别存在的质量问题,从而制定有效的数据质量评估指标,最大化实现该指标下的数据质量的提升。同时,监督学习、深度学习也将实现对数据清洗和数据质量的效果评估,进而改善转换规则和数据质量评估维度,并随着数据量和业务期望的逐渐变化,使数据质量提升方案动态更新。
4.数据安全
数据安全是指让信息或信息系统免受未经授权的访问、使用、破坏、修改、销毁的过程或状态。人工智能技术可以进行敏感数据的分类分级。应用机器学习、自然语言处理和文本聚类分类技术,能对数据进行基于内容的实时精准分类分级,而数据的分类分级是数据安全治理的核心环节。例如,利用数据分类引擎在邮件内容过滤、保密文件管理、情报分析、反欺诈、数据防泄露等领域明显提升了安全性。
5.主数据管理
主数据指企业核心业务实体的数据,也叫黄金数据,是在整个价值链上被重复、共享应用于多个业务流程的、各个业务部门与各个系统之间共享的基础数据,是各业务应用和各系统之间进行信息交互的基础。但是在主数据管理的过程中,企业可能面临如何在数量庞大的数据项中识别主数据、如何建立统一的主数据标准等问题。
确定主数据依赖于企业对于业务需求的理解和相应“黄金数据”的定义。通常来说,每个主数据主题域都有自己专用的记录系统,并且分散在各个业务系统中。人工智能相关技术可以帮助我们在所有数据中筛选出频繁出现或流动的数据,同时快速确定主数据的可靠与可信数据来源,构建完整的主数据视图。
6.人工智能帮助重复数据自动匹配和合并据
数剧管理面临的一个挑战是在企业众多的系统中对于同一数据项或者重复的数据项进行匹配和合并,解决该挑战的一个方法是构建数据匹配规则,包括不同置信水平的匹配接受度。有些匹配需要极高的信任度,可以基于跨多个字段的准确数据匹配实现;有些匹配仅仅由于数据值的冲突,可以采用较低的信任度。机器学习、自然语言处理可帮助建立重复数据识别的匹配规则,在识别字段重复的主数据之后不进行自动合并,并确定与主数据相关的记录,建立交叉引用关系。
三、数据治理平台的智能化
通过人工智能技术降低数据治理的门槛将成为数据治理发展的重要方向。充分考虑到数据治理高复杂性的特点,数据治理平台不断融合AI新技术,力求通过智能化管理来简化数据治理实施过程,大大地解放技术人员,帮助企业实现更高效的数据治理,远离“数据黑洞”。
1、智能化元数据服务。睿治平台支持全自动元数据采集和关联,实现元模型智能化应用,提供图形化元数据分析视图。
2、智能化探查数据质量。睿治平台内置数理统计算法、绑定机器学习算法,实现自动探查数据质量,同时支持智能修复。
3、智能化构建数据标准。睿治平台支持智能化映射及落标,形成的数据标准和业务数据双向评估。
4、智能化识别主数据。睿治平台自动识别主数据,帮助重复数据自动匹配和合并,构建完整的主数据视图。
随着数据治理和人工智能两个领域的快速发展,二者的融合将会有更多场景和商业模式。
四、数据治理 AI的行业融合
AI技术创新应用大规模落地,带动大数据智能市场蓬勃发展
企业在部署AI应用时,数据资源的优劣极大程度决定了AI应用的落地效果。因此,为推进AI应用的高质量落地,开展针对性的数据治理工作为首要且必要的环节。而对于企业本身已搭建的传统数据治理体系,目前多停留在对于结构性数据的治理优化,在数据质量、数据字段丰富度、数据分布和数据实时性等维度尚难满足AI应用对数据的高质量要求。为保证AI应用的高质落地,企业仍需进行面向人工智能应用的二次数据治理工作。
面向人工智能的数据治理是传统数据治理体系在以AI应用落地为导向下的体系“升级”。
从数据管理维度来看,面向人工智能的数据治理体系仍会根据数据结构化流向、数据资产管理需要、数据安全需求等角度顺应搭建元数据管理、数据资产管理、主数据管理、数据生命周期管理和数据安全隐私管理等组件模块。而在数据治理过程中,则会更强调底层实现多源数据融合、数据采集频率、数据标准建立、数据质量管理,满足AI模型所需数据的规模、质量和时效,以AI应用的数据需求为核心,优化对应模块的体系建设。
AI应用驱动成为面向人工智能的数据治理服务的核心立足点
面向人工智能的数据治理服务常包含于数据服务、平台能力和数据产品三类采购形式中。第一类,数据服务即以单独的数据治理产品形式出现;第二类,数据平台,主要包括大数据平台、数据中台、数据仓库和AI能力平台等项目;第三类,数据产品,范围限定在应用AI算法的数据产品,可划分为机器学习产品、自然语言理解产品和知识图谱三类AI产品。
如今AI产品需求旺盛,AI开发平台陆续推进AI产品的规模化落地,且AI数据治理效果与最终平台产品交付效果紧密相连。
总体来看,前沿技术手段应用可以让数据治理工作趋于流程化、自动化与智能化,同时让数据变得可扩展、更负责可溯、更可信,已然成为未来数据管理发展的必由之路。
打造“治理 AI”体系的良性循环
相互关联,互为依托,共同促进人工智能应用的内外发展
面向人工智能的数据治理充分利用机器学习技术,将数据治理环节自动化智能化,可极大提升数据治理工作效率,同时基于自然语言理解和知识图谱挖掘关联非结构化数据的应用价值,解决数据质量管理的传统难题,使治理后的数据更加契合AI应用的要求,从效率和质量双侧推进AI模型的落地应用。
与此同时,AI应用落地效果的显著优化也会给企业带来更多智能化转型信心,让其加大相关AI项目的预算投入,进一步推进相关治理体系建设,打造“治理 AI”的良性循环
以上是面向AI的数据治理体系如何构建?的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

本站6月27日消息,剪映是由字节跳动旗下脸萌科技开发的一款视频剪辑软件,依托于抖音平台且基本面向该平台用户制作短视频内容,并兼容iOS、安卓、Windows、MacOS等操作系统。剪映官方宣布会员体系升级,推出全新SVIP,包含多种AI黑科技,例如智能翻译、智能划重点、智能包装、数字人合成等。价格方面,剪映SVIP月费79元,年费599元(本站注:折合每月49.9元),连续包月则为59元每月,连续包年为499元每年(折合每月41.6元)。此外,剪映官方还表示,为提升用户体验,向已订阅了原版VIP

编辑|ScienceAI问答(QA)数据集在推动自然语言处理(NLP)研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型,也可以有效评估大语言模型(LLM)的能力,尤其是针对科学知识的理解和推理能力。尽管当前已有许多科学QA数据集,涵盖了医学、化学、生物等领域,但这些数据集仍存在一些不足。其一,数据形式较为单一,大多数为多项选择题(multiple-choicequestions),它们易于进行评估,但限制了模型的答案选择范围,无法充分测试模型的科学问题解答能力。相比之下,开放式问答

编辑|KX在药物研发领域,准确有效地预测蛋白质与配体的结合亲和力对于药物筛选和优化至关重要。然而,目前的研究没有考虑到分子表面信息在蛋白质-配体相互作用中的重要作用。基于此,来自厦门大学的研究人员提出了一种新颖的多模态特征提取(MFE)框架,该框架首次结合了蛋白质表面、3D结构和序列的信息,并使用交叉注意机制进行不同模态之间的特征对齐。实验结果表明,该方法在预测蛋白质-配体结合亲和力方面取得了最先进的性能。此外,消融研究证明了该框架内蛋白质表面信息和多模态特征对齐的有效性和必要性。相关研究以「S

本站7月5日消息,格芯(GlobalFoundries)于今年7月1日发布新闻稿,宣布收购泰戈尔科技(TagoreTechnology)的功率氮化镓(GaN)技术及知识产权组合,希望在汽车、物联网和人工智能数据中心应用领域探索更高的效率和更好的性能。随着生成式人工智能(GenerativeAI)等技术在数字世界的不断发展,氮化镓(GaN)已成为可持续高效电源管理(尤其是在数据中心)的关键解决方案。本站援引官方公告内容,在本次收购过程中,泰戈尔科技公司工程师团队将加入格芯,进一步开发氮化镓技术。G

本站8月1日消息,SK海力士今天(8月1日)发布博文,宣布将出席8月6日至8日,在美国加利福尼亚州圣克拉拉举行的全球半导体存储器峰会FMS2024,展示诸多新一代产品。未来存储器和存储峰会(FutureMemoryandStorage)简介前身是主要面向NAND供应商的闪存峰会(FlashMemorySummit),在人工智能技术日益受到关注的背景下,今年重新命名为未来存储器和存储峰会(FutureMemoryandStorage),以邀请DRAM和存储供应商等更多参与者。新产品SK海力士去年在

任何时候,专注都是一种美德。作者|汤一涛编辑|靖宇人工智能的再次流行,催生了新一波的硬件创新。风头最劲的AIPin遭遇了前所未有的差评。MarquesBrownlee(MKBHD)称这是他评测过的最糟糕的产品;TheVerge的编辑DavidPierce则表示,他不会建议任何人购买这款设备。它的竞争对手RabbitR1也没有好到哪去。对这款AI设备最大的质疑是,明明只是做一个App的事情,但是Rabbit公司却整出了一个200美元的硬件。许多人都把AI硬件创新视为颠覆智能手机时代的机会,并投身其

编辑|ScienceAI近日,卡内基梅隆大学(CarnegieMellonUniversity)教授,有着「机器学习之父」之称的TomM.Mitchell撰写了新的AIforScience白皮书,重点讨论了「人工智能如何加速科学发展?美国政府如何帮助实现这一目标?」这一主题。 ScienceAI对白皮书原文进行了不改变原意的全文编译,内容如下。人工智能领域最近取得了显着进展,包括GPT、Claude和Gemini等大型语言模型,因此提出了这样一种可能性:人工智能的一个非常积极的影响,也许是大大加速

编辑|ScienceAI一年前,谷歌最后一位Transformer论文作者LlionJones离职创业,与前谷歌研究人员DavidHa共同创立人工智能公司SakanaAI。SakanaAI声称将创建一种基于自然启发智能的新型基础模型!现在,SakanaAI交上了自己的答卷。SakanaAI宣布推出AIScientist,这是世界上第一个用于自动化科学研究和开放式发现的AI系统!从构思、编写代码、运行实验和总结结果,到撰写整篇论文和进行同行评审,AIScientist开启了AI驱动的科学研究和加速
