加速AI开发,企业如何利用MLOps提升生产效率?
企业第一次部署人工智能和构建机器学习项目的时候,往往把重点放在理论上。那么有没有一种模型,可以提供必要的结果?如果有,我们又该如何构建和训练这种模型呢?
根据IDC的数据显示,部署人工智能或者机器学习解决方案平均需要长达9个多月的时间。主要是因为数据科学家用来打造这些概念证明的工具,通常不能很好地转化为生产系统。IDC分析师SriramSubramanian说:“我们将研发的过程所需的时间称为‘模型速度’,即从开始到结束需要多长时间。”
企业可以利用MLOps解决上述问题。MLOps(Machine Learning Operations)是一组最佳实践、框架和工具,可以帮助企业管理数据、模型、部署、监控,以及其他利用理论概念验证AI系统并使之奏效的方方面面。
Subramanian进一步解释,“MLOps将模型速度缩短到几周——有时甚至是几天,就像使用DevOps加快应用构建的平均时间一样,这就是为什么你需要MLOps。”企业通过采用MLOps可以构建更多模型、更快地创新、应对更多的使用场景。“MLOps的价值定位很明确。”
据IDC预测,到2024年将有60%的企业使用MLOps来实施他们的机器学习工作流。Subramanian说,当他们对受访者调查采用人工智能和机器学习的挑战时,最主要的障碍之一就是缺少MLOps,仅次于成本。
在本文中,我们研究了MLOps是什么,如何演变的,以及企业组织需要完成和牢记什么,才能充分利用这种新兴的人工智能操作方法。
MLOps的演进
几年前,当Eugenio Zuccarelli首次开始构建机器学习项目的时候,MLOps还只是一组最佳实践。从那时起,Zuccarelli一直在多家企业从事人工智能项目,包括医疗和金融服务领域的企业,他看到,随着时间的推移MLOps开始发展到包含了各种工具和平台。
如今,MLOps为人工智能操作提供了一个相当强大的框架,Zuccarelli说,他现在是CVS Health的创新数据科学家,他提到了之前从事的一个项目,该项目旨在创建一个可以预测不良结果的应用,例如再入院或疾病进展。
“我们正在探索数据集和模型,并与医生进行沟通找出最佳模型所具备的特征。但要使这些模型真正有用,还需要让用户真正地用起这些模型。”
这意味着要打造一个可靠的、快速且稳定的移动应用,后端有一个通过API连接的机器学习系统。他说:“如果没有MLOps,我们将无法确保这一点。”
他的团队使用H2O MLOps平台和其他工具为模型创建了健康仪表板。“你肯定不希望模型发生重大变化,也不想引入偏见。健康仪表板让我们能够了解系统是否发生了变化。”
通过使用MLOps平台还可以对生产系统进行更新。他说:“在不停止应用工作的情况下换出文件是非常困难的。而MLOps可以在生产进行中、以系统影响最小的情况下换出系统。”
他说,MLOps平台随着逐渐成熟将会加速整个模型开发的过程,因为企业不必为每个项目都重新发明框架。数据管道管理功能对于人工智能的实施也至关重要。
“如果我们有多个需要相互通信的数据源,这时候MLOps就可以发挥作用了。你希望流入机器学习模型的所有数据都是一致的且高质量的。就像那句话说的,垃圾进,垃圾出。如果模型的信息很差,那么预测本身就会很差。”
MLOps的基础:一个不断变化中的目标
但不要认为,仅仅因为有那么多可用的平台和工具,就忽略了MLOps的核心原则。刚开始使用MLOps的企业应该记住,MLOps的核心是在数据科学和数据工程之间建立牢固的联系。
Zuccarelli说:“为了确保MLOps项目的成功,你需要数据工程师和数据科学家是在同一个团队内工作的。”
此外,防止偏见、确保透明度、提供可解释性以及支持道德平台所必需的工具,都还在开发之中,“这方面肯定还需要做很多工作,因为这是一个非常新的领域。”
因此,如果没有一个完整的交钥匙型解决方案可供采用,企业就必须非常了解如何让MLOps有效地实施人工智能的方方面面。这就意味着,要广泛地培养专业技能,技术咨询公司Insight的人工智能团队国家实践经理Meagan Gentry这样表示。
MLOps涵盖了从数据收集、验证和分析、到管理机器资源和追踪模型性能的整个范畴,有很多辅助工具是可以部署在本地、云端或者在边缘的,这些工具有的是开源的,有的是专属的。
但掌握技术只是其中一个方面,MLOps还借鉴了DevOps的敏捷方法和迭代开发的原则,Gentry说。此外,和任何敏捷相关的领域一样,沟通是至关重要的。
“每个角色的沟通都是很重要的,数据科学家和数据工程师之间的沟通,和DevOps的沟通,以及和整个IT团队的沟通。”
对于刚起步的公司来说,MLOps可能是令人困惑的,它有很多一般性原则,有几十家相关厂商,甚至还有非常多的开源工具集。
“这时候会遇到各种陷阱,”Capgemini Americas企业架构高级经理Helen Ristov说。“其中很多都还在开发中,现在还没有一套正式的指导方针,就像DevOps一样,这还是一项新兴技术,指导方针和相关政策需要一定时间才能推出。”
Ristov建议,企业应该从数据平台开始他们的MLOps之旅。“也许他们有数据集,但是这些数据集是在不同地方的,没有一个统一的环境。”
她说,企业不需要将所有数据转移到一个平台上,但确实需要一种方法从不同的数据源中引入数据,不同的应用,情况也各不相同。例如,数据湖非常适合那些以高频次进行大量分析、低成本存储的企业。MLOps平台通常有用于构建和管理数据管道并跟踪不同版本的训练数据工具,但这并不是一劳永逸的。然后是模型创建、版本控制、日志记录、衡量功能集、管理模型本身等其他方面。
“其中涉及大量的编码工作,”Ristov说,建立一个MLOps平台可能需要数月时间,而且在集成方面,平台供应商还有很多的工作要做。
“这些不同方向还有很大的发展空间,很多工具还在开发之中,生态系统非常庞大,人们只是选择他们所需的东西。MLOps还处于‘青春期’,大多数企业组织仍在寻找最理想的配置。”
MLOps的市场格局
IDC的Subramanian表示,MLOps市场规模预计将从2020年的1.85亿美元增长到2025年约7亿美元,但这个市场也有可能被严重低估了,因为MLOps产品通常与更大的平台捆绑在一起。他说,到2025年MLOps市场的真实规模可能超过20亿美元。
Subramanian说,MLOps厂商供应商往往分为三大类,首先是大型云提供商,例如AWS、Azure和Google Cloud,这种厂商是把MLOps功能作为一项服务提供给客户。
第二类是机器学习平台厂商,例如DataRobot、Dataiku、Iguazio等。
“第三类是过去所说的数据管理厂商,例如Cloudera、SAS和DataBricks等等。他们的优势在于数据管理能力和数据操作,然后扩展到机器学习能力,最终延伸到MLOps能力。”
Subramanian说,这三个领域都呈现出爆炸式增长,能让MLOps厂商脱颖而出的,是他们能否同时支持本地环境和云部署模型,是否能够实施可信的、负责任的人工智能,是否即插即用,是否容易扩展,这就是体现差异化的方面。”
根据IDC最近的一项调查显示,缺乏实施负责任AI的各种方法,是阻碍人工智能和机器学习普及的三大障碍之一,与缺乏MLOps一起并列第二。造成这种情况很大程度上是因为除了采用MLOps别无他选,Gartner人工智能和机器学习研究分析师Sumit Agarwal这样表示。
“其他方法都是手动的,所以,真的没有其他选择了。如果你想扩展的话,你需要自动化。你需要代码、数据以及模型的可追溯性。”
根据Gartner最近的一项调查显示,一个模型从概念验证到生产所需的平均时间已经从9个月缩短到7.3个月。“但是7.3个月时间仍然很长,企业组织有很多机会利用MLOps。”
MLOps带来的企业文化变革
Genpact公司全球分析负责人Amaresh Tripathy表示,实施MLOps还需要以企业AI团队的身份掀起一场文化变革。
“数据科学家给人们的印象通常是一个疯狂的科学家,试图大海捞针。但实际上数据科学家是发现者和探索者,而不是生产小部件的工厂。”企业经常低估自身所需要付出的努力。
“人们能更好地理解工程,对用户体验有这样那样的要求,但不知道为什么,人们对部署模型却完全不同。人们会假设所有擅长测试环境的数据科学家自然都会部署这些模型,或者可以派几个IT员工来部署,这是错误的。人们并不了解他们需要什么。”
很多企业也并不知道MLOps可能会给企业内部其他方面带来哪些连锁反应,因此经常导致企业内部发生巨大的变化。
“你可以把MLOps放在呼叫中心,平均响应时间实际上会增加,因为简单的事情交给了机器和人工智能来处理,而交给人类做的事情实际上需要更长的时间,因为这些事情往往更复杂。所以你需要重新考虑这些工作是什么,你需要什么样的人,这些人应该具备什么样的技能。”
Tripathy表示,如今,一个企业组织中只有不到5%的决策是由算法驱动的,但这种情况正在迅速变化。“我们预计未来五年,将有20%到25%的决策是由算法驱动的,我们看到的每一个统计数据都表明,我们处于人工智能快速扩展的拐点上。”
他认为,MLOps是关键的一个部分。如果没有MLOps,你就无法始终如一地使用人工智能。MLOps是企业AI规模化的催化剂。
以上是加速AI开发,企业如何利用MLOps提升生产效率?的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

本站6月27日消息,剪映是由字节跳动旗下脸萌科技开发的一款视频剪辑软件,依托于抖音平台且基本面向该平台用户制作短视频内容,并兼容iOS、安卓、Windows、MacOS等操作系统。剪映官方宣布会员体系升级,推出全新SVIP,包含多种AI黑科技,例如智能翻译、智能划重点、智能包装、数字人合成等。价格方面,剪映SVIP月费79元,年费599元(本站注:折合每月49.9元),连续包月则为59元每月,连续包年为499元每年(折合每月41.6元)。此外,剪映官方还表示,为提升用户体验,向已订阅了原版VIP

通过将检索增强生成和语义记忆纳入AI编码助手,提升开发人员的生产力、效率和准确性。译自EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG,作者JanakiramMSV。虽然基本AI编程助手自然有帮助,但由于依赖对软件语言和编写软件最常见模式的总体理解,因此常常无法提供最相关和正确的代码建议。这些编码助手生成的代码适合解决他们负责解决的问题,但通常不符合各个团队的编码标准、惯例和风格。这通常会导致需要修改或完善其建议,以便将代码接受到应

大型语言模型(LLM)是在巨大的文本数据库上训练的,在那里它们获得了大量的实际知识。这些知识嵌入到它们的参数中,然后可以在需要时使用。这些模型的知识在训练结束时被“具体化”。在预训练结束时,模型实际上停止学习。对模型进行对齐或进行指令调优,让模型学习如何充分利用这些知识,以及如何更自然地响应用户的问题。但是有时模型知识是不够的,尽管模型可以通过RAG访问外部内容,但通过微调使用模型适应新的领域被认为是有益的。这种微调是使用人工标注者或其他llm创建的输入进行的,模型会遇到额外的实际知识并将其整合

想了解更多AIGC的内容,请访问:51CTOAI.x社区https://www.51cto.com/aigc/译者|晶颜审校|重楼不同于互联网上随处可见的传统问题库,这些问题需要跳出常规思维。大语言模型(LLM)在数据科学、生成式人工智能(GenAI)和人工智能领域越来越重要。这些复杂的算法提升了人类的技能,并在诸多行业中推动了效率和创新性的提升,成为企业保持竞争力的关键。LLM的应用范围非常广泛,它可以用于自然语言处理、文本生成、语音识别和推荐系统等领域。通过学习大量的数据,LLM能够生成文本

编辑|ScienceAI问答(QA)数据集在推动自然语言处理(NLP)研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型,也可以有效评估大语言模型(LLM)的能力,尤其是针对科学知识的理解和推理能力。尽管当前已有许多科学QA数据集,涵盖了医学、化学、生物等领域,但这些数据集仍存在一些不足。其一,数据形式较为单一,大多数为多项选择题(multiple-choicequestions),它们易于进行评估,但限制了模型的答案选择范围,无法充分测试模型的科学问题解答能力。相比之下,开放式问答

机器学习是人工智能的重要分支,它赋予计算机从数据中学习的能力,并能够在无需明确编程的情况下改进自身能力。机器学习在各个领域都有着广泛的应用,从图像识别和自然语言处理到推荐系统和欺诈检测,它正在改变我们的生活方式。机器学习领域存在着多种不同的方法和理论,其中最具影响力的五种方法被称为“机器学习五大派”。这五大派分别为符号派、联结派、进化派、贝叶斯派和类推学派。1.符号学派符号学(Symbolism),又称为符号主义,强调利用符号进行逻辑推理和表达知识。该学派认为学习是一种逆向演绎的过程,通过已有的

编辑|KX在药物研发领域,准确有效地预测蛋白质与配体的结合亲和力对于药物筛选和优化至关重要。然而,目前的研究没有考虑到分子表面信息在蛋白质-配体相互作用中的重要作用。基于此,来自厦门大学的研究人员提出了一种新颖的多模态特征提取(MFE)框架,该框架首次结合了蛋白质表面、3D结构和序列的信息,并使用交叉注意机制进行不同模态之间的特征对齐。实验结果表明,该方法在预测蛋白质-配体结合亲和力方面取得了最先进的性能。此外,消融研究证明了该框架内蛋白质表面信息和多模态特征对齐的有效性和必要性。相关研究以「S

本站7月5日消息,格芯(GlobalFoundries)于今年7月1日发布新闻稿,宣布收购泰戈尔科技(TagoreTechnology)的功率氮化镓(GaN)技术及知识产权组合,希望在汽车、物联网和人工智能数据中心应用领域探索更高的效率和更好的性能。随着生成式人工智能(GenerativeAI)等技术在数字世界的不断发展,氮化镓(GaN)已成为可持续高效电源管理(尤其是在数据中心)的关键解决方案。本站援引官方公告内容,在本次收购过程中,泰戈尔科技公司工程师团队将加入格芯,进一步开发氮化镓技术。G
