解读CRISP-ML(Q):机器学习生命周期流程
译者 | 布加迪
审校 | 孙淑娟
目前,没有用于构建和管理机器学习(ML)应用程序的标准实践。机器学习项目组织得不好,缺乏可重复性,而且从长远来看容易彻底失败。因此,我们需要一套流程来帮助自己在整个机器学习生命周期中保持质量、可持续性、稳健性和成本管理。
图1. 机器学习开发生命周期流程
使用质量保证方法开发机器学习应用程序的跨行业标准流程(CRISP-ML(Q))是CRISP-DM的升级版,以确保机器学习产品的质量。
CRISP-ML(Q)有六个单独的阶段:
1. 业务和数据理解
2. 数据准备
3. 模型工程
4. 模型评估
5. 模型部署
6. 监控和维护
这些阶段需要不断迭代和探索,以构建更好的解决方案。即使框架中有顺序之分,后一阶段的输出可以决定我们要不要重新检查前一阶段。
图2. 每个阶段的质量保证
质量保证方法被引入到框架的每个阶段。这套方法有要求和约束,比如性能指标、数据质量要求和稳健性。它有助于降低影响机器学习应用程序成功的风险。它可以通过持续监控和维护整个系统来实现。
比如说:在电子商务企业,数据和概念漂移会导致模型退化;如果我们没有部署系统来监控这些变化,公司就会蒙受损失,即失去客户。
业务和数据理解
开发流程一开始,我们需要确定项目范围、成功标准和ML应用程序的可行性。之后,我们开始数据收集和质量验证过程。这个过程漫长而又充满挑战。
范围:我们希望通过使用机器学习流程实现的目标。是留住客户,还是通过自动化降低运营成本?
成功标准:我们必须定义清晰和可衡量的业务、机器学习(统计指标)和经济(KPI)成功指标。
可行性:我们需要确保数据可用性、机器学习应用程序的适用性、法律约束、稳健性、可扩展性、可解释性和资源需求。
数据收集:通过收集数据,对其进行版本控制以实现可重复性,并确保源源不断的真实数据和生成数据。
数据质量验证:通过维护数据描述、要求和验证来确保质量。
为了确保质量和可重复性,我们需要记录数据的统计属性和数据生成过程。
数据准备
第二阶段很简单。我们将为建模阶段准备数据。这包括数据选择、数据清洗、特征工程、数据增强和规范化。
1. 我们从特征选择、数据选择以及通过过采样或欠采样来处理不平衡类入手。
2. 然后,专注于减少噪音和处理缺失值。出于质量保证的目的,我们将添加数据单元测试,以减少错误值。
3. 视模型而定,我们执行特征工程和数据增强,比如独热编码和聚类。
4. 规范化和扩展数据。这可降低特征有偏差的风险。
为了确保可重复性,我们创建了数据建模、转换和特征工程管道。
模型工程
业务和数据理解阶段的约束和要求将决定建模阶段。我们需要了解业务问题以及我们将如何开发机器学习模型来解决这些问题。我们将专注于模型选择、优化和训练,将确保模型性能指标、稳健性、可扩展性、可解释性,并优化存储和计算资源。
1. 模型架构和类似业务问题方面的研究。
2. 定义模型性能指标。
3. 模型选择。
4. 通过整合专家来了解领域知识。
5. 模型训练。
6. 模型压缩和集成。
为确保质量和可重复性,我们将存储模型元数据并进行版本控制,比如模型架构、训练和验证数据、超参数以及环境描述。
最后,我们将跟踪ML试验,并创建ML管道,以创建可重复的训练流程。
模型评估
这是我们测试并确保模型已准备好部署的阶段。
- 我们将在测试数据集上测试模型性能。
- 通过提供随机或虚假数据,评估模型的稳健性。
- 增强模型的可解释性,以满足监管部门要求。
- 自动或请教领域专家,将结果与初始成功指标进行比较。
为了质量保证,评估阶段的每一步都被记录下来。
模型部署
模型部署是我们将机器学习模型集成到现有系统中的阶段。该模型可以部署在服务器、浏览器、软件和边缘设备上。来自模型的预测可用于BI仪表板、API、Web应用程序和插件。
模型部署流程:
- 定义硬件推理。
- 生产环境中的模型评估。
- 确保用户接受和可用性。
- 提供后备方案,最大程度地减少损失。
- 部署策略。
监控和维护
生产环境中的模型需要持续监控和维护。我们将监控模型时效性、硬件性能和软件性能。
持续监控是流程的第一部分;如果性能降到阈值以下,自动做出决定,针对新数据重新训练模型。此外,维护部分不仅限于模型的重新训练。它需要决策机制,获取新数据、更新软硬件以及根据业务用例改进ML流程。
简而言之,就是持续集成、训练和部署ML模型。
结论
训练和验证模型是ML应用程序的一小部分。将最初的想法变成现实需要几个过程。我们在本文中介绍了CRISP-ML(Q) 以及它如何侧重风险评估和质量保证。
我们先定义业务目标、收集和清理数据、构建模型、拿测试数据集验证模型,然后将其部署到生产环境中。
该框架的关键组件是持续监控和维护。我们将监控数据和软硬件指标,以确定是重新训练模型还是升级系统。
如果您不熟悉机器学习操作,想了解更多信息,请阅读DataTalks.Club评述的免费MLOps课程。您将获得所有六个阶段的上手经验,了解CRISP-ML的实际实施。
原文标题:Making Sense of CRISP-ML(Q): The Machine Learning Lifecycle Process,作者:Abid Ali Awan
以上是解读CRISP-ML(Q):机器学习生命周期流程的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

机器学习是人工智能的重要分支,它赋予计算机从数据中学习的能力,并能够在无需明确编程的情况下改进自身能力。机器学习在各个领域都有着广泛的应用,从图像识别和自然语言处理到推荐系统和欺诈检测,它正在改变我们的生活方式。机器学习领域存在着多种不同的方法和理论,其中最具影响力的五种方法被称为“机器学习五大派”。这五大派分别为符号派、联结派、进化派、贝叶斯派和类推学派。1.符号学派符号学(Symbolism),又称为符号主义,强调利用符号进行逻辑推理和表达知识。该学派认为学习是一种逆向演绎的过程,通过已有的

上周,在内部的离职潮和外部的口诛笔伐之下,OpenAI可谓是内忧外患:-侵权寡姐引发全球热议-员工签署「霸王条款」被接连曝出-网友细数奥特曼「七宗罪」辟谣:根据Vox获取的泄露信息和文件,OpenAI的高级领导层,包括Altman在内,非常了解这些股权回收条款,并且签署了它们。除此之外,还有一个严峻而紧迫的问题摆在OpenAI面前——AI安全。最近,五名与安全相关的员工离职,其中包括两名最著名的员工,“超级对齐”团队的解散让OpenAI的安全问题再次被置于聚光灯下。《财富》杂志报道称,OpenA

评估Java框架商业支持的性价比涉及以下步骤:确定所需的保障级别和服务水平协议(SLA)保证。研究支持团队的经验和专业知识。考虑附加服务,如升级、故障排除和性能优化。权衡商业支持成本与风险缓解和提高效率。

70B模型,秒出1000token,换算成字符接近4000!研究人员将Llama3进行了微调并引入加速算法,和原生版本相比,速度足足快出了快了13倍!不仅是快,在代码重写任务上的表现甚至超越了GPT-4o。这项成果,来自爆火的AI编程神器Cursor背后团队anysphere,OpenAI也参与过投资。要知道在以快着称的推理加速框架Groq上,70BLlama3的推理速度也不过每秒300多token。 Cursor这样的速度,可以说是实现了近乎即时的完整代码文件编辑。有人直呼好家伙,如果把Curs

PHP框架的学习曲线取决于语言熟练度、框架复杂性、文档质量和社区支持。与Python框架相比,PHP框架的学习曲线更高,而与Ruby框架相比,则较低。与Java框架相比,PHP框架的学习曲线中等,但入门时间较短。

轻量级PHP框架通过小体积和低资源消耗提升应用程序性能。其特点包括:体积小,启动快,内存占用低提升响应速度和吞吐量,降低资源消耗实战案例:SlimFramework创建RESTAPI,仅500KB,高响应性、高吞吐量

Go协程在人工智能和机器学习领域的应用包括:实时训练和预测:并行处理任务,提高性能。并行超参数优化:同时探索不同设置,加快训练。分布式计算:轻松分布任务,利用云或集群优势。

6月26日消息,在2024年世界移动通信大会上海(MWC上海)开幕式上,中国移动董事长杨杰发表演讲。他表示,当前,人类社会正迈入以信息为主导、信息和能量深度融合的第四次工业革命,即“数智化革命”,新质生产力加速形成。杨杰认为,从蒸汽机驱动的“机械化革命”,到电力、内燃机等驱动的“电气化革命”,再到计算机和互联网等驱动的“信息化革命”,每一轮工业革命都是以“信息和能量”为主线,带来生产力发
