在骆驼基准中使用自定义指标的增强模型评估
在本指南中,我将介绍添加自定义评估指标Tollama-Factory的过程。 Llama-Factory是一种多功能工具,可让用户轻松调整大型语言模型(LLMS),这要归功于其用户友好的WebUI和全面的脚本集,用于培训,部署和评估模型。 Llama-Factory Isllama董事会的关键功能,这是一个集成的仪表板,还显示了评估指标,为模型性能提供了宝贵的见解。尽管默认情况下可用标准指标,但添加自定义指标的功能使我们能够以与我们的特定用例直接相关的方式评估模型。
我们还将介绍在Llama板上创建,集成和可视化定制度量的步骤。通过遵循本指南,您将能够监视根据需求量量身定制的其他指标,无论您对特定领域的精度,细微差别的错误类型还是以用户为中心的评估感兴趣。这种自定义使您更有效地评估模型性能,以确保其与应用程序的独特目标保持一致。让我们潜入!
学习成果
- 了解如何在美洲驼(Llama-Factory)中定义和集成自定义评估指标。
- 获得修改度量的实用技能,以包括定制指标。
- 学会在美洲驼板上可视化自定义指标以获得增强的模型见解。
- 获取有关定制模型评估的知识,以与特定的项目需求保持一致。
- 探索使用个性化指标来监视特定域模型性能的方法。
本文作为数据科学博客马拉松的一部分发表。
目录
- 学习成果
- 什么是骆驼基品?
- 开始使用美洲驼基因
- 了解骆驼基准中的评估指标
- 添加自定义指标的先决条件
- 定义您的自定义指标
- 修改sft/metric.py以整合自定义度量标准
- 结论
- 常见问题
什么是骆驼基品?
由Hiyouga开发的Llama-Factory是一个开源项目,使用户可以通过用户友好的WebUI接口微调语言模型。它提供了一套完整的工具和脚本,用于微调,构建聊天机器人,服务和基准测试LLM。
Llama-Factory考虑了初学者和非技术用户的设计,简化了在自定义数据集中微调开源LLMS的过程,从而消除了需要掌握复杂AI概念的需求。用户可以简单地选择一个模型,上传其数据集并调整一些设置以开始培训。
完成后,Web应用程序还允许测试模型,从而提供了一种快速有效的方法来微调本地机器上的LLM。
尽管标准指标为微调模型的一般性能提供了宝贵的见解,但自定义指标提供了一种直接评估模型在特定用例中的有效性的方法。通过量身定制指标,您可以更好地衡量该模型符合通用指标可能忽略的独特要求的程度。自定义指标是无价的,因为它们具有灵活性来创建和跟踪与实际需求相符的专门协调的措施,从而基于相关的可测量标准可以持续改进。这种方法允许针对特定于域的精度,加权重要性和用户体验对齐方式进行有针对性的关注。
开始使用美洲驼基因
在此示例中,我们将使用Python环境。确保您的Python 3.8或更高,并且根据存储库要求安装了必要的依赖项。
安装
我们将首先安装所有要求。
git克隆-Depth 1 https://github.com/hiyouga/llama-factory.git CD Llama-Factory PIP安装-E。[火炬,指标]”
与Llama董事会GUI进行微调(由Gradio提供动力)
LlamaFactory-Cli Webui
注意:您可以在GitHub上的更多详细信息找到官方设置指南。
了解骆驼基准中的评估指标
了解Llama-Factory提供的默认评估指标,例如Bleu和Rouge分数,以及为什么它们对于评估模型性能至关重要。本节还介绍了自定义指标的价值。
BLEU得分
BLEU(双语评估研究)得分是一种度量标准,用于评估机器翻译模型与参考文献(或人类翻译)文本产生的文本质量。 BLEU评分主要评估生成的翻译与一个或多个参考翻译的相似程度。
胭脂得分
Rouge(以召回式评估为导向的研究)得分是一组指标,用于通过比较它们与参考摘要来评估文本摘要的质量。它被广泛用于摘要任务,并测量生成文本和参考文本之间的单词和短语的重叠。
这些指标默认情况下可用,但是您还可以添加针对特定用例量身定制的定制指标。
添加自定义指标的先决条件
本指南假定您的机器上已经设置了Fertactory。如果没有,请参阅Llama-Factory文档进行安装和设置。
在此示例中,该函数返回0到1之间的随机值以模拟精度得分。但是,您可以根据您的特定要求来替换自己的评估逻辑,以计算和返回准确值(或任何其他指标)。这种灵活性使您可以定义更好地反映用例的自定义评估标准。
定义您的自定义指标
首先,让我们创建一个称为custom_metric.py的python文件,并在其中定义我们的自定义度量函数。
在此示例中,我们的自定义指标称为x _score 。该度量标准将将PERDS (预测值)和标签(地面真实值)作为输入,并根据您的自定义逻辑返回分数。
导入随机 def cal_x_score(preds,标签): ”“” 计算自定义度量评分。 参数: Preds-预测值列表 标签 - 地面真相列表 返回: 得分 - 根据您的要求,随机值或自定义计算 ”“” #自定义度量计算逻辑转到这里 #示例:返回0和1之间的随机分数 返回随机均匀(0,1)
您可以用特定的计算逻辑替换随机分数。
modifyingsft/metric.pyto整合自定义度量标准
为了确保Llama董事会认可我们的新指标,我们需要将其集成到SRC/LlamaFactory/Train/sft/Metric.py的指标计算管道中
将您的指标添加到分数字典中:
- 在sft/metric.py中找到eComputesimerityFunction
- 更新self.score_dict以包含您的新指标,如下所示:
self.score_dict = { “ Rouge-1”:[], “ Rouge-2”:[], “ bleu-4”:[],, “ x_score”:[]#在此处添加您的自定义指标 }
计算和附加__call__ -method中的自定义指标:
- 在__call__方法中,计算您的自定义度量标准并将其添加到Score_dict中。这是如何做到这一点的示例:
来自.custom_metric导入cal_x_score def __call __(self,preds,标签): #计算自定义度量分数 custom_score = cal_x_score(preds,标签) #分数词典中的分数将分数附加到“ extra_metric” self.score_dict [“ x_score”]。附录(custom_score * 100)
此集成步骤对于自定义指标出现在美洲驼板上至关重要。
现在,预测_x_score度量已成功出现,显示该模型和验证数据集的精度为93.75%。这种集成为您提供了一种直接评估评估管道中的每个微调模型的简单方法。
结论
设置自定义度量标准后,运行评估管道后,您应该在Llama板上看到它。 Extra MetricsCores将为每个评估更新。
通过这些步骤,您已成功将自定义评估指标集成到Llama-Factory中!此过程使您可以灵活地超越默认指标,并量身定制模型评估以满足您项目的独特需求。通过定义和实施特定于用例的指标,您可以获得对模型性能的更有意义的见解,突出了优势和领域,以改善对目标最重要的方式。
添加自定义指标还可以连续改进循环。当您对新数据进行微调和训练模型或修改参数时,这些个性化的指标提供了一种一致的评估进度方法。无论您的重点是特定于域的准确性,用户体验对齐方式还是细微的评分方法,Llama董事会都提供了一种视觉和定量的方法来比较和跟踪这些结果随着时间的流逝。
通过使用自定义指标增强模型评估,Llama-Factory可以使您可以做出数据驱动的决策,精确地提高模型,并更好地将结果与现实世界应用更好地对齐。这种自定义能力使您能够创建有效性能,优化相关目标的模型,并在实际部署中提供附加价值。
关键要点
- Llama-Factory中的自定义指标通过使模型评估与独特的项目需求保持一致来增强模型评估。
- Llama板可以轻松地可视化自定义指标,从而更深入地了解模型性能。
- 修改度量。Py可以实现自定义评估标准的无缝集成。
- 个性化指标支持持续改进,将评估调整为不断发展的模型目标。
- 调整度量指标能够赋予数据驱动的决策,从而优化现实世界应用的模型。
常见问题
Q1。什么是骆驼基品?A. Llama-Factory是通过用户友好的WebUI微调大型语言模型的开源工具,具有用于培训,部署和评估模型的功能。
Q2。为什么要添加自定义评估指标?答:自定义指标允许您根据特定用例的标准评估模型性能,提供标准指标可能无法捕获的见解。
Q3。如何创建自定义指标?答:在Python文件中定义您的指标,并指定如何根据数据计算性能的逻辑。
Q4。我在哪里可以将自定义指标集成到骆驼基准中?答:将您的指标添加到SFT/Metric.py文件中,并更新分数字典和计算管道以包括它。
Q5。我的定制指标会出现在骆驼板上吗?答:是的,一旦整合了自定义指标,Llama板就会显示它,从而使您可以与其他指标一起将其结果可视化。
本文所示的媒体不由Analytics Vidhya拥有,并由作者酌情使用。
以上是在骆驼基准中使用自定义指标的增强模型评估的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

Meta的Llama 3.2:多模式和移动AI的飞跃 Meta最近公布了Llama 3.2,这是AI的重大进步,具有强大的视觉功能和针对移动设备优化的轻量级文本模型。 以成功为基础

嘿,编码忍者!您当天计划哪些与编码有关的任务?在您进一步研究此博客之前,我希望您考虑所有与编码相关的困境,这是将其列出的。 完毕? - 让&#8217

本周的AI景观:进步,道德考虑和监管辩论的旋风。 OpenAI,Google,Meta和Microsoft等主要参与者已经释放了一系列更新,从开创性的新车型到LE的关键转变

介绍 Openai已根据备受期待的“草莓”建筑发布了其新模型。这种称为O1的创新模型增强了推理能力,使其可以通过问题进行思考

介绍 想象一下,穿过美术馆,周围是生动的绘画和雕塑。现在,如果您可以向每一部分提出一个问题并获得有意义的答案,该怎么办?您可能会问:“您在讲什么故事?

Meta's Llama 3.2:多式联运AI强力 Meta的最新多模式模型Llama 3.2代表了AI的重大进步,具有增强的语言理解力,提高的准确性和出色的文本生成能力。 它的能力t

SQL的Alter表语句:动态地将列添加到数据库 在数据管理中,SQL的适应性至关重要。 需要即时调整数据库结构吗? Alter表语句是您的解决方案。本指南的详细信息添加了Colu

介绍 Mistral发布了其第一个多模式模型,即Pixtral-12b-2409。该模型建立在Mistral的120亿参数Nemo 12B之上。是什么设置了该模型?现在可以拍摄图像和Tex
