用BLEU度量评估语言模型
评估语言模型:深入研究BLEU指标及其他
在人工智能领域,评估语言模型的性能提出了一个独特的挑战。与图像识别或数值预测之类的任务不同,评估语言质量并不容易减少到简单的二进制措施中。这是BLEU(双语评估研究)的一步。自2002年IBM研究人员引入其以来,BLEU已成为机器翻译评估的基石指标。
BLEU代表了自然语言处理的重大进步。这是第一种自动化评估方法,可以在维持有效的自动化的同时与人类判断力有很强的相关性。本文探讨了BLEU的机制,应用,局限性及其在越来越多的AI驱动世界中的未来,要求更细微的语言产生。
注意:这是关于大语言模型(LLM)评估指标系列的一部分。我们将介绍2025年的前15个指标。
目录:
- Bleu的起源:历史概述
- BLEU的工作方式:基础机制
- 实施BLEU:实用指南
- 流行的实施工具
- 解释BLEU分数:了解输出
- 超越翻译:BLEU的扩展应用程序
- BLEU的缺点:它不足
- 超越BLEU:评估指标的演变
- Bleu在神经机器翻译中的未来
- 结论
Bleu的起源:历史概述
在BLEU之前,机器翻译评估在很大程度上是手动的,这是一个依靠人类语言专家的昂贵且耗时的过程。 IBM Research的Kishore Papineni,Salim Roukos,Todd Ward和Wei-jing Zhu用2002年的论文“ BLEU:一种自动评估机器翻译的方法”改变了这一点。他们的自动指标提供了与人类判断力令人惊讶地准确的一致性。
这个时机至关重要。统计机器翻译正在吸引,迫切需要一种标准化的评估方法。 BLEU提供了可再现的语言不足的评分系统,从而在不同的翻译系统之间进行了有意义的比较。
BLEU的工作方式:基础机制
BLEU的核心原理很简单:将机器生成的翻译与参考翻译进行比较(通常由人类翻译人员产生)。尽管BLEU分数通常随着句子长度的增加而降低(尽管这可能因模型而有所不同),但其实现使用了复杂的计算语言学:
n-gram精度
BLEU的基础是n-gram精度 - 机器翻译中出现在任何参考翻译中的单词序列的百分比。 BLLEU不仅是单个单词(单词),还分析了不同长度的连续序列:
- Unigram(修改精度):评估词汇精度
- Bigrams(修改精度):评估基本的短语正确性
- Trigram和4克(修改精度):评估语法结构和单词顺序
BLEU通过:
- 计数n-gram匹配候选和参考翻译之间。
- 应用“剪裁”以防止重复单词的分数膨胀。
- 除以候选翻译中N-Gram的总数。
简短的惩罚
为了防止系统产生过度简短的翻译(仅包括易于匹配的单词可能会达到高精度),BLEU包括简短的惩罚,可减少比其参考文献短的转换分数。罚款计算为:
<code>BP = exp(1 - r/c) if c </code>
其中r
是参考长度, c
是候选翻译长度。
最后的BLEU得分
最终的BLEU分数将这些元素结合在0到1之间的单个值(通常以百分比表示):
<code>BLEU = BP × exp(∑ wn log pn)</code>
在哪里:
-
BP
是简短的惩罚。 -
wn
代表每个N克精度(通常是均匀)的权重。 -
pn
是长度n
的n克的修改精度。
实施BLEU:实用指南
虽然从概念上理解BLEU很重要,但正确的实施需要仔细注意细节。
所需的输入:
- 候选翻译:用于评估的机器生成的翻译。
- 参考翻译:每个源句子的一个或多个人为创建的翻译。
两个输入都需要一致的预处理:
- 令牌化:将文本分解为单词或子字。
- 案例归一化:通常降低所有文本。
- 标点符号处理:删除标点符号或将其视为单独的令牌。
实施步骤:
- 预处理所有翻译:应用一致的令牌化和归一化。
-
计算n-gram精度:对于n = 1至n(通常为n = 4)。
- 计算候选翻译中的所有N-gram。
- 计数参考翻译中匹配n-gram(带剪辑)。
- 计算精度为(匹配 /总候选n-grams)。
-
计算简短惩罚:
- 确定有效参考长度(原始BLEU中的最短参考长度)。
- 与候选长度相比。
- 应用简洁的罚款公式。
-
结合组件:
- 应用N-Gram精度的加权几何平均值。
- 乘以简短的惩罚。
流行的实施工具
几个图书馆提供现成的BLEU实施:
- NLTK(Python的自然语言工具包):提供直接的BLEU实现。 (省略了示例代码,但在线省略了)。
- Sacrebleu:一种针对可重复性问题的标准化BLEU实施。 (省略了示例代码,但在线省略了)。
-
拥抱面孔
evaluate
:与ML管道集成的现代实施。 (省略了示例代码,但在线省略了)。
解释BLEU分数:了解输出
BLEU分数范围为0到1(或0到100 as百分比):
- 0:候选人和参考之间没有匹配。
- 1(或100%):与参考的完美匹配。
-
典型范围(大约和语言对依赖性):
- 0-15:翻译不良。
- 15-30:可以理解但有缺陷的翻译。
- 30-40:良好的翻译。
- 40-50:高质量的翻译。
- 50:特殊的翻译(可能接近人类质量)。
请记住,这些范围在语言对之间有很大差异。例如,由于语言差异,英语 - 中国翻译的得分通常低于英语 - 法语翻译,而不一定是质量差异。由于平滑方法,令牌化和n-gram加权方案,不同的BLEU实现也可能产生略有不同的分数。
(其余的响应,涵盖“超出翻译”,“ Bleu的缺点”,“ Beyond Bleu”,“ Bleu”,“ Bleu的未来”和“结论”,将遵循类似的结构,即简洁地汇总原始文本的同时维持核心信息的同时维持核心信息并避免了动词副本,并避免了原始文本的长度。
以上是用BLEU度量评估语言模型的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

Meta的Llama 3.2:多模式和移动AI的飞跃 Meta最近公布了Llama 3.2,这是AI的重大进步,具有强大的视觉功能和针对移动设备优化的轻量级文本模型。 以成功为基础

嘿,编码忍者!您当天计划哪些与编码有关的任务?在您进一步研究此博客之前,我希望您考虑所有与编码相关的困境,这是将其列出的。 完毕? - 让&#8217

本周的AI景观:进步,道德考虑和监管辩论的旋风。 OpenAI,Google,Meta和Microsoft等主要参与者已经释放了一系列更新,从开创性的新车型到LE的关键转变

Shopify首席执行官TobiLütke最近的备忘录大胆地宣布AI对每位员工的基本期望是公司内部的重大文化转变。 这不是短暂的趋势。这是整合到P中的新操作范式

介绍 想象一下,穿过美术馆,周围是生动的绘画和雕塑。现在,如果您可以向每一部分提出一个问题并获得有意义的答案,该怎么办?您可能会问:“您在讲什么故事?

介绍 Openai已根据备受期待的“草莓”建筑发布了其新模型。这种称为O1的创新模型增强了推理能力,使其可以通过问题进行思考

SQL的Alter表语句:动态地将列添加到数据库 在数据管理中,SQL的适应性至关重要。 需要即时调整数据库结构吗? Alter表语句是您的解决方案。本指南的详细信息添加了Colu

对于那些可能是我专栏新手的人,我广泛探讨了AI的最新进展,包括体现AI,AI推理,AI中的高科技突破,及时的工程,AI培训,AI,AI RE RE等主题
