用BLEU度量评估语言模型-人工智能-PHP中文网

首页

科技周边

人工智能

用BLEU度量评估语言模型

尊渡假赌尊渡假赌尊渡假赌

Apr 23, 2025 am 11:05 AM

评估语言模型：深入研究BLEU指标及其他

在人工智能领域，评估语言模型的性能提出了一个独特的挑战。与图像识别或数值预测之类的任务不同，评估语言质量并不容易减少到简单的二进制措施中。这是BLEU（双语评估研究）的一步。自2002年IBM研究人员引入其以来，BLEU已成为机器翻译评估的基石指标。

BLEU代表了自然语言处理的重大进步。这是第一种自动化评估方法，可以在维持有效的自动化的同时与人类判断力有很强的相关性。本文探讨了BLEU的机制，应用，局限性及其在越来越多的AI驱动世界中的未来，要求更细微的语言产生。

注意：这是关于大语言模型（LLM）评估指标系列的一部分。我们将介绍2025年的前15个指标。

目录：

Bleu的起源：历史概述
BLEU的工作方式：基础机制
实施BLEU：实用指南
流行的实施工具
解释BLEU分数：了解输出
超越翻译：BLEU的扩展应用程序
BLEU的缺点：它不足
超越BLEU：评估指标的演变
Bleu在神经机器翻译中的未来
结论

Bleu的起源：历史概述

在BLEU之前，机器翻译评估在很大程度上是手动的，这是一个依靠人类语言专家的昂贵且耗时的过程。 IBM Research的Kishore Papineni，Salim Roukos，Todd Ward和Wei-jing Zhu用2002年的论文“ BLEU：一种自动评估机器翻译的方法”改变了这一点。他们的自动指标提供了与人类判断力令人惊讶地准确的一致性。

这个时机至关重要。统计机器翻译正在吸引，迫切需要一种标准化的评估方法。 BLEU提供了可再现的语言不足的评分系统，从而在不同的翻译系统之间进行了有意义的比较。

BLEU的工作方式：基础机制

BLEU的核心原理很简单：将机器生成的翻译与参考翻译进行比较（通常由人类翻译人员产生）。尽管BLEU分数通常随着句子长度的增加而降低（尽管这可能因模型而有所不同），但其实现使用了复杂的计算语言学：

用BLEU度量评估语言模型

n-gram精度

BLEU的基础是n-gram精度 - 机器翻译中出现在任何参考翻译中的单词序列的百分比。 BLLEU不仅是单个单词（单词），还分析了不同长度的连续序列：

Unigram（修改精度）：评估词汇精度
Bigrams（修改精度）：评估基本的短语正确性
Trigram和4克（修改精度）：评估语法结构和单词顺序

BLEU通过：

计数n-gram匹配候选和参考翻译之间。
应用“剪裁”以防止重复单词的分数膨胀。
除以候选翻译中N-Gram的总数。

简短的惩罚

为了防止系统产生过度简短的翻译（仅包括易于匹配的单词可能会达到高精度），BLEU包括简短的惩罚，可减少比其参考文献短的转换分数。罚款计算为：

 <code>BP = exp(1 - r/c) if c </code>

登录后复制

其中r是参考长度， c是候选翻译长度。

最后的BLEU得分

最终的BLEU分数将这些元素结合在0到1之间的单个值（通常以百分比表示）：

 <code>BLEU = BP × exp(∑ wn log pn)</code>

登录后复制

在哪里：

BP是简短的惩罚。
wn代表每个N克精度（通常是均匀）的权重。
pn是长度n的n克的修改精度。

实施BLEU：实用指南

虽然从概念上理解BLEU很重要，但正确的实施需要仔细注意细节。

所需的输入：

候选翻译：用于评估的机器生成的翻译。
参考翻译：每个源句子的一个或多个人为创建的翻译。

两个输入都需要一致的预处理：

令牌化：将文本分解为单词或子字。
案例归一化：通常降低所有文本。
标点符号处理：删除标点符号或将其视为单独的令牌。

实施步骤：

预处理所有翻译：应用一致的令牌化和归一化。
计算n-gram精度：对于n = 1至n（通常为n = 4）。
- 计算候选翻译中的所有N-gram。
- 计数参考翻译中匹配n-gram（带剪辑）。
- 计算精度为（匹配 /总候选n-grams）。
计算简短惩罚：
- 确定有效参考长度（原始BLEU中的最短参考长度）。
- 与候选长度相比。
- 应用简洁的罚款公式。
结合组件：
- 应用N-Gram精度的加权几何平均值。
- 乘以简短的惩罚。