模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分-人工智能-PHP中文网

方法介绍

分析结果

总结

首页

科技周边

人工智能

模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分

王林

Mar 04, 2024 am 09:31 AM

人工智能语言模型排列

在目前的模型训练范式中，偏好数据的的获取与使用已经成为了不可或缺的一环。在训练中，偏好数据通常被用作对齐（alignment）时的训练优化目标，如基于人类或 AI 反馈的强化学习（RLHF/RLAIF）或者直接偏好优化（DPO），而在模型评估中，由于任务的复杂性且通常没有标准答案，则通常直接以人类标注者或高性能大模型（LLM-as-a-Judge）的偏好标注作为评判标准。

尽管上述对偏好数据的应用已经取得了广泛的成效，但对偏好本身则缺乏充足的研究，这很大程度上阻碍了对更可信 AI 系统的构建。为此，上海交通大学生成式人工智能实验室（GAIR）发布了一项新研究成果，对人类用户与多达 32 种流行的大语言模型所展现出的偏好进行了系统性的全面解析，以了解不同来源的偏好数据是如何由各种预定义属性（如无害，幽默，承认局限性等）定量组成的。

进行的分析有如下特点：

注重真实应用：研究中采用的数据均来源于真实的用户 - 模型对话，更能反映实际应用中的偏好。
分场景建模：对属于不同场景下的数据（如日常交流，创意写作）独立进行建模分析，避免了不同场景之间的互相影响，结论更清晰可靠。
统一框架：采用了一个统一的框架解析人类与大模型的偏好，并且具有良好的可扩展性。

该研究发现：

人类用户对模型回复中错误之处的敏感度较低，对承认自身局限导致拒绝回答的情况有明显的厌恶，且偏好那些支持他们主观立场的回复。而像 GPT-4-Turbo 这样的高级大模型则更偏好于那些没有错误，表达清晰且安全无害的回复。
尺寸接近的大模型会展现出相似的偏好，而大模型对齐微调前后几乎不会改变其偏好组成，仅仅会改变其表达偏好的强度。
基于偏好的评估可以被有意地操纵。鼓励待测模型以评估者喜欢的属性进行回复可以提高得分，而注入最不受欢迎的属性则会降低得分。

模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分

在“日常交流”场景下，根据偏好解析结果，图1显示了人类、GPT-4-Turbo和LLaMA-2-70B-Chat对不同属性的喜好程度。数值越大表示更偏好该属性，小于50则表示对该属性不感兴趣。

本项目已经开源了丰富的内容与资源：

可交互式演示：包含了所有分析的可视化及更多论文中未详尽展示的细致结果，同时也支持上传新的模型偏好以进行定量分析。
数据集：包含了本研究中所收集的用户 - 模型成对对话数据，包括来自真实用户以及多达 32 个大模型的偏好标签，以及针对所定义属性的详细标注。
代码：提供了收集数据所采用的自动标注框架及其使用说明，此外也包括了用于可视化分析结果的代码。

模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分

论文：https://arxiv.org/abs/2402.11296
演示：https://huggingface.co/spaces/GAIR/Preference-Dissection-Visualization
代码：https://github.com/GAIR-NLP/Preference-Dissection
数据集：https://huggingface.co/datasets/GAIR/preference-dissection

方法介绍

研究中使用了 ChatbotArena Conversations 数据集中的成对用户 - 模型对话数据，这些数据来自真实应用场景。每个样本包含一个用户提问和两个不同模型的回复。研究人员首先收集了人类用户对这些样本的偏好标签，这些标签已经包含在原始数据集中。此外，研究人员还额外推理和收集了来自32个不同开源或闭源大模型的标签。

该研究首先构建了一套基于 GPT-4-Turbo 的自动标注框架，为所有的模型回复标注了它们在预先定义的 29 个属性上的得分，随后基于一对得分的比较结果可以得到样本点在每个属性上的 “比较特征”，例如回复 A 的无害性得分高于回复 B，则该属性的比较特征为 + 1，反之则为 - 1，相同时为 0。

利用所构建的比较特征与收集到的二元偏好标签，研究者们可以通过拟合贝叶斯线性回归模型的方式，以建模比较特征到偏好标签之间的映射关系，而拟合得到的模型中对应于每个属性的模型权重即可被视作该属性对于总体偏好的贡献程度。

由于该研究收集了多种不同来源的偏好标签，并进行了分场景的建模，因而在每个场景下，对于每个来源（人类或特定大模型），都能够得到一组偏好到属性的定量分解结果。

模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分

图 2：分析框架的总体流程示意图

分析结果

该研究首先分析比较了人类用户与以 GPT-4-Turbo 代表的高性能大模型在不同场景下最偏好与最不偏好的三个属性。可以看出，人类对错误的敏感程度显著低于 GPT-4-Turbo，且厌恶承认局限性而拒绝回答的情形。此外，人类也对迎合自己主观立场的回复表现出明显的偏好，而并不关心回复中是否纠正了问询中潜在的错误。与之相反，GPT-4-Turbo 则更注重回复的正确性，无害性与表达的清晰程度，并且致力于对问询中的模糊之处进行澄清。

模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分

图 3：人类与 GPT-4-Turbo 在不同场景或问询满足的前提下最偏好与最不偏好的三个属性

模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分

图 4：人类与 GPT-4-Turbo 对于轻微 / 适中 / 严重程度的错误的敏感程度，值接近 50 代表不敏感。

此外，该研究还探索了不同大模型之间的偏好组分的相似程度。通过将大模型划分为不同组并分别计算组内相似度与组间相似度，可以发现当按照参数量（ 30B）进行划分时，组内相似度（0.83，0.88）明显高于组间相似度（0.74），而按照其他因素划分时则没有类似的现象，表明大模型的偏好很大程度上决定于其尺寸，而与训练方式无关。

模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分

图 5：不同大模型（包括人类）之间偏好的相似程度，按参数量排列。

另一方面，该研究也发现经过对齐微调后的大模型表现出的偏好与仅经过预训练的版本几乎一致，而变化仅发生在表达偏好的强度上，即对齐后的模型输出两个回复对应候选词 A 与 B 的概率差值会显著增加。

模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分

图 6：大模型在对齐微调前后的偏好变化情况

最后，该研究发现，通过将人类或大模型的偏好定量分解到不同的属性，可以对基于偏好的评估结果进行有意地操纵。在目前流行的 AlpacaEval 2.0 与 MT-Bench 数据集上，通过非训练（设置系统信息）与训练（DPO）的方式注入评估者（人类或大模型）的偏好的属性均可显著提升分数，而注入不受偏好的属性则会降低得分。

模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分

图 7：对 MT-Bench 与 AlpacaEval 2.0 两个基于偏好评估的数据集进行有意操纵的结果

总结

本研究详细分析了人类和大模型偏好的量化分解。研究团队发现人类更倾向于直接回答问题的回应，对错误不太敏感；而高性能大模型则更重视正确性、清晰性和无害性。研究还表明，模型大小是影响偏好组分的一个关键因素，而对其微调则影响不大。此外，该研究展示了当前若干数据集在了解评估者的偏好组分后易被操纵，表明了基于偏好评估的不足。研究团队还公开了所有研究资源，以支持未来的进一步研究。

以上是模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7552

CakePHP 教程

1382

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

虚拟币十大交易平台有哪些?全球十大虚拟币交易平台排行 Feb 20, 2025 pm 02:15 PM

随着加密货币的普及，虚拟币交易平台应运而生。全球十大虚拟币交易平台根据交易量和市场份额排名如下：币安、Coinbase、FTX、KuCoin、Crypto.com、Kraken、Huobi、Gate.io、Bitfinex、Gemini。这些平台提供各种服务，从广泛的加密货币选择到衍生品交易，适合不同水平的交易者。

芝麻开门交易所怎么调成中文 Mar 04, 2025 pm 11:51 PM

芝麻开门交易所怎么调成中文？本教程涵盖电脑、安卓手机端详细步骤，从前期准备到操作流程，再到常见问题解决，帮你轻松将芝麻开门交易所界面切换为中文，快速上手交易平台。

Bootstrap图片居中需要用到flexbox吗 Apr 07, 2025 am 09:06 AM

Bootstrap 图片居中方法多样，不一定要用 Flexbox。如果仅需水平居中，text-center 类即可；若需垂直或多元素居中，Flexbox 或 Grid 更合适。Flexbox 兼容性较差且可能增加复杂度，Grid 则更强大且学习成本较高。选择方法时应权衡利弊，并根据需求和偏好选择最适合的方法。

十大加密货币交易平台币圈交易平台app排行前十名推荐 Mar 17, 2025 pm 06:03 PM

十大加密货币交易平台包括：1. OKX，2. Binance，3. Gate.io，4. Kraken，5. Huobi，6. Coinbase，7. KuCoin，8. Crypto.com，9. Bitfinex，10. Gemini。选择平台时应考虑安全性、流动性、手续费、币种选择、用户界面和客户支持。

c上标3下标5怎么算 c上标3下标5算法教程 Apr 03, 2025 pm 10:33 PM

C35 的计算本质上是组合数学，代表从 5 个元素中选择 3 个的组合数，其计算公式为 C53 = 5! / (3! * 2!)，可通过循环避免直接计算阶乘以提高效率和避免溢出。另外，理解组合的本质和掌握高效的计算方法对于解决概率统计、密码学、算法设计等领域的许多问题至关重要。

十大虚拟币交易平台2025 加密货币交易app排名前十 Mar 17, 2025 pm 05:54 PM

十大虚拟币交易平台2025：1. OKX，2. Binance，3. Gate.io，4. Kraken，5. Huobi，6. Coinbase，7. KuCoin，8. Crypto.com，9. Bitfinex，10. Gemini。选择平台时应考虑安全性、流动性、手续费、币种选择、用户界面和客户支持。

安全靠谱的数字货币平台有哪些 Mar 17, 2025 pm 05:42 PM

安全靠谱的数字货币平台：1. OKX，2. Binance，3. Gate.io，4. Kraken，5. Huobi，6. Coinbase，7. KuCoin，8. Crypto.com，9. Bitfinex，10. Gemini。选择平台时应考虑安全性、流动性、手续费、币种选择、用户界面和客户支持。

安全的虚拟币软件app推荐十大数字货币交易app排行榜2025 Mar 17, 2025 pm 05:48 PM

安全的虚拟币软件app推荐：1. OKX，2. Binance，3. Gate.io，4. Kraken，5. Huobi，6. Coinbase，7. KuCoin，8. Crypto.com，9. Bitfinex，10. Gemini。选择平台时应考虑安全性、流动性、手续费、币种选择、用户界面和客户支持。

See all articles

模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分

方法介绍

分析结果

总结

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题