Open LLM榜单再次刷新，比Llama 2更强的「鸭嘴兽」来了-人工智能-PHP中文网

Open-Platypus 数据集

污染问题

微调与合并

结果

首页

科技周边

人工智能

Open LLM榜单再次刷新，比Llama 2更强的「鸭嘴兽」来了

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Aug 17, 2023 pm 03:09 PM

ai 模型

为了挑战 OpenAI 的 GPT-3.5 和 GPT-4 等封闭模型的主导地位，一系列开源模型正在崛起，其中包括 LLaMa、Falcon 等。最近，Meta AI 推出了被誉为开源领域最强大模型的 LLaMa-2，许多研究者也在此基础上构建自己的模型。例如，StabilityAI 利用 Orca 风格的数据集对 Llama2 70B 模型进行微调，开发出了 StableBeluga2，在 Huggingface 的 Open LLM 排行榜上也取得了不错的成绩

最新的Open LLM榜单排名已经发生了变化，Platypus（鸭嘴兽）模型成功登上了榜首

Open LLM榜单再次刷新，比Llama 2更强的「鸭嘴兽」来了

作者来自波士顿大学，使用了PEFT、LoRA和数据集Open-Platypus对Platypus进行了基于Llama 2的微调优化

Open LLM榜单再次刷新，比Llama 2更强的「鸭嘴兽」来了

作者在一篇论文中详细介绍了Platypus

Open LLM榜单再次刷新，比Llama 2更强的「鸭嘴兽」来了

这篇论文可以在以下网址找到：https://arxiv.org/abs/2308.07317

以下是本文的主要贡献：

Open-Platypus 是一个小规模的数据集，由公共文本数据集的精选子集组成。该数据集由 11 个开源数据集组成，重点是提高 LLM 的 STEM 和逻辑知识。它主要由人类设计的问题组成，只有 10% 的问题是由 LLM 生成的。Open-Platypus 的主要优势在于其规模和质量，它可以在很短的时间内实现非常高的性能，并且微调的时间和成本都很低。具体来说，在单个 A100 GPU 上使用 25k 个问题训练 13B 模型只需 5 个小时。
描述了相似性排除过程，减少数据集的大小，并减少数据冗余。
详细分析了始终存在的开放 LLM 训练集与重要 LLM 测试集中包含的数据相污染的现象，并介绍了作者避免这一隐患的训练数据过滤过程。
介绍了对专门的微调 LoRA 模块进行选择和合并的过程。

Open-Platypus 数据集

作者目前已在 Hugging Face 上发布了 Open-Platypus 数据集

Open LLM榜单再次刷新，比Llama 2更强的「鸭嘴兽」来了

污染问题

为了避免基准测试问题泄漏到训练集中，本文方法首先考虑防止此问题，以确保结果不仅仅是通过记忆产生的偏差。作者在追求准确性的同时，也意识到在标记请再说一次问题时需要灵活性，因为问题的提出方式多种多样，同时还会受到通用领域知识的影响。为了管理潜在的泄漏问题，作者精心设计了启发式方法，用于手动过滤与 Open-Platypus 中基准问题余弦嵌入相似度超过80%的问题。他们将潜在泄漏问题分为三类：(1) 请再说一次问题；(2) 重新描述：这个区域呈现出灰色的色调问题；(3) 类似但不完全相同的问题。为了谨慎起见，他们将所有这些问题都排除在训练集之外

请再说一次

这段文字几乎完全复制了测试题集的内容，只是对单词进行了轻微修改或重新排列。根据上表中泄漏问题的数量，作者认为这是唯一属于污染的类别。以下是具体例子：

Open LLM榜单再次刷新，比Llama 2更强的「鸭嘴兽」来了

重新描述：这个区域呈现出灰色的色调

以下问题被称为重新描述：这个区域呈现出灰色的色调，包括并非完全请再说一次、属于常识范畴的问题。虽然作者将这些问题的最终评判权留给了开源社区，但他们认为这些问题往往需要专家知识。需要注意的是，这类问题包括指令完全相同，但答案却同义的问题：

Open LLM榜单再次刷新，比Llama 2更强的「鸭嘴兽」来了

类似但不完全相同

这些问题的具有较高的相似度，但由于问题之间有着细微的变化，在答案上存在着显着差异。

Open LLM榜单再次刷新，比Llama 2更强的「鸭嘴兽」来了

微调与合并

作者在数据集完善后，专注于两种方法：低秩近似（LoRA）训练和参数高效微调（PEFT）库。与完全微调不同，LoRA保留了预训练模型的权重，并在transformer层中使用秩分解矩阵进行整合，从而减少了可训练参数，节省了训练时间和成本。最初，微调主要集中在注意力模块，如v_proj、q_proj、k_proj和o_proj。随后，根据He等人的建议，扩展到gate_proj、down_proj和up_proj模块。除非可训练参数小于总参数的0.1%，否则这些模块都表现出更好的效果。作者对13B和70B模型都采用了这种方法，结果可训练参数分别为0.27%和0.2%。唯一的区别在于这些模型的初始学习率

结果

根据2023年8月10日Hugging Face Open LLM排行榜数据，作者对Platypus与其他SOTA模型进行了比较，发现Platypus2-70Binstruct变体表现出色，以73.13的平均分稳居榜首

Open LLM榜单再次刷新，比Llama 2更强的「鸭嘴兽」来了

Stable-Platypus2-13B 模型在130 亿参数模型中以63.96 的平均分脱颖而出，值得关注

Open LLM榜单再次刷新，比Llama 2更强的「鸭嘴兽」来了

局限性

Platypus, as a fine-tuned extension of LLaMa-2, retains many of the constraints of the base model and introduces specific challenges through targeted training. It shares the static knowledge base of LLaMa-2, which may become outdated. Additionally , there is a risk of generating inaccurate or inappropriate content, particularly in cases of unclear prompts. While Platypus has been enhanced in STEM and English logic, its proficiency in other languages is not reliable and may be inconsistent. It occasionally produces biased or harmful content . The author acknowledges efforts to minimize these issues but acknowledges the ongoing challenges, particularly in non-English languages.

对于Platypus 的滥用可能性，这是一个令人担忧的问题，因此在部署之前开发人员应对其应用程序进行安全测试。 Platypus 在其主要领域之外可能存在一些限制，因此用户应小心操作，并考虑进行额外的微调以获得最佳性能。用户需要确保 Platypus 的训练数据与其他基准测试集没有重叠。作者对数据污染问题非常谨慎，避免将模型与在有污点的数据集上训练的模型合并。虽然经过清理的训练数据中确认没有污染，但也不能排除可能有一些问题被忽略。如需详细了解这些限制，请参阅论文中的限制部分

以上是Open LLM榜单再次刷新，比Llama 2更强的「鸭嘴兽」来了的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7469

CakePHP 教程

1376

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

Laravel的地理空间：互动图和大量数据的优化 Apr 08, 2025 pm 12:24 PM

利用地理空间技术高效处理700万条记录并创建交互式地图本文探讨如何使用Laravel和MySQL高效处理超过700万条记录，并将其转换为可交互的地图可视化。初始挑战项目需求：利用MySQL数据库中700万条记录，提取有价值的见解。许多人首先考虑编程语言，却忽略了数据库本身：它能否满足需求？是否需要数据迁移或结构调整？MySQL能否承受如此大的数据负载？初步分析：需要确定关键过滤器和属性。经过分析，发现仅少数属性与解决方案相关。我们验证了过滤器的可行性，并设置了一些限制来优化搜索。地图搜索基于城

mysql 无法启动怎么解决 Apr 08, 2025 pm 02:21 PM

MySQL启动失败的原因有多种，可以通过检查错误日志进行诊断。常见原因包括端口冲突（检查端口占用情况并修改配置）、权限问题（检查服务运行用户权限）、配置文件错误（检查参数设置）、数据目录损坏（恢复数据或重建表空间）、InnoDB表空间问题（检查ibdata1文件）、插件加载失败（检查错误日志）。解决问题时应根据错误日志进行分析，找到问题的根源，并养成定期备份数据的习惯，以预防和解决问题。

mysql安装后怎么使用 Apr 08, 2025 am 11:48 AM

文章介绍了MySQL数据库的上手操作。首先，需安装MySQL客户端，如MySQLWorkbench或命令行客户端。1.使用mysql-uroot-p命令连接服务器，并使用root账户密码登录；2.使用CREATEDATABASE创建数据库，USE选择数据库；3.使用CREATETABLE创建表，定义字段及数据类型；4.使用INSERTINTO插入数据，SELECT查询数据，UPDATE更新数据，DELETE删除数据。熟练掌握这些步骤，并学习处理常见问题和优化数据库性能，才能高效使用MySQL。

了解 ACID 属性：可靠数据库的支柱 Apr 08, 2025 pm 06:33 PM

数据库ACID属性详解ACID属性是确保数据库事务可靠性和一致性的一组规则。它们规定了数据库系统处理事务的方式，即使在系统崩溃、电源中断或多用户并发访问的情况下，也能保证数据的完整性和准确性。ACID属性概述原子性(Atomicity):事务被视为一个不可分割的单元。任何部分失败，整个事务回滚，数据库不保留任何更改。例如，银行转账，如果从一个账户扣款但未向另一个账户加款，则整个操作撤销。begintransaction;updateaccountssetbalance=balance-100wh

mysql 能返回 json 吗 Apr 08, 2025 pm 03:09 PM

MySQL 可返回 JSON 数据。JSON_EXTRACT 函数可提取字段值。对于复杂查询，可考虑使用 WHERE 子句过滤 JSON 数据，但需注意其性能影响。MySQL 对 JSON 的支持在不断增强，建议关注最新版本及功能。

偏远的高级后端工程师（平台）需要圈子 Apr 08, 2025 pm 12:27 PM

远程高级后端工程师职位空缺公司：Circle地点：远程办公职位类型：全职薪资：$130,000-$140,000美元职位描述参与Circle移动应用和公共API相关功能的研究和开发，涵盖整个软件开发生命周期。主要职责独立完成基于RubyonRails的开发工作，并与React/Redux/Relay前端团队协作。为Web应用构建核心功能和改进，并在整个功能设计过程中与设计师和领导层紧密合作。推动积极的开发流程，并确定迭代速度的优先级。要求6年以上复杂Web应用后端

mySQL下载完安装不了 Apr 08, 2025 am 11:24 AM

MySQL安装失败的原因主要有：1.权限问题，需以管理员身份运行或使用sudo命令；2.依赖项缺失，需安装相关开发包；3.端口冲突，需关闭占用3306端口的程序或修改配置文件；4.安装包损坏，需重新下载并验证完整性；5.环境变量配置错误，需根据操作系统正确配置环境变量。解决这些问题，仔细检查每个步骤，就能顺利安装MySQL。

Bangla 部分模型检索中的 Laravel Eloquent ORM） Apr 08, 2025 pm 02:06 PM

LaravelEloquent模型检索：轻松获取数据库数据EloquentORM提供了简洁易懂的方式来操作数据库。本文将详细介绍各种Eloquent模型检索技巧，助您高效地从数据库中获取数据。1.获取所有记录使用all()方法可以获取数据库表中的所有记录：useApp\Models\Post;$posts=Post::all();这将返回一个集合(Collection)。您可以使用foreach循环或其他集合方法访问数据：foreach($postsas$post){echo$post->

See all articles

Open LLM榜单再次刷新，比Llama 2更强的「鸭嘴兽」来了

Open-Platypus 数据集

污染问题

微调与合并

结果

局限性

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题