HuggingFace屠榜：将两只羊驼去掉头尾后拼接在一起-人工智能-PHP中文网

将缝合进行到底

首页

科技周边

人工智能

HuggingFace屠榜：将两只羊驼去掉头尾后拼接在一起

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 15, 2024 pm 09:09 PM

ai 模型

HuggingFace开源大模型排行榜，又被屠榜了。

前排被清一色的SOLAR 10.7B微调版本占据，把几周之前的各种Mixtral 8x7B微调版本挤了下去。

HuggingFace屠榜：将两只羊驼去掉头尾后拼接在一起

SOLAR大模型什么来头？

相关论文刚刚上传到ArXiv，来自韩国公司Upstage AI，使用了新的大模型扩展方法depth up-scaling（DUS）。

HuggingFace屠榜：将两只羊驼去掉头尾后拼接在一起

简单来说就是两只7B羊驼掐头去尾，一只砍掉前8层，一只砍掉后8层。

剩下两个24层缝合在一起，第一个模型的第24层与第二个模型的第9层拼接，最后变成新的48层10.7B大模型。

HuggingFace屠榜：将两只羊驼去掉头尾后拼接在一起

论文声称新方法超过传统扩展方法如MoE，而且可以与沿用基础大模型完全相同的基础设施。

不需要门控网络等附加模块，针对MoE优化训练框架了，也不需要自定义CUDA内核来快速推理，可以无缝集成到现有方法中，同时保持高效。

团队选择7B规模最强的单体大模型Mistral 7B作为底材，用新方法拼接起来，再超越原版以及MoE版。

同时，经过对齐的Instruct版本也超越对应的MoE Instruct版本。

HuggingFace屠榜：将两只羊驼去掉头尾后拼接在一起

将缝合进行到底

为什么是这种拼接方式，论文中介绍来自一种直觉。

从最简单的扩展方式开始，也就是把32层的基础大模型重复两次，变成64层。

这样做的好处是不存在异质性，所有层都来自基础大模型，但第32层和第33层（与第1层相同）的接缝处有较大的“层距离”（layer distance）。

之前有研究表明，Transformer不同层做不同的事，如越深的层擅长处理越抽象的概念。

团队认为层距离过大可能妨碍模型有效利用预训练权重的能力。

一个潜在的解决方案是牺牲中间层，从而减少接缝处的差异，DUS方法就从这里诞生。

根据性能与模型尺寸的权衡，团队选择从每个模型中删除8层，接缝处从32层连第1层，变成了24层连第9层。

简单拼接后的模型，性能一开始还是会低于原版基础模型，但经过继续预训练可以迅速恢复。

在指令微调阶段，除了使用开源数据集，还制作了数学强化数据集，对齐阶段使用DPO。

最后一步，把使用不同数据集训练的模型版本加权平均，也是把缝合进行到底了。

HuggingFace屠榜：将两只羊驼去掉头尾后拼接在一起

有网友质疑测试数据泄露的可能性。

HuggingFace屠榜：将两只羊驼去掉头尾后拼接在一起

团队也考虑到这一点，在论文附录中专门报告了数据污染测试结果，显示出低水平。

HuggingFace屠榜：将两只羊驼去掉头尾后拼接在一起

最后，SOLAR 10.7B基础模型和微调模型都以Apache 2.0协议开源。

试用过的网友反馈，从JSON格式数据中提取数据表现不错。

HuggingFace屠榜：将两只羊驼去掉头尾后拼接在一起

论文地址：https://arxiv.org/abs/2312.15166

以上是HuggingFace屠榜：将两只羊驼去掉头尾后拼接在一起的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7530

CakePHP 教程

1379

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

Debian邮件服务器防火墙配置技巧 Apr 13, 2025 am 11:42 AM

配置Debian邮件服务器的防火墙是确保服务器安全性的重要步骤。以下是几种常用的防火墙配置方法，包括iptables和firewalld的使用。使用iptables配置防火墙安装iptables（如果尚未安装）：sudoapt-getupdatesudoapt-getinstalliptables查看当前iptables规则：sudoiptables-L配置

Debian Apache日志级别如何设置 Apr 13, 2025 am 08:33 AM

本文介绍如何在Debian系统中调整ApacheWeb服务器的日志记录级别。通过修改配置文件，您可以控制Apache记录的日志信息的详细程度。方法一：修改主配置文件定位配置文件:Apache2.x的配置文件通常位于/etc/apache2/目录下，文件名可能是apache2.conf或httpd.conf，具体取决于您的安装方式。编辑配置文件:使用文本编辑器（例如nano）以root权限打开配置文件：sudonano/etc/apache2/apache2.conf

debian readdir如何与其他工具集成 Apr 13, 2025 am 09:42 AM

Debian系统中的readdir函数是用于读取目录内容的系统调用，常用于C语言编程。本文将介绍如何将readdir与其他工具集成，以增强其功能。方法一：C语言程序与管道结合首先，编写一个C程序调用readdir函数并输出结果：#include#include#includeintmain(intargc,char*argv[]){DIR*dir;structdirent*entry;if(argc!=2){

如何优化debian readdir的性能 Apr 13, 2025 am 08:48 AM

在Debian系统中，readdir系统调用用于读取目录内容。如果其性能表现不佳，可尝试以下优化策略：精简目录文件数量:尽可能将大型目录拆分成多个小型目录，降低每次readdir调用处理的项目数量。启用目录内容缓存:构建缓存机制，定期或在目录内容变更时更新缓存，减少对readdir的频繁调用。内存缓存（如Memcached或Redis）或本地缓存（如文件或数据库）均可考虑。采用高效数据结构:如果自行实现目录遍历，选择更高效的数据结构（例如哈希表而非线性搜索）存储和访问目录信

Debian邮件服务器SSL证书安装方法 Apr 13, 2025 am 11:39 AM

在Debian邮件服务器上安装SSL证书的步骤如下：1.安装OpenSSL工具包首先，确保你的系统上已经安装了OpenSSL工具包。如果没有安装，可以使用以下命令进行安装：sudoapt-getupdatesudoapt-getinstallopenssl2.生成私钥和证书请求接下来，使用OpenSSL生成一个2048位的RSA私钥和一个证书请求（CSR）：openss

debian readdir如何实现文件排序 Apr 13, 2025 am 09:06 AM

在Debian系统中，readdir函数用于读取目录内容，但其返回的顺序并非预先定义的。要对目录中的文件进行排序，需要先读取所有文件，再利用qsort函数进行排序。以下代码演示了如何在Debian系统中使用readdir和qsort对目录文件进行排序：#include#include#include#include//自定义比较函数，用于qsortintcompare(constvoid*a,constvoid*b){returnstrcmp(*(

Debian OpenSSL如何进行数字签名验证 Apr 13, 2025 am 11:09 AM

在Debian系统上使用OpenSSL进行数字签名验证，可以按照以下步骤操作：准备工作安装OpenSSL：确保你的Debian系统已经安装了OpenSSL。如果没有安装，可以使用以下命令进行安装：sudoaptupdatesudoaptinstallopenssl获取公钥：数字签名验证需要使用签名者的公钥。通常，公钥会以文件的形式提供，例如public_key.pe

Debian OpenSSL如何防止中间人攻击 Apr 13, 2025 am 10:30 AM

在Debian系统中，OpenSSL是一个重要的库，用于加密、解密和证书管理。为了防止中间人攻击（MITM），可以采取以下措施：使用HTTPS：确保所有网络请求使用HTTPS协议，而不是HTTP。HTTPS使用TLS（传输层安全协议）加密通信数据，确保数据在传输过程中不会被窃取或篡改。验证服务器证书：在客户端手动验证服务器证书，确保其可信。可以通过URLSession的委托方法来手动验证服务器

See all articles

HuggingFace屠榜：将两只羊驼去掉头尾后拼接在一起

将缝合进行到底

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题