目录
基础能力
多语言能力
长序列
链接外部系统
首页 科技周边 人工智能 通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

Feb 07, 2024 pm 10:15 PM
ai 训练

赶在春节前,通义千问大模型(Qwen)的 1.5 版上线了。今天上午,新版本的消息引发了 AI 社区关注。

新版大模型包括六个型号尺寸:0.5B、1.8B、4B、7B、14B和72B。其中,最强版本的性能超越了GPT 3.5和Mistral-Medium。该版本包含Base模型和Chat模型,并提供多语言支持。

阿里通义千问团队表示,相关技术也已经上线到了通义千问官网和通义千问 App。

除此以外,今天 Qwen 1.5 的发布还有如下一些重点:

  • 支持 32K 上下文长度;
  • 开放了 Base + Chat 模型的 checkpoint;
  • 可与 Transformers 一起本地运行;
  • 同时发布了 GPTQ Int-4 / Int8、AWQ 和 GGUF 权重。

通过使用更先进的大型模型作为评委,通义千问团队对Qwen1.5在两个广泛使用的基准MT-Bench和Alpaca-Eval上进行了初步评估。评估结果如下:

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

尽管 Qwen1.5-72B-Chat 模型相对于 GPT-4-Turbo 有些落后,但在 MT-Bench 和 Alpaca-Eval v2 上的测试中,它展现出了令人瞩目的性能。实际上,Qwen1.5-72B-Chat 在性能上超过了 Claude-2.1、GPT-3.5-Turbo-0613、Mixtral-8x7b-instruct 和 TULU 2 DPO 70B 这些模型,与最近备受关注的 Mistral Medium 模型相媲美。这表明 Qwen1.5-72B-Chat 模型在自然语言处理方面具备了相当的实力。

通义千问团队指出,尽管大模型的评分可能与回答的长度有关,但人类的观察结果表明,Qwen1.5并没有因为产生过长的回答而影响评分。根据AlpacaEval 2.0的数据,Qwen1.5-Chat的平均长度为1618,与GPT-4的长度相同,比GPT-4-Turbo要短。

通义千问的开发者表示,近几个月以来,他们一直致力于构建一个卓越的模型,并不断提升开发者的使用体验。

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

相较于以往版本,本次更新着重提升了 Chat 模型与人类偏好的对齐程度,并且显著增强了模型的多语言处理能力。在序列长度方面,所有规模模型均已实现 32768 个 tokens 的上下文长度范围支持。同时,预训练 Base 模型的质量也有关键优化,有望在微调过程中为人们带来更佳体验。

基础能力

关于模型基础能力的评测,通义千问团队在 MMLU(5-shot)、C-Eval、Humaneval、GS8K、BBH 等基准数据集上对 Qwen1.5 进行了评估。

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

在不同模型尺寸下,Qwen1.5 都在评估基准中表现出强大的性能,72B 的版本在所有基准测试中都超越了 Llama2-70B,展示了其在语言理解、推理和数学方面的能力。

最近一段时间,小型模型的构建是业内热点之一,通义千问团队将模型参数小于 70 亿的 Qwen1.5 模型与社区中重要的小型模型进行了比较:

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

在参数规模低于 70 亿的范围内 Qwen1.5 与业界领先的小型模型相比具有很强的竞争力。

多语言能力

在来自欧洲、东亚和东南亚的 12 种不同语言上,通义千问团队评估了 Base 模型的多语言能力。从开源社区的公开数据集中,阿里研究者构建了如下表所示的评测集合,共涵盖四个不同的维度:考试、理解、翻译、数学。下表提供了每个测试集的详细信息,包括其评测配置、评价指标以及所涉及的具体语言种类。

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

详细的结果如下:

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

上述结果表明,Qwen1.5 Base 模型在 12 种不同语言的多语言能力方面表现出色,在学科知识、语言理解、翻译、数学等各个维度的评估中,均展现了不错的结果。更进一步地,在 Chat 模型的多语言能力上,可以观察到如下结果:

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

长序列

随着长序列理解的需求不断增加,阿里在新版本上提升了千问模型的相应能力,全系列 Qwen1.5 模型支持 32K tokens 的上下文。通义千问团队在 L-Eval 基准上评估了 Qwen1.5 模型的性能,该基准衡量了模型根据长上下文生成响应的能力。结果如下:

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

从结果来看,即使像 Qwen1.5-7B-Chat 这样的小规模模型,也能表现出与 GPT-3.5 可比较的性能,而最大的模型 Qwen1.5-72B-Chat 仅略微落后于 GPT4-32k。

值得一提的是,以上结果仅展示了 Qwen 1.5 在 32K tokens 长度下的效果,并不代表模型最大只能支持 32K 长度。开发者可以在 config.json 中,将 max_position_embedding 尝试修改为更大的值,观察模型在更长上下文理解场景下,是否可以实现令人满意的效果。

链接外部系统

如今,通用语言模型的一大魅力在于其与外部系统对接的潜在能力。RAG 作为一种在社区中快速兴起的任务,有效应对了大语言模型面临的一些典型挑战,如幻觉、无法获取实时更新或私有数据等问题。此外,语言模型在使用 API 和根据指令及示例编写代码方面,展现出了强大的能力。大模型能够使用代码解释器或扮演 AI 智能体,发挥出更为广阔的价值。

通义千问团队对 Qwen1.5 系列 Chat 模型在 RAG 任务上的端到端效果进行了评估。评测基于 RGB 测试集,是一个用于中英文 RAG 评估的集合:

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

然后,通义千问团队在 T-Eval 基准测试中评估了 Qwen1.5 作为通用智能体运行的能力。所有 Qwen1.5 模型都没有专门面向基准进行优化:

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

为了测试工具调用能力,阿里使用自身开源的评估基准测试模型正确选择、调用工具的能力,结果如下:

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

最后,由于 Python 代码解释器已成为高级 LLM 越来越强大的工具,通义千问团队还在之前开源的评估基准上评估了新模型利用这一工具的能力:

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5

结果表明,较大的 Qwen1.5-Chat 模型通常优于较小的模型,其中 Qwen1.5-72B-Chat 接近 GPT-4 的工具使用性能。不过,在数学解题和可视化等代码解释器任务中,即使是最大的 Qwen1.5-72B-Chat 模型也会因编码能力而明显落后于 GPT-4。阿里表示,会在未来的版本中,在预训练和对齐过程中提高所有 Qwen 模型的编码能力。

Qwen1.5 与 HuggingFace transformers 代码库进行了集成。从 4.37.0 版本开始,开发者可以直接使用 transformers 库原生代码,而不加载任何自定义代码(指定 trust_remote_code 选项)来使用 Qwen1.5。

在开源生态上,阿里已经与 vLLM、SGLang(用于部署)、AutoAWQ、AutoGPTQ(用于量化)、Axolotl、LLaMA-Factory(用于微调)以及 llama.cpp(用于本地 LLM 推理)等框架合作,所有这些框架现在都支持 Qwen1.5。Qwen1.5 系列目前也可以在 Ollama 和 LMStudio 等平台上使用。

以上是通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

debian readdir如何实现文件排序 debian readdir如何实现文件排序 Apr 13, 2025 am 09:06 AM

在Debian系统中,readdir函数用于读取目录内容,但其返回的顺序并非预先定义的。要对目录中的文件进行排序,需要先读取所有文件,再利用qsort函数进行排序。以下代码演示了如何在Debian系统中使用readdir和qsort对目录文件进行排序:#include#include#include#include//自定义比较函数,用于qsortintcompare(constvoid*a,constvoid*b){returnstrcmp(*(

如何优化debian readdir的性能 如何优化debian readdir的性能 Apr 13, 2025 am 08:48 AM

在Debian系统中,readdir系统调用用于读取目录内容。如果其性能表现不佳,可尝试以下优化策略:精简目录文件数量:尽可能将大型目录拆分成多个小型目录,降低每次readdir调用处理的项目数量。启用目录内容缓存:构建缓存机制,定期或在目录内容变更时更新缓存,减少对readdir的频繁调用。内存缓存(如Memcached或Redis)或本地缓存(如文件或数据库)均可考虑。采用高效数据结构:如果自行实现目录遍历,选择更高效的数据结构(例如哈希表而非线性搜索)存储和访问目录信

Debian Apache日志级别如何设置 Debian Apache日志级别如何设置 Apr 13, 2025 am 08:33 AM

本文介绍如何在Debian系统中调整ApacheWeb服务器的日志记录级别。通过修改配置文件,您可以控制Apache记录的日志信息的详细程度。方法一:修改主配置文件定位配置文件:Apache2.x的配置文件通常位于/etc/apache2/目录下,文件名可能是apache2.conf或httpd.conf,具体取决于您的安装方式。编辑配置文件:使用文本编辑器(例如nano)以root权限打开配置文件:sudonano/etc/apache2/apache2.conf

Debian OpenSSL如何防止中间人攻击 Debian OpenSSL如何防止中间人攻击 Apr 13, 2025 am 10:30 AM

在Debian系统中,OpenSSL是一个重要的库,用于加密、解密和证书管理。为了防止中间人攻击(MITM),可以采取以下措施:使用HTTPS:确保所有网络请求使用HTTPS协议,而不是HTTP。HTTPS使用TLS(传输层安全协议)加密通信数据,确保数据在传输过程中不会被窃取或篡改。验证服务器证书:在客户端手动验证服务器证书,确保其可信。可以通过URLSession的委托方法来手动验证服务器

Debian邮件服务器SSL证书安装方法 Debian邮件服务器SSL证书安装方法 Apr 13, 2025 am 11:39 AM

在Debian邮件服务器上安装SSL证书的步骤如下:1.安装OpenSSL工具包首先,确保你的系统上已经安装了OpenSSL工具包。如果没有安装,可以使用以下命令进行安装:sudoapt-getupdatesudoapt-getinstallopenssl2.生成私钥和证书请求接下来,使用OpenSSL生成一个2048位的RSA私钥和一个证书请求(CSR):openss

debian readdir如何与其他工具集成 debian readdir如何与其他工具集成 Apr 13, 2025 am 09:42 AM

Debian系统中的readdir函数是用于读取目录内容的系统调用,常用于C语言编程。本文将介绍如何将readdir与其他工具集成,以增强其功能。方法一:C语言程序与管道结合首先,编写一个C程序调用readdir函数并输出结果:#include#include#includeintmain(intargc,char*argv[]){DIR*dir;structdirent*entry;if(argc!=2){

Debian邮件服务器防火墙配置技巧 Debian邮件服务器防火墙配置技巧 Apr 13, 2025 am 11:42 AM

配置Debian邮件服务器的防火墙是确保服务器安全性的重要步骤。以下是几种常用的防火墙配置方法,包括iptables和firewalld的使用。使用iptables配置防火墙安装iptables(如果尚未安装):sudoapt-getupdatesudoapt-getinstalliptables查看当前iptables规则:sudoiptables-L配置

Debian syslog如何学习 Debian syslog如何学习 Apr 13, 2025 am 11:51 AM

本指南将指导您学习如何在Debian系统中使用Syslog。Syslog是Linux系统中用于记录系统和应用程序日志消息的关键服务,它帮助管理员监控和分析系统活动,从而快速识别并解决问题。一、Syslog基础知识Syslog的核心功能包括:集中收集和管理日志消息;支持多种日志输出格式和目标位置(例如文件或网络);提供实时日志查看和过滤功能。二、安装和配置Syslog(使用Rsyslog)Debian系统默认使用Rsyslog。您可以通过以下命令安装:sudoaptupdatesud

See all articles