百度文心一言在国产模型中倒数?我看懵了
夕小瑶科技说 原创
作者 | 卖萌酱最近几天,我们公众号的社群在纷纷转发一张名为SuperClue 评测的截图。科大讯飞甚至在官号进行了宣传:
由于讯飞星火大模型刚发布,笔者玩的少,它是不是真的是国产最强这个笔者不敢下结论。
但在该评测截图中,当下国产模型中热度最高的百度文心一言竟然连一个小型的学术开源模型ChatGLM-6B都打不过。这不仅与笔者自己的使用体验严重不符,而且在我们的专业NLP技术社群中,大家也纷纷表示一脸懵逼:
好奇之下,笔者去这个superclue榜单的github,想看看这个测评结论是怎么得出来的:https://www.php.cn/link/97c8dd44858d3568fdf9537c4b8743b2
首先笔者注意到这个repo下面已经有一些issue了:
看起来这个离谱的感觉不仅仅是笔者有,果然群众的眼睛还是雪亮的。。。
笔者进一步看了一下这个榜单的评测方式:
好家伙,原来所谓的生成式大模型的测试,竟然全都是让模型做选择题。。。
很明显这种做选择题的评测方式是针对BERT时代的判别式AI模型的,那时候的AI模型普遍不具备生成能力,仅仅有判别能力(比如能判别一段文本属于什么类别,选项中哪个是问题的正确答案,判断两段文本的语义是否一致等)。
而生成式模型的评测与判别式模型的评测有相当于大的差异。
例如,对于机器翻译这种特殊的生成任务而言,一般采用BLEU等评价指标来检测模型生成的回复与参考回复之间的“词汇、短语覆盖度”。但机器翻译这种有参考回复的生成类任务是极少数,绝大多数的生成类评测都要采用人工评测的方式。
例如闲聊式对话生成、文本风格迁移、篇章生成、标题生成、文本摘要等生成任务,都需要各个待评测模型去自由生成回复,然后人工去对比这些不同模型生成的回复的质量,或人工判断是否满足了任务需求。
当前这一轮的AI竞争,是模型生成能力的竞争,而不是模型判别能力的竞争。最有评价权的是真实的用户口碑,不再是一个个冰冷的学术榜单。更何况是一个压根没测模型生成能力的榜单。
回想起来前些年——
2019年,OpenAI发布了GPT-2的时候,我们在堆tricks刷榜;
2020年,OpenAI发布了GPT-3的时候,我们在堆tricks刷榜;
2021-2022年,FLAN、T0、InstructGPT等instruction tuning和RLHF工作爆发的时候,我们还有不少团队在坚持堆tricks刷榜…
希望这一波生成式模型的军备竞赛,我们不要再重蹈覆辙。
那么生成式AI模型到底应该怎么测?
很抱歉,我前面说过,如果想做到无偏测试,非常非常的难,甚至比你自研一个生成式模型出来难得多。难度有哪些?具体抛几个问题:
- 评测维度该如何划分?按理解、记忆、推理、表达?按专业领域?还是将传统的NLP生成式评测任务杂揉起来?
- 评测人员如何培训?对于写代码、debug、数学推导、金融法律医疗问答这种专业门槛极高的测试题,该如何招募人员测试?
- 主观性极高的测试题(如生成小红书风格的文案),该如何定义评测标准?
- 问几个泛泛的写作类问题就能代表一个模型的文本生成/写作能力了吗?
- 考察模型的文本生成子能力,篇章生成、问答生成、翻译、摘要、风格迁移都覆盖到了吗?各个任务的占比均匀吗?评判标准都清晰吗?统计显著吗?
- 在上面的问答生成子任务里,科学、医疗、汽车、母婴、金融、工程、政治、军事、娱乐等各个垂类都覆盖到了吗?占比均匀吗?
- 如何测评对话能力?对话的一致性、多样性、话题深度、人格化分别怎么设计的考察任务?
- 对于同一项能力测试,简单问题、中等难度问题和复杂长冷问题都覆盖到了吗?如何界定?分别占比多少?
这只是随手抛的几个要解决的基础问题,在实际基准设计的过程中,要面临大量比以上问题棘手得多的问题。
因此,作为AI从业者,笔者呼吁大家理性看待各类AI模型排名。连一个无偏的测试基准都没有出现,要这排名有何用?
还是那句话,一个生成式模型好不好,真实用户说了算。
一个模型在一个榜单的排名再高,它解决不好你在意的问题,它对你来说就是个一般般的模型。换言之,一个排名倒数的模型,如果在你关注的场景下发现非常强,那它对你来说就是个宝藏模型。
在此,笔者公开了我们团队内部富集和撰写的一个hard case(困难样例)测试集。这份测试集重点关注模型对困难问题/指令的解决能力。
这个困难测试集重点考察了模型的语言理解、复杂指令理解与遵循、文本生成、复杂内容生成、多轮对话、矛盾检测、常识推理、数学推理、反事实推理、危害信息识别、法律伦理意识、中国文学知识、跨语言能力和代码能力等。
再次强调一遍,这是笔者团队为测试生成式模型对困难样例解决能力而做的一个case集,评测结果只能代表“对笔者团队而言,哪个模型感觉更好”,远远不能代表一个无偏的测试结论,如果想要无偏的测试结论,请先解答以上提到的测评问题,再去定义权威测试基准。
想要自己评测验证的小伙伴,可以在本公众号“夕小瑶科技说”后台回复【AI评测】口令来下载测试文件
以下是在superclue榜单中受争议最大的讯飞星火、文心一言与ChatGPT这三个模型的测评结果:
困难Case解决率:
- ChatGPT(GPT-3.5-turbo):11/24=45.83%
- 文心一言(2023.5.10版本):13/24=54.16%
- 讯飞星火(2023.5.10版本):7/24=29.16%
这是要论证讯飞星火不如文心一言吗?如果你仔细看前文了,就明白笔者想说什么。
确实,尽管在这份我们内部的困难case集上,星火模型不如文心一言,但这不能说明综合起来谁一定比谁强,仅仅说明,在我们团队内部的困难case测试集上,文心一言表现最强,甚至比ChatGPT多解决了2个困难case。
对于简单问题而言,其实国产模型跟ChatGPT已经没有太大差距。而对于困难问题而言,各个模型各有所长。就笔者团队的综合使用体验来看,文心一言完全足以吊打ChatGLM-6B等学术测试性质的开源模型,部分能力上不如ChatGPT,部分能力上又超越了ChatGPT。
阿里通义千问、讯飞星火等其他大厂出品的国产模型也是相同的道理。
还是那句话,如今连一个无偏的测试基准都没出现,你要那模型排名有啥用?
比起争论各类有偏的榜单排名,不如像笔者团队一样去做一个自己关心的测试集。
能解决你问题的模型,就是好模型。
以上是百度文心一言在国产模型中倒数?我看懵了的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

在软件技术的前沿,UIUC张令明组携手BigCode组织的研究者,近日公布了StarCoder2-15B-Instruct代码大模型。这一创新成果在代码生成任务取得了显着突破,成功超越CodeLlama-70B-Instruct,登上代码生成性能榜单之巅。 StarCoder2-15B-Instruct的独特之处在于其纯自对齐策略,整个训练流程公开透明,且完全自主可控。该模型通过StarCoder2-15B生成了数千个指令,响应对StarCoder-15B基座模型进行微调,无需依赖昂贵的人工标注数

一、前言在过去的几年里,YOLOs由于其在计算成本和检测性能之间的有效平衡,已成为实时目标检测领域的主导范式。研究人员探索了YOLO的架构设计、优化目标、数据扩充策略等,取得了显着进展。同时,依赖非极大值抑制(NMS)进行后处理阻碍了YOLO的端到端部署,并对推理延迟产生不利影响。在YOLOs中,各种组件的设计缺乏全面彻底的检查,导致显着的计算冗余,限制了模型的能力。它提供了次优的效率,以及相对大的性能改进潜力。在这项工作中,目标是从后处理和模型架构两个方面进一步提高YOLO的性能效率边界。为此

5月15日,百度Apollo在武汉百度萝卜快跑汽车机器人智行谷举办ApolloDay2024,全方位展示百度十年深耕自动驾驶的重大进展,基于大模型带来技术阶跃、面向乘客安全全新定义的无人车和全球最大的无人车自动运营网络,百度已经做到自动驾驶比人类驾驶更安全。得益于此,更加安全舒适、绿色低碳的出行方式正从理想成为现实。百度集团副总裁、智能驾驶事业群组总裁王云鹏现场表示:“我们做无人车的初衷,是满足老百姓日益增长的、对美好出行的向往,人民群众的满意是我们前进的动力。因为安全、所以美好,我们欣喜地看到

DeepSeek 是一款强大的智能搜索与分析工具,提供网页版和官网两种访问方式。网页版便捷高效,免安装即可使用;官网则提供全面产品信息、下载资源和支持服务。无论个人还是企业用户,都可以通过 DeepSeek 轻松获取和分析海量数据,提升工作效率、辅助决策和促进创新。

目标检测系统的标杆YOLO系列,再次获得了重磅升级。自今年2月YOLOv9发布之后,YOLO(YouOnlyLookOnce)系列的接力棒传到了清华大学研究人员的手上。上周末,YOLOv10推出的消息引发了AI界的关注。它被认为是计算机视觉领域的突破性框架,以实时的端到端目标检测能力而闻名,通过提供结合效率和准确性的强大解决方案,延续了YOLO系列的传统。论文地址:https://arxiv.org/pdf/2405.14458项目地址:https://github.com/THU-MIG/yo

今年2月,谷歌上线了多模态大模型Gemini1.5,通过工程和基础设施优化、MoE架构等策略大幅提升了性能和速度。拥有更长的上下文,更强推理能力,可以更好地处理跨模态内容。本周五,GoogleDeepMind正式发布了Gemini1.5的技术报告,内容覆盖Flash版等最近升级,该文档长达153页。技术报告链接:https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf在本报告中,谷歌介绍了Gemini1

写在前面&笔者的个人理解最近来,随着深度学习技术的发展和突破,大规模的基础模型(FoundationModels)在自然语言处理和计算机视觉领域取得了显着性的成果。基础模型在自动驾驶当中的应用也有很大的发展前景,可以提高对于场景的理解和推理。通过对丰富的语言和视觉数据进行预训练,基础模型可以理解和解释自动驾驶场景中的各类元素并进行推理,为驾驶决策和规划提供语言和动作命令。基础模型可以根据对驾驶场景的理解来实现数据增强,用于提供在常规驾驶和数据收集期间不太可能遇到的长尾分布中那些罕见的可行

一般而言,训练神经网络耗费的计算量越大,其性能就越好。在扩大计算规模时,必须要做个决定:是增多模型参数量还是提升数据集大小——必须在固定的计算预算下权衡这两项因素。增加模型参数量的好处是可以提高模型的复杂度和表达能力,从而更好地拟合训练数据。然而,过多的参数可能导致过拟合,使得模型在未见过的数据上表现不佳。另一方面,扩大数据集大小可以提高模型的泛化能力,减少过拟合问题。我们告诉你们:只要能适当分配参数和数据,就能在固定计算预算下实现性能最大化。之前已有不少研究探索过神经语言模型的Scalingl
