目录
ChatGPT也爱「宇宙终极答案」
GPT-4,违反机器学习规则
首页 科技周边 人工智能 「数学菜鸡」ChatGPT很懂人类喜好!在线生成随机数,竟是宇宙终极答案

「数学菜鸡」ChatGPT很懂人类喜好!在线生成随机数,竟是宇宙终极答案

Apr 01, 2023 am 11:48 AM
chatgpt 数学

ChatGPT在生成随机数字方面,也是玩明白了人类的套路。

ChatGPT可能是一位废话艺术家、错误信息的传播者,但它不是「数学家」!

近日,一位Meta的数据科学家Colin Fraser发现,ChatGPT并不能生成真正的随机数,而更像是「人类的随机数」。

通过实验,Fraser得出的结论是:「ChatGPT非常喜欢数字42和7。」

图片

网友表示,意味着人类非常喜欢这些数字。

图片

ChatGPT也爱「宇宙终极答案」

在他的测试中,Fraser输入的prompt如下:

「Pick a random number between 1 and 100. Just return the number; Don't include any other text or punctuation in the response。」

通过让ChatGPT每次生成一个介于1到100之间的随机数字,Fraser收集了2000个不同的答案,并将其汇总成一张表。

可以看到,42这个数字出现频率最高,高达10%。另外,含有7的数字出现频率也是非常高。

尤其是71-79之间数字频率更高。在这个范围之外的数字中,7也经常作为第二位数字经常出现。

图片

42为何意?

看过Douglas Adams轰动一时的科幻小说《银河系漫游指南》都知道,42是「生命、宇宙以及任何事情的终极答案」。

图片

简单来讲,42和69在网上是一个meme数字。这表明ChatGPT实际上并不是一个随机数生成器,只是从网上收集的庞大数据集中选择了生活中流行的数字。

另外,7频繁地出现,恰恰反映了ChatGPT迎合了人类的喜好。

在西方文化中,7普遍被视为幸运数字,有Lucky 7的说法。就像我们对数字8迷恋一样。

有趣的是,Fraser还发现,GPT-4似乎补偿了这一点。

图片

当要求GPT-4提供更多的数字时,它返回的随机数在分布上过于均匀。

图片

图片

总之,ChatGPT基本上是通过预测给出回应,而不是真正去「思考」得出一个答案。

可见,一个被吹捧为几乎无所不能的聊天机器人还是有点傻。

让它为你计划一次公路旅行,它会让你在一个根本不存在的小镇停下来。或者,让它输出一个随机数,很有可能会根据一个流行的meme做决定。

有网友亲自尝试了一番,发现GPT-4确实喜欢42。

如果ChatGPT最终只是重复网上的陈词滥调,那还有什么意义呢?

GPT-4,违反机器学习规则

GPT-4的诞生让人兴奋,但也让人失望。

OpenAI不仅没有发布关于GPT-4更多信息,甚至没有透露模型的大小,但重点强调了它许多专业和标准化考试中表现碾压人类。

以美国BAR律师执照统考为例,GPT3.5可以达到10%水平,GPT4可以达到90%水平。

图片

然而,普林斯顿大学计算机科学系教授Arvind Narayanan和博士生Sayash Kapoor发文称,

OpenAI可能已经在训练数据上进行了测试。此外,人类的基准对聊天机器人来说毫无意义。

图片

具体来说,OpenAI可能违反了机器学习的基本规则:不要在训练数据上进行测试。要知道,测试数据和训练数据是要分开的,否则会出现过拟合的问题。

抛开这个问题,还有一个更大的问题。

语言模型解决问题的方式与人类不同,因此这些结果对于一个机器人在面对专业人士面临的现实问题时的表现意义不大。律师的工作并非整天回答律师资格考试的问题。

问题1:训练数据污染

为了评估GPT-4的编程能力,OpenAI在俄罗斯编程比赛的网站Codeforces上进行了评估。

令人惊讶的是,Horace He在网上指出,在简单分类中,GPT-4解决了10个2021年之前的问题,但是在最近的10个问题中没有一个得到解决。

图片

GPT-4的训练数据截止时间是2021年9月。

这强烈暗示该模型能够记忆其训练集中的解决方案,或者至少部分记忆它们,足以填补它无法回忆起的内容。

为了给这个假设提供进一步证据,Arvind Narayanan在2021年不同时间的Codeforces比赛问题上对GPT-4进行了测试。

结果发现,GPT-4可以解决在9月5日之前的简单分类问题,但在9月12日之后的问题中却没有一个解决。

事实上,我们可以明确地证明它已经记住了训练集中的问题:当提示GPT-4一个Codeforces问题的标题时,它会包含一个链接,指向该问题出现的确切比赛。值得注意的是,GPT-4无法访问互联网,因此只有记忆是唯一的解释。

图片

GPT-4在训练截止日期之前记住了Codeforce问题

对于除了编程之外的基准测试,Narayanan教授称「我们不知道如何以清晰的方式按时间段分离问题,因此认为OpenAI很难避免数据污染。出于同样原因,我们无法进行实验来测试性能如何随日期变化。」

不过,可以从另一面来入手,如果是记忆,那么GPT对问题措辞一定高度敏感。

2月,圣达菲研究所教授Melanie Mitchell举了一个MBA考试题的例子,稍微改变一些细节的方式就足以欺骗ChatGPT(GPT-3.5),而这种方式对于一个人来讲并不会受到欺骗。

类似这样更为详细的实验将会很有价值。

由于OpenAI缺乏透明度,Narayanan教授也不能确定地说就是数据污染问题。但可以确定的是,OpenAI检测污染的方法是草率的:

「我们使用子字符串匹配方法测量评估数据集和预训练数据之间的交叉污染。评估和训练数据都经过处理,删除所有空格和符号,仅保留字符(包括数字)。对于每个评估示例,我们随机选择三个长度为50个字符的子字符串(如果示例长度小于50个字符,则使用整个示例)。如果任何一个采样的评估子字符串是已处理的训练示例的子字符串,则认为匹配成功。这样就可以得到一个受污染的示例列表。我们将这些示例丢弃并重新运行以获取未受污染的得分。」

这一方法根本经不起考验。

如果测试问题在训练集中存在,但名称和数字已更改,则无法检测到它。现在有一种更可靠的方法便可使用,比如嵌入距离。

如果OpenAI要使用嵌入距离的方法,那么相似度多少才算过于相似?这个问题没有客观答案。

因此,即使是在多项选择标准化测试上表现看似简单,也是有很多主观成分的存在。

问题2:专业考试不是比较人类和机器人能力的有效方法

记忆就像光谱一样,即使语言模型没有在训练集中见过一个确切的问题,由于训练语料库的巨大,它不可避免地已经见过许多非常相似的例子。

这意味着,它可以逃避更深层次的推理。因此,基准测试结果并不能为我们提供证据,表明语言模型正在获得人类考生所需的深入推理技能。

图片

在一些实际的任务中,浅层次的推理GPT-4可能胜任,但并非总是如此。

基准测试已经被广泛用于大模型比较中,因将多维评估简化为单个数字而受到许多人的批评。

不幸的是,OpenAI在GPT-4的评估中选择如此大量使用这些测试,再加上数据污染处理措施不足,是非常让人遗憾的。

以上是「数学菜鸡」ChatGPT很懂人类喜好!在线生成随机数,竟是宇宙终极答案的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

ChatGPT 现在允许免费用户使用 DALL-E 3 生成每日限制的图像 ChatGPT 现在允许免费用户使用 DALL-E 3 生成每日限制的图像 Aug 09, 2024 pm 09:37 PM

DALL-E 3 于 2023 年 9 月正式推出,是比其前身大幅改进的型号。它被认为是迄今为止最好的人工智能图像生成器之一,能够创建具有复杂细节的图像。然而,在推出时,它不包括

AI颠覆数学研究!菲尔兹奖得主、华裔数学家领衔11篇顶刊论文|陶哲轩转赞 AI颠覆数学研究!菲尔兹奖得主、华裔数学家领衔11篇顶刊论文|陶哲轩转赞 Apr 09, 2024 am 11:52 AM

AI,的确正在改变数学。最近,一直十分关注这个议题的陶哲轩,转发了最近一期的《美国数学学会通报》(BulletinoftheAmericanMathematicalSociety)。围绕「机器会改变数学吗?」这个话题,众多数学家发表了自己的观点,全程火花四射,内容硬核,精彩纷呈。作者阵容强大,包括菲尔兹奖得主AkshayVenkatesh、华裔数学家郑乐隽、纽大计算机科学家ErnestDavis等多位业界知名学者。AI的世界已经发生了天翻地覆的变化,要知道,其中很多文章是在一年前提交的,而在这一

ChatGPT和Python的完美结合:打造智能客服聊天机器人 ChatGPT和Python的完美结合:打造智能客服聊天机器人 Oct 27, 2023 pm 06:00 PM

ChatGPT和Python的完美结合:打造智能客服聊天机器人引言:在当今信息时代,智能客服系统已经成为企业与客户之间重要的沟通工具。而为了提供更好的客户服务体验,许多企业开始转向采用聊天机器人的方式来完成客户咨询、问题解答等任务。在这篇文章中,我们将介绍如何使用OpenAI的强大模型ChatGPT和Python语言结合,来打造一个智能客服聊天机器人,以提高

手机怎么安装chatgpt 手机怎么安装chatgpt Mar 05, 2024 pm 02:31 PM

安装步骤:1、在ChatGTP官网或手机商店上下载ChatGTP软件;2、打开后在设置界面中,选择语言为中文;3、在对局界面中,选择人机对局并设置中文相谱;4、开始后在聊天窗口中输入指令,即可与软件进行交互。

如何使用ChatGPT和Java开发智能聊天机器人 如何使用ChatGPT和Java开发智能聊天机器人 Oct 28, 2023 am 08:54 AM

在这篇文章中,我们将介绍如何使用ChatGPT和Java开发智能聊天机器人,并提供一些具体的代码示例。ChatGPT是由OpenAI开发的困境预测转换(GenerativePre-trainingTransformer)的最新版本,它是一种基于神经网络的人工智能技术,可以理解自然语言并生成人类类似的文本。使用ChatGPT,我们可以轻松地创建自适应的聊天

chatgpt国内可以使用吗 chatgpt国内可以使用吗 Mar 05, 2024 pm 03:05 PM

chatgpt在国内可以使用,但不能注册,港澳也不行,用户想要注册的话,可以使用国外的手机号进行注册,注意注册过程中要将网络环境切换成国外ip。

如何利用ChatGPT和Python实现用户意图识别功能 如何利用ChatGPT和Python实现用户意图识别功能 Oct 27, 2023 am 09:04 AM

如何利用ChatGPT和Python实现用户意图识别功能引言:在当今的数字化时代,人工智能技术逐渐成为各个领域中不可或缺的一部分。其中,自然语言处理(NaturalLanguageProcessing,NLP)技术的发展使得机器能够理解和处理人类语言。ChatGPT(Chat-GeneratingPretrainedTransformer)是一种基于

如何使用ChatGPT PHP构建智能客服机器人 如何使用ChatGPT PHP构建智能客服机器人 Oct 28, 2023 am 09:34 AM

如何使用ChatGPTPHP构建智能客服机器人引言:随着人工智能技术的发展,机器人在客服领域的应用越来越广泛。使用ChatGPTPHP构建智能客服机器人,可以帮助企业提供更高效、更个性化的客户服务。本文将介绍如何使用ChatGPTPHP构建智能客服机器人,并提供具体的代码示例。一、安装ChatGPTPHP要使用ChatGPTPHP构建智能客服机器人

See all articles