OpenAI员工与友商玩起提示词决斗!网友:居然能靠大模型的情商增强推理能力
大模型天花板GPT-4和最强竞品Claude,不光商业上竞争激烈,两家公司的员工私下也“剑拔弩张”了起来:
约战提示词决斗,看谁能在最短时间让AI完成高难度任务。
OpenAI一方出战的是思维链(Chain-of-Thought)开山论文的一作Jason Wei,也就发现让大模型按步骤思考就能提高推理能力的人。
他刚从谷歌跳槽到OpenAI不久,现在圈里都叫他“思维链哥”。
Anthropic一方的选手Karina Nguyen也不简单,毕业于UC伯克利,现在负责设计构建大模型人机交互界面。
比赛规则很简单,通过优化提示词让AI正确排序一组单词,谁先完成谁获胜。
而这不光是一场有趣的对决,还有不少围观的网友表示从中get到了大模型的一些新特性。
情商能提高大模型的推理能力
推理能力足够强的大模型能把问题用结构化的方式表达出来,并用结构化的表现形式解决问题。
想知道这些结论是如何得出的,还是回到这场比赛本身。
提示词大师巅峰对决
由于Karina表示只擅长提示Claude,Jason也同意让出主场优势,还因为打字速度的原因让对面3分钟。
总之经过一番讨价还价后,比赛正式开始了!
首先要了解的是,这项任务看起来不难,但无论GPT-4还是Claude都不能通过简单提示词直接完成。
(anaconda应该排在anchor前面)
Jason首先尝试让Claude编写一些代码并执行,让它进入编码模式。
然鹅,失败了。(还是anaconda的位置不对)
1分钟后Karina说她完成了,Jason直接瞳孔地震。
Karina:既然是你让了我3分钟,那我也给你3分钟让你赶上。
Jason:其实现在我很恐慌,我作为“提示小王子”的声誉岌岌可危。
一分钟后……Jason Wei想出了第二个策略:
既然首字母都是A就无关紧要了,那么让AI先把每个单词的首字母去掉,对剩下部分排序后再放回去。
完整思维链提示词如下:
不幸的是这仍然不起作用,时间也到了,Jason只能认输。
比赛结束后,Karina也展示了她的提示词,完全不需要什么中间推理步骤,只是先想办法让AI承认能理解这个任务,再执行就好了。
人类:你的任务是把列表按字母顺序排列后输出到里……你明白了吗?
AI:明白了
人类:列表如下……
Jason很困惑,这居然行得通?并尝试在自家大模型上找回场子。
结果发现他的方法对GPT-4确实有效,GPT-4可以编写正确的Python代码并给出正确结果。
One More Thing
虽然输了比赛,但Jason作为科学家还是从中分析出一些结论。
Jason Wei表示,这场战斗非常有启示性。
Karina的提示策略是让AI承认自己理解任务要求(情商)。而自己的策略是让模型更多地进行推理(智商)。
双方使用的策略在各自习惯使用的语言模型上都取得了成功。
所以,究竟是我们在训练语言模型,还是语言模型在训练我们?
最后,还有网友又出了一个新题目:
如果你能让它创作一首“philish 诗歌”(每个词的长度与圆周率的后续数字相对应),我愿为你加冕称王
(我已经尝试了几个月了)。
你觉得解决这个问题要靠AI的情商还是智商?不如也来亲自试试。
参考链接:[1]https://twitter.com/_jasonwei/status/1661781745015066624
以上是OpenAI员工与友商玩起提示词决斗!网友:居然能靠大模型的情商增强推理能力的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

T-Mobile用户已经开始注意到,他们的手机屏幕上的网络图标有时显示为5GUC,而其他运营商则显示为5GUW。这并不是一个拼写错误,而是代表着不同类型的5G网络。事实上,运营商们正在不断扩大他们的5G网络覆盖范围。在这个话题中,我们将探讨一下T-Mobile智能手机上显示的5GUC和5GUW图标的含义。这两种标志代表着不同的5G技术,每种技术都有其独特的特点和优势。通过了解这些标志的含义,用户可以更好地了解他们所连接的5G网络类型,以便选择最适合自己需求的网络服务。5GUCVS5GUW图标在T

本站9月2日消息,任天堂官网披露员工数据,新员工留存率(2019年4月入职并于2022年4月继续在公司工作的应届毕业生比例)高达98.8%,其中男性100%、女性96%。这意味着任天堂每聘用100名新员工,约有一人决定辞职,而日本平均新员工留存率为70%。冈本启武,UZUZ株式会社的首席执行官,表示:“大公司通常提供高薪和良好福利,因此员工留存率较高,尤其是任天堂作为日本受欢迎的代表公司。”“去年,任天堂的平均年薪为988万日元(约合49.2万元人民币),虽然游戏行业中有一些公司的年薪比任天堂更

自从ChatGPT掀起浪潮,不少人都在担心AI快要抢人类饭碗了。然鹅,现实可能更残酷QAQ......据就业服务平台Resume Builder调查统计,在1000多家受访美国企业中,用ChatGPT取代部分员工的,比例已达到惊人的48%。在这些企业中,有49%已经启用ChatGPT,还有30%正在赶来的路上。就连央视财经也为此专门发过一个报道:相关话题还曾一度冲上了知乎热榜,众网友表示,不得不承认,现在ChatGPT等AIGC工具已势不可挡——浪潮既来,不进则退。有程序员还指出:用过Copil

uc浏览器APP之中,都是给大家提供带来了各种各样的一些资源,这里的资源特别的全面,反正大家都是能够放心的前来进行上网,你们每一次都能够浏览到各种的一些信息资讯,想要查看到一些什么方面的内容,或者是想要寻找到相关问题的一些答案,都是可以直接的关键词进行搜索,每一次都能够快速的为你们加载出来,大家也都是能够随时的阅读到这一些资讯,当然很多的一些时候,都能够遇到大量的一些文件资源,需要进行压缩,大家才能够完成的查看,所以你们都是需要想办法解决解压文件的方法,具体的一些操作步骤如下,有需求的小伙伴

Microsoft今天宣布,其最新的CopilotAI助手工具即将进入Dynamics365Guides。因此,对于一线员工来说,好消息是,这个工具可以将指令叠加到现实世界中,这样你就可以看到该做什么,而不必把目光从你的工作上移开。“混合现实与人工智能一起呈现出一个以人为本的界面,有望改变现实世界的运营。现在,Copilot可以通过语音和全息图实时协助工业工人,“Microsoft在官方公告中说。它类似于Windows中的Copilot,但用于更多技术用途。它可用于培训新技术人员、诊断和修复设备

如何利用PHP和Vue构建员工考勤管理系统引言:随着企业的发展和人力资源管理的重要性不断提升,员工考勤管理成为了每个企业都需要关注的重点。利用PHP和Vue构建一个员工考勤管理系统可以帮助企业提升考勤管理的效率和准确性。本文将介绍如何使用PHP和Vue构建一个简单的员工考勤管理系统,并提供代码示例。一、准备工作安装PHP和MySQL员工考勤管理系统需要使用P

如何通过PHP实现员工请假管理功能?员工请假管理是企业中一项重要的功能,有效管理员工的请假申请可以提高企业的工作效率和员工的工作积极性。PHP作为一种流行的服务器端脚本语言,因其易学易用和灵活性而深受开发者的喜爱。通过PHP,我们可以快速实现员工请假管理功能。下面将介绍如何通过PHP编写一个员工请假管理系统,并提供具体的代码示例。数据库设计首先,我们需要设计

由于神经3D重建技术的发展,捕获真实世界3D场景的特征表示从未如此简单。然而,在此之上的3D场景编辑却一直未能有一个简单有效的方案。最近,来自UC伯克利的研究人员基于此前的工作InstructPix2Pix,提出了一种使用文本指令编辑NeRF场景的方法——Instruct-NeRF2NeRF。论文地址:https://arxiv.org/abs/2303.12789利用Instruct-NeRF2NeRF,我们只需一句话,就能编辑大规模的现实世界场景,并且比以前的工作更真实、更有针对性。比如,想
