吊打90%人类,Meta首个「AI外交模型」登上Science!网友:请把小扎送上法庭
几十年来,外交一直被认为是「AI绝不可能接管的工作」。
因为它要求玩家掌握、理解他人的观点以及背后的动机,制定复杂的计划并及时调整,然后应用语言与他人达成合作,最后说服他们建立伙伴关系和联盟等。
对沟通、信任和背叛的关注,使外交与围棋和国际象棋等更注重规则的「游戏」截然不同。
然而Meta的最新研究表明:外交官的活儿,AI也很可能能干了!
在2022年8月至10月进行的线上外交游戏比赛中,CICERO在所有「选手」中高居前10%。它的平均得分为25.8%,是其82名对手平均得分(12.4%)的两倍还多。
更加值得一提的是,在实际的比赛过程中,没有一名玩家——发现是人工智能在打比赛!
如今,这项最新成果也以论文的形式发表在了Science上。
CICERO的推出,必将成为自然语言处理领域的一项重大成就。
因为这预示着人工智能有潜力「更好、更自然地与人类合作」,代表着人类向AGI迈进的一大步。
吊打90%人类,无人发现AI参与
《外交》是一款七人制经典策略游戏,可以说是棋盘游戏Risk、纸牌游戏扑克和电视节目Survivor的结合,由美国著名玩具公司孩之宝(Hasbro)于1950年代开发。
通过对20世纪初欧洲七大国的「角色扮演」,玩家需要与其他选手建立信任、谈判和合作,并尽可能多地占领领土。
为避免因对手的反击而被阻止,玩家会私下交流、讨论潜在的协调行动,然后将他们的行动付诸纸上,遵守或违反对其他参与者的承诺。
这样一款充满欺骗与权术的游戏,也被一些玩家视为失去朋友的理想方式,堪称「友尽赛」!
正如上文所言,与国际象棋和围棋等游戏不同,外交是一种更关乎于「人」而不是「规则」的游戏。
如果模型无法识别某人可能在虚张声势,或者精准识别其他玩家某步棋中的进攻性,它显然会很快输掉比赛。
同样,如果它不像一个真人那样说话,表现出同理心、建立关系、谈论游戏,它就不会找到其他愿意与它一起工作的玩家。
在过去的几十年里,研究人员一直在构建一种自然语言交流能力的「AI外交官」。然而因为这一重大挑战已经远远超出了现有AI的能力范畴,因此从来没有一名研究员成功过。
直到近期CICERO的横空出世,才彻底颠覆了这个事实。
CICERO本质上是一台「聊天机器人」,可以与其他外交玩家沟通,从而在游戏中采取有效行动。
西塞罗则是一名古罗马著名政治家、哲学家、演说家,诞生于公元前106年1月3日,以善于雄辩而闻名于罗马政界。
Meta将在这款AI模型取名于此,意义不言而喻。
2022年8月至10月,CICERO在webDiplomacy组织的线上《外交》比赛中,共参加了40场比赛,在所有参与者中成绩高居前10%;在打了五场或更多比赛的19人中,西塞罗则排名第二。
40场比赛中,CICERO的平均得分为25.8%,是其他82名对手平均得分(12.4%)的两倍还多,并将其战略对话和游戏能力展现得淋漓尽致。
会思考又能表述,如此AI谁能不爱?
CICERO基于一个27亿参数的类BART语言模型,该模型根据来自互联网的文本进行预训练,并使用 webDiplomacy.net上在线玩的4万多场外交游戏的数据集进行了扩充。
这些数据中还包含玩家之间交流时产生的超过1200万条消息。
CICERO的模型主要由两部分组成,分别是「战略推理」和「自然语言处理」。
两项技术的整合使CICERO能够针对玩家的动机进行推理并制定策略,然后使用自然语言进行交流,达成一致以实现共同目标,形成联盟并协调计划,主要体现在「合作」、「谈判」和「协调」三方面。
例如,CICERO可以推断在游戏的后期,它将需要某个特定玩家的支持,然后制定策略来赢得此人的青睐——甚至识别该玩家的风险和机会。
对话感知策略模块能够帮助CICERO预测其他玩家可能采取的行动,以及别的玩家认为CICERO可能采取的行动,给定他们过去的对话和游戏板的状态。
由此,CICERO将根据这些预测为自己和其他参与者制定互惠互利的计划。这些规划不仅能让CICERO找到互利合作的机会,也能帮助它在无法合作的时候找到有效的举措。
CICERO中有一个可控对话模型,它与控制对话生成的战略推理算法相结合。
可控对话模型允许CICERO在一组精心选择的计划中进行对话,通常是对CICERO和其他玩家都有利的计划。
CICERO的对话深深植根于正在进行的游戏中的自由形式对话中生成的。
例如,CICERO可能会与另一位玩家协商战术计划,向盟友保证其意图,讨论游戏中更广泛的战略动态,甚至只是进行随意的闲聊——包括几乎任何人类玩家可能会讨论的内容。
「西塞罗在使用自然语言与外交人员谈判方面非常有效,以至于他们往往更喜欢与西塞罗合作,而不是其他人类参与者。」Meta在自家的Twitter中表示。
Meta AI副总裁兼首席人工智能科学家严乐存则认为,「能够在像外交这样战略极其复杂的游戏中上演人类级别的表现,预示了人类与人工智能合作的巨大潜力」。
虽然CICERO只能玩外交,但这项成就背后的技术却与许多现实世界的应用息息相关,例如通过规划和RL控制自然语言的生成,可以缓解人类与人工智能模型之间的沟通障碍。
例如,今天的人工智能助手只能进行简单的问答,比如告诉你今天的天气等,但如果他们通过长期对话教你一项新技能呢?
亦或者想象一个视频游戏,其中的非玩家角色 (NPC) 可以像人们一样自由计划和交谈——了解你的动机并相应调整对话,从而帮助你完成攻城掠地的任务。
当然,就连Meta自己也承认「CICERO还不够完美」——在游戏的某些重要时刻,CICERO经常会出现十分离谱的错误。
因此,Meta选择将CICERO的代码开源发布,希望借助AI开发者社区的力量进一步完善它。
网友:请把小扎送上法庭!
全球首款与人类同等水平的「AI外交官」的发布,也引发了网友们的热议。
不少网友纷纷表示:
「实在太期待这项研究接下来的发展了。」
「击败人类可以说是最人性化的游戏。这简直太迷人了…」
虽然CICERO初出茅庐,却也有人对这项「AI黑科技」在现实生活中的应用前景进行了展望:
「它能构建一个版本来帮助应对集体行动挑战吗,比如#COP28?」
该网友所言的「COP28」,应该是指第28届联合国气候大会。
在刚刚结束的27届气候大会上,经过持续数天的紧张谈判,各国代表最终同意设立一个基金机制,以补偿因气候变化引发的损失和损害。
此外,CICERO的推出也引发了不少网友的担心,「这将直接激励研究人员建立擅长欺骗的模型」。
「以模仿人类行为的方式欺骗并赢得外交游戏,可爱又有趣。」
「真不知道它还能用来做什么?我们需要警觉此类工具的发展。」
「人工智能很擅长创作艺术等。但现在,它的说服能力被『激活』了。」
「如果你能说服一个人,就能控制他们的选择,从而控制他们的生活。」
「因此最终结局会是——AI通过说服来奴役人类!」
最后,也有不少人逗比的网友调侃道:
「这东西靠谱吗?西塞罗最终可是被砍了头的!」
「请将小扎送到海牙(国际法庭)!」
就在前两天,因为将谎言陈述为事实,由Meta AI推出的大型语言模型Galactica上线仅3天便仓皇下架。如今CICERO的推出,可谓是再一次在AI科技圈掀起了层层波澜。
以上是吊打90%人类,Meta首个「AI外交模型」登上Science!网友:请把小扎送上法庭的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

利用地理空间技术高效处理700万条记录并创建交互式地图本文探讨如何使用Laravel和MySQL高效处理超过700万条记录,并将其转换为可交互的地图可视化。初始挑战项目需求:利用MySQL数据库中700万条记录,提取有价值的见解。许多人首先考虑编程语言,却忽略了数据库本身:它能否满足需求?是否需要数据迁移或结构调整?MySQL能否承受如此大的数据负载?初步分析:需要确定关键过滤器和属性。经过分析,发现仅少数属性与解决方案相关。我们验证了过滤器的可行性,并设置了一些限制来优化搜索。地图搜索基于城

为了设置 Vue Axios 的超时时间,我们可以创建 Axios 实例并指定超时选项:在全局设置中:Vue.prototype.$axios = axios.create({ timeout: 5000 });在单个请求中:this.$axios.get('/api/users', { timeout: 10000 })。

MySQL启动失败的原因有多种,可以通过检查错误日志进行诊断。常见原因包括端口冲突(检查端口占用情况并修改配置)、权限问题(检查服务运行用户权限)、配置文件错误(检查参数设置)、数据目录损坏(恢复数据或重建表空间)、InnoDB表空间问题(检查ibdata1文件)、插件加载失败(检查错误日志)。解决问题时应根据错误日志进行分析,找到问题的根源,并养成定期备份数据的习惯,以预防和解决问题。

文章介绍了MySQL数据库的上手操作。首先,需安装MySQL客户端,如MySQLWorkbench或命令行客户端。1.使用mysql-uroot-p命令连接服务器,并使用root账户密码登录;2.使用CREATEDATABASE创建数据库,USE选择数据库;3.使用CREATETABLE创建表,定义字段及数据类型;4.使用INSERTINTO插入数据,SELECT查询数据,UPDATE更新数据,DELETE删除数据。熟练掌握这些步骤,并学习处理常见问题和优化数据库性能,才能高效使用MySQL。

远程高级后端工程师职位空缺公司:Circle地点:远程办公职位类型:全职薪资:$130,000-$140,000美元职位描述参与Circle移动应用和公共API相关功能的研究和开发,涵盖整个软件开发生命周期。主要职责独立完成基于RubyonRails的开发工作,并与React/Redux/Relay前端团队协作。为Web应用构建核心功能和改进,并在整个功能设计过程中与设计师和领导层紧密合作。推动积极的开发流程,并确定迭代速度的优先级。要求6年以上复杂Web应用后端

MySQL 可返回 JSON 数据。JSON_EXTRACT 函数可提取字段值。对于复杂查询,可考虑使用 WHERE 子句过滤 JSON 数据,但需注意其性能影响。MySQL 对 JSON 的支持在不断增强,建议关注最新版本及功能。

数据库ACID属性详解ACID属性是确保数据库事务可靠性和一致性的一组规则。它们规定了数据库系统处理事务的方式,即使在系统崩溃、电源中断或多用户并发访问的情况下,也能保证数据的完整性和准确性。ACID属性概述原子性(Atomicity):事务被视为一个不可分割的单元。任何部分失败,整个事务回滚,数据库不保留任何更改。例如,银行转账,如果从一个账户扣款但未向另一个账户加款,则整个操作撤销。begintransaction;updateaccountssetbalance=balance-100wh

MySQL 主键不可以为空,因为主键是唯一标识数据库中每一行的关键属性,如果主键可以为空,则无法唯一标识记录,将会导致数据混乱。使用自增整型列或 UUID 作为主键时,应考虑效率和空间占用等因素,选择合适的方案。
