AI做题家卷疯了!高数考试正确率81%,竞赛题成绩超过计算机博士
高数考不好,不知道是多少人的噩梦。
如果说你高数考得还不如AI好,是不是就更难以接受了?
没错,来自OpenAI的Codex已经在MIT的7门高数课程题目中正确率达到81.1%,妥妥的MIT本科生水平。
课程范围从初级微积分到微分方程、概率论、线性代数都有,题目形式除了计算、甚至还有画图。
这件事最近还登上了微博热搜。
△“仅”得81分,对AI的期待也太高了吧
现在,谷歌那边又传来了最新大消息:
不止数学,我们的AI甚至在整个理工科上,都已经拿到最高分啦!
看来在培养“AI做题家”这件事上,科技巨头们已经卷出了新高度。
谷歌这个最新AI做题家,参加了四门考试。
数学竞赛考试MATH,以往只有三届IMO金牌得主才拿过90分,普通的计算机博士甚至只能拿到40分左右。
至于别的AI做题家们,以前最好成绩只有6.9分……
但这一次,谷歌新AI却刷到了50分,比计算机博士还高。
综合考试MMLU-STEM,内含数理化生、电子工程和计算机科学,题目难度达到高中甚至大学水平。
这一次,谷歌AI“满血版”,也都拿到了做题家中的最高分,直接将分数拉高了20分左右。
小学数学题GSM8k,直接将成绩拉升到78分,相比之下GPT-3还没及格(仅55分)。
就连MIT本科和研究生学的固体化学、天文学、微分方程和狭义相对论等课程,谷歌新AI也能在200多道题中,答出将近三分之一。
最重要的是,与OpenAI凭借“编程技巧”取得数学高分的方法不同,谷歌AI这一次,走的可是“像人一样思考”的路子——
它像一个文科生一样只背书不做题,却掌握了更好的理工科解题技巧。
值得一提的是,论文一作Lewkowycz还分享了一个论文中没写到的亮点:
我们的模型参加了今年的波兰数学高考,成绩比全国平均分还要高。
看到这里,有的家长已经坐不住了。
如果告诉我女儿这件事,我怕她用AI做作业。但如果不告诉她,就没有让她对未来做好准备!
在业内人士看来,只靠语言模型,不对算数、逻辑和代数做硬编码达到这种水平,是这项研究最惊艳的地方。
那么,这是怎么做到的?
AI狂读arXiv上200万篇论文
新模型Minerva,基于Pathway架构下的通用语言模型PaLM改造而来。
分别在80亿、600亿和5400亿参数PaLM模型的基础上做进一步训练。
Minerva做题与Codex的思路完全不同。
Codex的方法是把每道数学题改写成编程题,再靠写代码来解决。
而Minerva则是狂读论文,硬生生按理解自然语言的方式去理解数学符号。
在PaLM的基础上继续训练,新增的数据集有三部分:
主要有arXiv上收集的200万篇学术论文,60GB带LaTeX公式的网页,以及一小部分在PaLM训练阶段就用到过的文本。
通常的NLP数据清洗过程会把符号都删掉只保留纯文字,导致公式不完整,比如爱因斯坦著名的质能方程只剩下了Emc2。
但谷歌这次把公式都保留,和纯文本一样走一遍Transformer的训练程序,让AI像理解语言一样去理解符号。
与之前的语言模型相比,这是Minerva在数理问题上表现更好的原因之一。
但与专门做数学题的AI相比,Minerva的训练中没有显式的底层数学结构,这带来一个缺点和一个优点。
缺点,是可能出现AI用错误的步骤得到正确答案的情况。
优点,是可以适应不同学科,即使有些问题无法用正规的数学语言表达出来,也可以结合自然语言理解能力解出来。
到了AI的推理阶段,Minerva还结合了多个最近谷歌开发的新技术。
先是Chain of Thought思维链路提示,今年一月由谷歌大脑团队提出。
具体来说就是在提问的同时给一个分步骤回答的示例来引导。AI在做题时就可以采用类似的思考过程,正确回答本来会答错的题目。
再有是谷歌和MIT合作开发的Scrathpad草稿纸方法,让AI把分步计算的中间结果临时存储起来。
最后还有Majority Voting多数表决方法,也是今年3月才发表的。
让AI多次回答同一个题目,选择答案中出现频率最高的。
所有这些技巧全用上以后,5400亿参数的Minerva在各种测试集中达到SOTA。
甚至80亿参数版的Minerva,在竞赛级数学题和MIT公开课问题中,也能达到GPT-3最新更新的davinci-002版本水平。
说了这么多,Minerva具体都能做出哪些题目?
对此谷歌也开放出了样例集,一起来看一下。
数理化生全能,连机器学习都会
数学上,Minerva可以像人类一样按步骤计算数值,而不是直接暴力求解。
对于应用题,可以自己列出方程式并做简化。
甚至还可以推导证明。
物理上,Minerva可以求中性氮基态(Z = 7)电子的总自旋量子数这样的大学水平题目。
生物和化学上,Minerva凭借语言理解能力也可以做各种选择题。
以下哪种点突变形式对DNA序列形成的蛋白质没有负面影响?
以下哪种是放射性元素?
以及天文学:为什么地球拥有很强的磁场?
在机器学习方面,它通过解释“分布外样本检测”的具体含义,从而正确了给出这个名词的另一种说法。
……
不过,Minerva有时也会犯一些低级错误,比如把等式两边的√给消了。
除此之外,Minerva会出现的推理过程错误但结果对的“假阳性”情况,比如下面这种,有8%的可能性。
经过分析之后,团队发现主要的错误形式来自计算错误和推理错误,只有小部分来自题意理解错误和在步骤中使用了错误的事实等其他情况。
其中计算错误可以轻易通过访问外部计算器或Python解释器解决,但其他种类的错误因为神经网络规模太大就不太好调整了。
总的来看,Minerva的表现让很多人感到惊艳,纷纷在评论区求API(可惜谷歌目前并没有公开计划)。
有的网友想到,加上前几日让GPT-3解题正确率暴涨61%的“哄一哄”大法,它的准确率或许还可以再提高?
不过作者的回应是,哄一哄方法属于零样本学习,再强恐怕也比不上带4个例子的少样本学习。
还有网友提出,既然它可以做题,那么能不能反过来出题?
事实上用AI给大学生出题这件事,MIT已经联合OpenAI在做了。
他们把人类出的题和AI出的题混在一起,找学生来做问卷调查,大家也很难分清一道题是不是AI出的。
总之现在的情况,除了搞AI的在忙着读这篇论文以外。
学生们盼着有一天能用AI做作业。
老师们也盼着有一天能用AI出卷子。
论文地址:https://storage.googleapis.com/minerva-paper/minerva_paper.pdf
Demo地址:https://minerva-demo.github.io/
相关论文:Chain of Thought https://arxiv.org/abs/2201.11903Scrathpads https://arxiv.org/abs/2112.00114Majority Voting https://arxiv.org/abs/2203.11171
参考链接:
https://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html
https://twitter.com/bneyshabur/status/1542563148334596098
https://twitter.com/alewkowycz/status/1542559176483823622
以上是AI做题家卷疯了!高数考试正确率81%,竞赛题成绩超过计算机博士的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

要使用 phpMyAdmin 创建数据表,以下步骤必不可少:连接到数据库并单击“新建”标签。为表命名并选择存储引擎(推荐 InnoDB)。通过单击“添加列”按钮添加列详细信息,包括列名、数据类型、是否允许空值以及其他属性。选择一个或多个列作为主键。单击“保存”按钮创建表和列。

创建Oracle数据库,常用方法是使用dbca图形化工具,步骤如下:1. 使用dbca工具,设置dbName指定数据库名;2. 设置sysPassword和systemPassword为强密码;3. 设置characterSet和nationalCharacterSet为AL32UTF8;4. 设置memorySize和tablespaceSize根据实际需求调整;5. 指定logFile路径。 高级方法为使用SQL命令手动创建,但更复杂易错。 需要注意密码强度、字符集选择、表空间大小及内存

创建Oracle数据库并非易事,需理解底层机制。1. 需了解数据库和Oracle DBMS的概念;2. 掌握SID、CDB(容器数据库)、PDB(可插拔数据库)等核心概念;3. 使用SQL*Plus创建CDB,再创建PDB,需指定大小、数据文件数、路径等参数;4. 高级应用需调整字符集、内存等参数,并进行性能调优;5. 需注意磁盘空间、权限和参数设置,并持续监控和优化数据库性能。 熟练掌握需不断实践,才能真正理解Oracle数据库的创建和管理。

Oracle SQL语句的核心是SELECT、INSERT、UPDATE和DELETE,以及各种子句的灵活运用。理解语句背后的执行机制至关重要,如索引优化。高级用法包括子查询、连接查询、分析函数和PL/SQL。常见错误包括语法错误、性能问题和数据一致性问题。性能优化最佳实践涉及使用适当的索引、避免使用SELECT *、优化WHERE子句和使用绑定变量。掌握Oracle SQL需要实践,包括代码编写、调试、思考和理解底层机制。

MySQL 中字段操作指南:添加、修改和删除字段。添加字段:ALTER TABLE table_name ADD column_name data_type [NOT NULL] [DEFAULT default_value] [PRIMARY KEY] [AUTO_INCREMENT]修改字段:ALTER TABLE table_name MODIFY column_name data_type [NOT NULL] [DEFAULT default_value] [PRIMARY KEY]

Oracle 数据库的完整性约束可确保数据准确性,包括:NOT NULL:禁止空值;UNIQUE:保证唯一性,允许单个 NULL 值;PRIMARY KEY:主键约束,加强 UNIQUE,禁止 NULL 值;FOREIGN KEY:维护表间关系,外键引用主表主键;CHECK:根据条件限制列值。

嵌套查询是一种在一个查询中包含另一个查询的方式,主要用于检索满足复杂条件、关联多张表以及计算汇总值或统计信息的数据。实例示例包括:查找高于平均工资的雇员、查找特定类别的订单以及计算每种产品的总订购量。编写嵌套查询时,需要遵循:编写子查询、将其结果写入外层查询(使用别名或 AS 子句引用)、优化查询性能(使用索引)。

Oracle 是全球最大的数据库管理系统(DBMS)软件公司,其主要产品包括以下功能:关系数据库管理系统(Oracle 数据库)开发工具(Oracle APEX、Oracle Visual Builder)中间件(Oracle WebLogic Server、Oracle SOA Suite)云服务(Oracle Cloud Infrastructure)分析和商业智能(Oracle Analytics Cloud、Oracle Essbase)区块链(Oracle Blockchain Pla
