AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士
高數考不好,不知道是多少人的惡夢。
如果說你高數考得還不如AI好,是不是就更難接受了?
沒錯,來自OpenAI的Codex已經在MIT的7門高數課程題目中正確率達到81.1%,妥妥的MIT本科生水準。
課程範圍從初級微積分到微分方程、機率論、線性代數都有,題目形式除了計算、甚至還有畫圖。
這件事最近還登上了微博熱搜。
△「僅」得81分,對AI的期待也太高了吧
現在,Google那邊又傳來了最新大消息:
不只數學,我們的AI甚至在整個理工科上,都已經拿到最高分啦!
看來在培養「AI做題家」這件事上,科技巨頭們已經捲出了新高度。
Google這個最新AI做題家,參加了四門考試。
數學競賽考試MATH,以往只有三屆IMO金牌得主才拿過90分,普通的電腦博士甚至只能拿到40分左右。
至於別的AI做題家們,以前最好成績只有6.9分…
但這一次,Google新AI卻刷到了50分,比電腦博士還高。
綜合考試MMLU-STEM,內含數理化生、電子工程和電腦科學,題目難度達到高中甚至大學程度。
這次,GoogleAI“滿血版”,也都拿到了做題家中的最高分,直接將分數拉高了20分左右。
小學數學題GSM8k,直接將成績拉升到78分,相較之下GPT-3還沒及格(僅55分)。
就連MIT本科和研究生學的固體化學、天文學、微分方程和狹義相對論等課程,Google新AI也能在200多題中,答出將近三分之一。
最重要的是,與OpenAI憑藉「程式設計技巧」取得數學高分的方法不同,GoogleAI這次,走的可是「像人一樣思考」的路子——
它像文科生一樣只背書不做題,卻掌握了更好的理工科解題技巧。
值得一提的是,論文一作Lewkowycz也分享了一個論文中沒寫到的亮點:
我們的模型參加了今年的波蘭數學高考,成績比全國平均還要高。
看到這裡,有的家長已經坐不住了。
如果告訴我女兒這件事,我怕她用AI做功課。但如果不告訴她,就沒有讓她對未來做好準備!
在業界人士看來,只靠語言模型,不對算數、邏輯和代數做硬編碼達到這種水平,是這項研究最驚豔的地方。
那麼,這是怎麼做到的?
AI狂讀arXiv上200萬篇論文
新模型Minerva,基於Pathway架構下的通用語言模型PaLM改造而來。
分別在80億、600億和5400億參數PaLM模型的基礎上做進一步訓練。
Minerva做題與Codex的想法完全不同。
Codex的方法是把每道數學題改寫成程式題,再靠寫程式碼來解決。
而Minerva則是狂讀論文,硬生生以理解自然語言的方式去理解數學符號。
在PaLM的基礎上繼續訓練,新增的資料集有三個部分:
主要有arXiv上收集的200萬篇學術論文,60GB帶LaTeX公式的網頁,以及一小部分在PaLM訓練階段就用到過的文字。
通常的NLP資料清洗過程會把符號都刪除只保留純文字,導致公式不完整,例如愛因斯坦著名的質能方程式只剩下了Emc2。
但Google這次把公式都保留,和純文字一樣走一遍Transformer的訓練程序,讓AI像理解語言一樣去理解符號。
與先前的語言模型相比,這是Minerva在數理問題上表現較好的原因之一。
但與專門做數學題的AI相比,Minerva的訓練中沒有顯式的底層數學結構,這帶來一個缺點和一個優點。
缺點,是可能出現AI用錯誤的步驟得到正確答案的情況。
優點,是可以適應不同學科,即使有些問題無法用正規的數學語言表達出來,也可以結合自然語言理解能力解出來。
到了AI的推理階段,Minerva也結合了多個最近谷歌開發的新技術。
先是Chain of Thought思維連結提示,今年一月由Google大腦團隊提出。
具體來說就是在提問的同時給一個逐步回答的範例來引導。 AI在做題時就可以採用類似的思考過程,正確回答原本會答錯的題目。
再有是Google和MIT合作開發的Scrathpad草稿紙方法,讓AI把逐步計算的中間結果暫時儲存起來。
最後還有Majority Voting多數決方法,也是今年3月才發表的。
讓AI多次回答同一個題目,選擇答案中出現頻率最高的。
所有這些技巧全用上以後,5,400億參數的Minerva在各種測試集中達到SOTA。
甚至80億參數版的Minerva,在競賽級數學題和MIT公開課問題中,也能達到GPT-3最新更新的davinci-002版本水準。
說了這麼多,Minerva具體能做出哪些題目?
對此Google也開放出了範例集,一起來看一下。
數理化生全能,連機器學習都會
數學上,Minerva可以像人類一樣按步驟計算數值,而不是直接暴力求解。
對於應用問題,可以自己列出方程式並做簡化。
甚至可以推導出證明。
物理上,Minerva可以求中性氮基態(Z = 7)電子的總自旋量子數這樣的大學水平題目。
生物和化學上,Minerva憑藉語言理解能力也可以做各種選擇題。
下列哪一種點突變形式對DNA序列形成的蛋白質沒有負面影響?
下列哪一個是放射性元素?
以及天文學:為什麼地球擁有很強的磁場?
在機器學習方面,它透過解釋「分佈外樣本檢測」的具體意義,從而正確了給出這個名詞的另一種說法。
……
不過,Minerva有時也會犯一些低階錯誤,像是把等式兩邊的√給消了。
除此之外,Minerva會出現的推理過程錯誤但結果對的「假陽性」情況,例如下面這種,有8%的可能性。
經過分析後,團隊發現主要的錯誤形式來自計算錯誤和推理錯誤,只有小部分來自題意理解錯誤和在步驟中使用了錯誤的事實等其他情況。
其中計算錯誤可以輕易透過存取外部計算器或Python解釋器來解決,但其他種類的錯誤因為神經網路規模太大就不太好調整了。
總的來看,Minerva的表現讓許多人感到驚艷,紛紛在留言區求API(可惜Google目前並沒有公開計畫)。
有的網友想到,加上前幾日讓GPT-3解題正確率暴漲61%的「哄一哄」大法,它的準確率或許還可以再提高?
不過作者的回應是,哄一哄方法屬於零樣本學習,再強恐怕也比不上帶4個例子的少樣本學習。
還有網友提出,既然它可以做題,那麼能不能反過來出題?
事實上用AI給大學生出題這件事,MIT已經聯合OpenAI在做了。
他們把人類出的題和AI出的題混在一起,找學生來做問卷調查,大家也很難分辨一道題目是不是AI出的。
總之現在的情況,除了搞AI的在忙著讀這篇論文以外。
學生們盼望有一天能用AI做作業。
老師們也盼著有一天能用AI出卷子。
論文網址:https://storage.googleapis.com/minerva-paper/minerva_paper.pdf
Demo網址:https://minerva- demo.github.io/
相關論文:Chain of Thought https://arxiv.org/abs/2201.11903Scrathpads https://arxiv.org/abs/2112.00114Majority Voting https://arxiv.org /abs/2203.11171
參考連結:
https://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html
https: //twitter.com/bneyshabur/status/1542563148334596098
https://twitter.com/alewkowycz/status/1542559176483823622
以上是AI做題家卷瘋了!高數考試正確率81%,競賽題成績超過電腦博士的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

要使用 phpMyAdmin 創建數據表,以下步驟必不可少:連接到數據庫並單擊“新建”標籤。為表命名並選擇存儲引擎(推薦 InnoDB)。通過單擊“添加列”按鈕添加列詳細信息,包括列名、數據類型、是否允許空值以及其他屬性。選擇一個或多個列作為主鍵。單擊“保存”按鈕創建表和列。

創建Oracle數據庫並非易事,需理解底層機制。 1. 需了解數據庫和Oracle DBMS的概念;2. 掌握SID、CDB(容器數據庫)、PDB(可插拔數據庫)等核心概念;3. 使用SQL*Plus創建CDB,再創建PDB,需指定大小、數據文件數、路徑等參數;4. 高級應用需調整字符集、內存等參數,並進行性能調優;5. 需注意磁盤空間、權限和參數設置,並持續監控和優化數據庫性能。 熟練掌握需不斷實踐,才能真正理解Oracle數據庫的創建和管理。

創建Oracle數據庫,常用方法是使用dbca圖形化工具,步驟如下:1. 使用dbca工具,設置dbName指定數據庫名;2. 設置sysPassword和systemPassword為強密碼;3. 設置characterSet和nationalCharacterSet為AL32UTF8;4. 設置memorySize和tablespaceSize根據實際需求調整;5. 指定logFile路徑。 高級方法為使用SQL命令手動創建,但更複雜易錯。 需要注意密碼強度、字符集選擇、表空間大小及內存

Oracle SQL語句的核心是SELECT、INSERT、UPDATE和DELETE,以及各種子句的靈活運用。理解語句背後的執行機制至關重要,如索引優化。高級用法包括子查詢、連接查詢、分析函數和PL/SQL。常見錯誤包括語法錯誤、性能問題和數據一致性問題。性能優化最佳實踐涉及使用適當的索引、避免使用SELECT *、優化WHERE子句和使用綁定變量。掌握Oracle SQL需要實踐,包括代碼編寫、調試、思考和理解底層機制。

MySQL 中字段操作指南:添加、修改和刪除字段。添加字段:ALTER TABLE table_name ADD column_name data_type [NOT NULL] [DEFAULT default_value] [PRIMARY KEY] [AUTO_INCREMENT]修改字段:ALTER TABLE table_name MODIFY column_name data_type [NOT NULL] [DEFAULT default_value] [PRIMARY KEY]

嵌套查詢是一種在一個查詢中包含另一個查詢的方式,主要用於檢索滿足複雜條件、關聯多張表以及計算匯總值或統計信息的數據。實例示例包括:查找高於平均工資的僱員、查找特定類別的訂單以及計算每種產品的總訂購量。編寫嵌套查詢時,需要遵循:編寫子查詢、將其結果寫入外層查詢(使用別名或 AS 子句引用)、優化查詢性能(使用索引)。

Oracle 數據庫的完整性約束可確保數據準確性,包括:NOT NULL:禁止空值;UNIQUE:保證唯一性,允許單個 NULL 值;PRIMARY KEY:主鍵約束,加強 UNIQUE,禁止 NULL 值;FOREIGN KEY:維護表間關係,外鍵引用主表主鍵;CHECK:根據條件限制列值。

Oracle 是全球最大的數據庫管理系統(DBMS)軟件公司,其主要產品包括以下功能:關係數據庫管理系統(Oracle 數據庫)開發工具(Oracle APEX、Oracle Visual Builder)中間件(Oracle WebLogic Server、Oracle SOA Suite)雲服務(Oracle Cloud Infrastructure)分析和商業智能(Oracle Analytics Cloud、Oracle Essbase)區塊鏈(Oracle Blockchain Pla
