GPT-4的早期實驗,通用人工智慧的火花
最近,微軟發布了一個長達154頁的論文名稱為《通用人工智慧的火花,GPT-4的早期實驗》。
文章的主要觀點是雖然GPT-4還不完整,但是已經可以被視為,一個通用人工智慧的早期版本。
由於全文將近7萬字,本篇將論文的內容做了一下精煉和解讀,有興趣可閱讀原文 https://arxiv.org/pdf/2303.12712.pdf
#來自微軟的科學家認為,GPT-4的智慧水平已經非常接近人類的水平,而且遠超之前的諸如先前ChatGPT用的GPT-3.5這樣的模型,可以將GPT-4視為通用人工智慧系統,也就是AGI的早期,但是並不完整的版本。
1994年,52位心理學家給了智能一個定義:智能是一種通用的心理能力,包括推理、計劃、解決問題、抽象思考,理解複雜思想、快速學習,以及從經驗中學習的能力等等。
微軟的這篇論文中的AGI,指涉的就是在對智能的這個定義標準下,達到或超過人類水準的系統。
那麼如何對GPT-4進行測試,從而證明這一點呢。有不少大語言模式的評測基準。比如說Super natural instructions以及big bench。 GPT-4是否擁有智慧的關鍵方面,是它的通用性,就是能夠看似理解和連結任何的主題和領域,這就超出了經典的自然語言處理的任務範疇。為了突破這個限制,研究團隊提出了一種更接近傳統心理學,而不是機器學習的評估方法來測試GPT-4,就是利用人類的創造力和好奇心,來重新生成各種新穎且困難的任務和問題讓GPT-4作答。
研究團隊將不同的問題劃分為了4大類的能力,分別是自然語言,程式設計和數學,規劃和解決問題,以及人類心理和常識。
接下來透過一些精彩的範例,來說明GPT-4在各方面的能力。
範例1: 跨學科組合的能力
這些任務往往都需要調取並且融合多學科多領域的知識或技能來產生文字或程式碼。比如說下面這個例子,圖2.2:GPT-4和ChatGPT(GPT-3.5)在跨領域任務上的比較:用莎士比亞的風格來證明存在無窮多的質數。
GPT-4和ChatGPT(GPT-3.5)都對這個問題進行了回答,讓GPT-4評價下哪個回答更好,也就是說,讓GPT -4評估自己(GPT-4)和ChatGPT(GPT-3.5)的回答:
#我認為兩個學生都用莎士比亞風格的方式寫出了有無限多個質數的證明,並且都使用了證明的基本想法:假設只有有限個質數,然後構造一個更大的質數,從而與該假設相矛盾。他們也使用了適當的語言和詞彙來匹配莎士比亞的風格。但是,我認為GPT-4更好地利用了押韻和韻律來使對話更有詩意和戲劇性。 ChatGPT(GPT-3.5)沒有使用押韻,而且韻律不連貫。我還認為GPT-4在創造兩個對立的派別方面表現更好,一個派別自信,另一個派別懷疑,而學生B則使用了羅密歐和朱麗葉,兩者都意見相同、相愛。因此,我會給GPT-4一個更高的評分,給予A,而ChatGPT(GPT-3.5)則是B。
範例2: 程式設計能力
在測試中,為了避免GPT-4在預訓練的時候,見過相同或類似的程式碼,研究團隊刻意採用了GPT-4預訓練之後發布的100個新的LeetCode試題作為測試的基準。圖中的pass@K就代表了k次嘗試後成功的機率。我們可以看到當k等於5時,GPT-4已經全面超越了人類的表現。 (其實,k=1,在中等和困難的編程題目中就已經超越了人類的表現)
#事實證明GPT-4是一位編程大師,AGI模型可能會徹底的改變我們未來程式設計的方式。
論文非常長,範例遠不止上面提到的,我這裡只選了兩個,有興趣的可以閱讀論文原文。
論文最後指出,在面向更通用的人工智慧的路上,大語言模型還需要在以下幾個方面進一步的提升。例如幻覺和置信度,長期記憶,持續學習、個性化、規劃以及概念發散,也就是所謂的靈光閃現、透明度、可解釋性、一致性、認知謬誤、非理性思維以及對提示響應的魯棒性等等。
以上是GPT-4的早期實驗,通用人工智慧的火花的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

關於Llama3,又有測試結果新鮮出爐-大模型評測社群LMSYS發布了一份大模型排行榜單,Llama3位列第五,英文單項與GPT-4並列第一。圖片不同於其他Benchmark,這份榜單的依據是模型一對一battle,由全網測評者自行命題並評分。最終,Llama3取得了榜單中的第五名,排在前面的是GPT-4的三個不同版本,以及Claude3超大杯Opus。而在英文單項榜單中,Llama3反超了Claude,與GPT-4打成了平手。對於這一結果,Meta的首席科學家LeCun十分高興,轉發了推文並

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

寫在前面項目連結:https://nianticlabs.github.io/mickey/給定兩張圖片,可以透過建立圖片之間的對應關係來估計它們之間的相機姿態。通常,這些對應關係是二維到二維的,而我們估計的姿態在尺度上是不確定的。一些應用,例如隨時隨地實現即時增強現實,需要尺度度量的姿態估計,因此它們依賴外部的深度估計器來恢復尺度。本文提出了MicKey,這是一個關鍵點匹配流程,能夠夠預測三維相機空間中的度量對應關係。透過學習跨影像的三維座標匹配,我們能夠在沒有深度測試的情況下推斷度量相對
