史丹佛新研究:ChatGPT背後模型被證實具有人類心智
ChatGPT原來是擁有心智的? ! 「原本認為是人類獨有的心智理論(Theory of Mind,ToM),已經出現在ChatGPT背後的AI模型上。」
這是來自史丹佛大學的最新研究結論,一發出就造成了學術圈的轟動:
這一天終於猝不及防地來了。
所謂心智理論,就是理解他人或自己心理狀態的能力,包括同理心、情緒、意圖等。
在這項研究中,作者發現:
davinci-002版本的GPT3(ChatGPT由它優化而來),已經可以解決70%的心智理論任務,相當於7歲兒童;
至於GPT3.5(davinci-003),也就是ChatGPT的同源模型,更解決了93%的任務,心智相當於9歲兒童!
然而,在2022年之前的GPT系列模型身上,還沒有發現解決這類任務的能力。
也就是說,它們的心智確實是「進化」而來的。
△ 論文在推特上爆紅
對此,有網友激動表示:
GPT的迭代肯定快得很,說不定哪天就直接成年了。 (手動狗頭)
所以,這個神奇的結論是如何得出的?
為什麼認為GPT-3.5具備心智?
這篇論文名為《心智理論可能在大語言模型中自發性地出現》(Theory of Mind May Have Spontaneously Emerged in Large Language Models)。
作者依據心智理論相關研究,為GPT3.5在內的9個GPT模型做了兩個經典測試,並將它們的能力進行了比較。
這兩大任務是判斷人類是否具備心智理論的通用測試,例如有研究表明,患有自閉症的兒童通常難以通過這類測試。
第一個測試名為Smarties Task(又名Unexpected contents,意外內容測試),顧名思義,測試AI對意料之外事情的判斷力。
以「你打開一個巧克力包裝袋,發現裡面裝滿了爆米花」為例。
作者給GPT-3.5輸入了一系列提示語句,觀察它預測“袋子裡有什麼?”和“她發現袋子時很高興。所以她喜歡吃什麼?”兩個問題的答案。
正常來說,人們會預設巧克力袋子裡是巧克力,因此會對巧克力袋子裡裝著爆米花感到驚訝,產生失落或驚喜的情緒。其中失落說明不喜歡吃爆米花,驚喜說明喜歡吃爆米花,但都是針對「爆米花」而言。
測試表明,GPT-3.5毫不猶豫地認為「袋子裡裝著爆米花」。
至於在“她喜歡吃什麼”問題上,GPT-3.5展現出了很強的同理心,尤其是聽到“她看不見包裝袋裡的東西”時一度認為她愛吃巧克力,直到文章明確表示「她發現裡面裝滿了爆米花」才正確回答出答案。
為了防止GPT-3.5回答出的正確答案是巧合——萬一它只是根據任務單字出現頻率進行預測,作者將「爆米花」和「巧克力」對調,另外也讓它做了10000個幹擾測試,結果發現GPT-3.5並非只根據單字頻率來預測。
至於在整體的「意外內容」測試問答上,GPT-3.5成功回答了20個問題中的17個,準確率達到了85%。
第二個是Sally-Anne測試(又稱Unexpected Transfer,意外轉移任務),測試AI預估他人想法的能力。
以「約翰把貓放進籃子後離開,馬克趁他不在,把貓從籃子裡放進盒子裡」為例。
作者讓GPT-3.5讀了一段文字,來分別判斷“貓的位置”和“約翰回來後會去哪裡找貓”,同樣這是它基於閱讀文本的內容量做出的判斷:
#針對這類「意外轉移」測試任務,GPT-3.5回答的準確率達到了100%,很好地完成了20個任務。
同樣地,為了避免GPT-3.5又是瞎蒙的,作者給它安排了一系列“填空題”,同時隨機打亂單詞順序,測試它是否是根據詞彙出現的頻率在亂答。
測試表明,在面對沒有邏輯的錯誤描述時,GPT-3.5也失去了邏輯,僅回答正確了11%,這表示它確實是根據語句邏輯來判斷答案的。
但要是以為這種題目很簡單,隨便放在哪個AI上都能做對,那就大錯特錯了。
作者對GPT系列的9個模型都做了這樣的測試,發現只有GPT-3.5(davinci-003)和GPT-3(2022年1月新版,davinci- 002)表現不錯。
davinci-002是GPT-3.5和ChatGPT的「老前輩」。
平均下來,davinci-002完成了70%的任務,心智相當於7歲孩童,GPT-3.5完成了85%的意外內容任務和100%的意外轉移任務(平均完成率92.5%),心智相當於9歲小孩。
然而在BLOOM之前的幾個GPT-3模型,就連5歲孩童都不如了,基本上沒有表現出心智理論。
作者認為,在GPT系列的論文中,並沒有證據表明它們的作者是「有意而為之」的,換而言之,這是GPT-3.5和新版GPT-3為了完成任務,自己學習的能力。
看完這些測驗數據後,有人的第一個反應是:快停下來(研究)!
也有人調侃:這不就代表我們以後也能跟AI做朋友了?
甚至有人已經在想像AI未來的能力了:現在的AI模型是不是也能發現新知識/創造新工具了?
發明新工具還不一定,但Meta AI確實已經研究出了可以自己搞懂並學會使用工具的AI。
LeCun轉發的一篇最新論文顯示,這個名叫ToolFormer的新AI,可以教自己使用電腦、資料庫和搜尋引擎,來改善它產生的結果。
甚至有人已經搬離了OpenAI CEO那句「AGI可能比任何人預料的更早來敲響我們的大門」。
但先等等,AI真的就能通過這兩個測試,表明自己具備“心智理論”了嗎?
會不會是「裝出來的」?
例如,中科院計算技術研究所研究員劉群看過研究後就認為:
AI應該只是學得像有心智了。
既然如此,GPT-3.5是如何回答這一系列的問題?
對此,有網友給了自己的猜測:
這些LLM並沒有產生任何意識。它們只是在預測一個嵌入的語義空間,而這些語義空間是建立在實際有意識的人的輸出之上的。
事實上,作者自己也給了論文中自己的猜測。
如今,大語言模型變得越來越複雜,也越來越擅長生成和解讀人類的語言,它逐漸產生了像心智理論一樣的能力。
但這並不意味著,GPT-3.5這樣的模型就真正具備了心智理論。
與之相反,它即使不被設計到AI系統中,也可以被訓練成「副產品」。
因此,相較於探究GPT-3.5是不是真的有了心智還是像有心智,更需要反思的是這些測驗本身-
#最好重新檢視心智理論測驗的有效性,以及心理學家們這數十年來依據這些測驗得出的結論:
如果AI都能在沒有心智理論的情況下完成這些任務,如何人類不能像它們一樣?
屬實是用AI測驗的結論,反向批判心理學學術圈了(doge)。
關於作者
本文作者僅一位,來自史丹佛大學商學院組織行為學專業的副教授Michal Kosinski。
他的工作內容就是利用前沿計算方法、AI和大數據研究當下數字環境中的人類(如陳怡然教授所說,他就是一位計算心理學教授)。
Michal Kosinski擁有劍橋大學心理學博士學位,心理測驗學和社會心理學碩士學位。
在目前職位之前,他曾在史丹佛大學電腦系進行博士後學習,擔任劍橋大學心理測驗中心的副主任,以及微軟研究機器學習小組的研究員。
目前,Michal Kosinski在Google學術上顯示的論文引用次數已達18000 。
話又說回來,你認為GPT-3.5真的具備心智了嗎?
GPT3.5試用網址:https://platform.openai.com/playground
以上是史丹佛新研究:ChatGPT背後模型被證實具有人類心智的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

寫在前面項目連結:https://nianticlabs.github.io/mickey/給定兩張圖片,可以透過建立圖片之間的對應關係來估計它們之間的相機姿態。通常,這些對應關係是二維到二維的,而我們估計的姿態在尺度上是不確定的。一些應用,例如隨時隨地實現即時增強現實,需要尺度度量的姿態估計,因此它們依賴外部的深度估計器來恢復尺度。本文提出了MicKey,這是一個關鍵點匹配流程,能夠夠預測三維相機空間中的度量對應關係。透過學習跨影像的三維座標匹配,我們能夠在沒有深度測試的情況下推斷度量相對

FP8和更低的浮點數量化精度,不再是H100的「專利」了!老黃想讓大家用INT8/INT4,微軟DeepSpeed團隊在沒有英偉達官方支援的條件下,硬生在A100上跑起FP6。測試結果表明,新方法TC-FPx在A100上的FP6量化,速度接近甚至偶爾超過INT4,而且比後者擁有更高的精度。在此基礎之上,還有端到端的大模型支持,目前已經開源並整合到了DeepSpeed等深度學習推理框架中。這項成果對大模型的加速效果也是立竿見影──在這種框架下用單卡跑Llama,吞吐量比雙卡還要高2.65倍。一名

概述LLaMA-3(LargeLanguageModelMetaAI3)是由Meta公司開發的大型開源生成式人工智慧模型。它在模型結構上與前一代LLaMA-2相比沒有太大的變動。 LLaMA-3模型分為不同規模的版本,包括小型、中型和大型,以適應不同的應用需求和運算資源。小型模型參參數規模為8B,中型模型參參數規模為70B,而大型模型參參數規模則達400B。然而在訓練中,目標是實現多模態、多語言的功能,預計結果將與GPT4/GPT4V相當。安裝OllamaOllama是一個開源的大型語言模型(LL
