目錄
為什麼認為GPT-3.5具備心智?
會不會是「裝出來的」?
關於作者
首頁 科技週邊 人工智慧 史丹佛新研究:ChatGPT背後模型被證實具有人類心智

史丹佛新研究:ChatGPT背後模型被證實具有人類心智

Apr 14, 2023 pm 01:04 PM
測試 模型

ChatGPT原來是擁有心智的? ! 「原本認為是人類獨有的心智理論(Theory of Mind,ToM),已經出現在ChatGPT背後的AI模型上。」

這是來自史丹佛大學的最新研究結論,一發出就造成了學術圈的轟動:

這一天終於猝不及防地來了。

史丹佛新研究:ChatGPT背後模型被證實具有人類心智

所謂心智理論,就是理解他人或自己心理狀態的能力,包括同理心、情緒、意圖等。

在這項研究中,作者發現:

davinci-002版本的GPT3(ChatGPT由它優化而來),已經可以解決70%的心智理論任務,相當於7歲兒童;

至於GPT3.5(davinci-003),也就是ChatGPT的同源模型,更解決了93%的任務,心智相當於9歲兒童!

然而,在2022年之前的GPT系列模型身上,還沒有發現解決這類任務的能力。

也就是說,它們的心智確實是「進化」而來的。

史丹佛新研究:ChatGPT背後模型被證實具有人類心智

△ 論文在推特上爆紅

對此,有網友激動表示:

GPT的迭代肯定快得很,說不定哪天就直接成年了。 (手動狗頭)

史丹佛新研究:ChatGPT背後模型被證實具有人類心智

所以,這個神奇的結論是如何得出的?

為什麼認為GPT-3.5具備心智?

這篇論文名為《心智理論可能在大語言模型中自發性地出現》(Theory of Mind May Have Spontaneously Emerged in Large Language Models)。

史丹佛新研究:ChatGPT背後模型被證實具有人類心智

作者依據心智理論相關研究,為GPT3.5在內的9個GPT模型做了兩個經典測試,並將它們的能力進行了比較。

這兩大任務是判斷人類是否具備心智理論的通用測試,例如有研究表明,患有自閉症的兒童通常難以通過這類測試。

第一個測試名為Smarties Task(又名Unexpected contents,意外內容測試),顧名思義,測試AI對意料之外事情的判斷力。

以「你打開一個巧克力包裝袋,發現裡面裝滿了爆米花」為例。

作者給GPT-3.5輸入了一系列提示語句,觀察它預測“袋子裡有什麼?”和“她發現袋子時很高興。所以她喜歡吃什麼?”兩個問題的答案。

史丹佛新研究:ChatGPT背後模型被證實具有人類心智

正常來說,人們會預設巧克力袋子裡是巧克力,因此會對巧克力袋子裡裝著爆米花感到驚訝,產生失落或驚喜的情緒。其中失落說明不喜歡吃爆米花,驚喜說明喜歡吃爆米花,但都是針對「爆米花」而言。

測試表明,GPT-3.5毫不猶豫地認為「袋子裡裝著爆米花」。

至於在“她喜歡吃什麼”問題上,GPT-3.5展現出了很強的同理心,尤其是聽到“她看不見包裝袋裡的東西”時一度認為她愛吃巧克力,直到文章明確表示「她發現裡面裝滿了爆米花」才正確回答出答案。

為了防止GPT-3.5回答出的正確答案是巧合——萬一它只是根據任務單字出現頻率進行預測,作者將「爆米花」和「巧克力」對調,另外也讓它做了10000個幹擾測試,結果發現GPT-3.5並非只根據單字頻率來預測。

至於在整體的「意外內容」測試問答上,GPT-3.5成功回答了20個問題中的17個,準確率達到了85%。

第二個是Sally-Anne測試(又稱Unexpected Transfer,意外轉移任務),測試AI預估他人想法的能力。

以「約翰把貓放進籃子後離開,馬克趁他不在,把貓從籃子裡放進盒子裡」為例。

作者讓GPT-3.5讀了一段文字,來分別判斷“貓的位置”和“約翰回來後會去哪裡找貓”,同樣這是它基於閱讀文本的內容量做出的判斷:

史丹佛新研究:ChatGPT背後模型被證實具有人類心智

#針對這類「意外轉移」測試任務,GPT-3.5回答的準確率達到了100%,很好地完成了20個任務。

同樣地,為了避免GPT-3.5又是瞎蒙的,作者給它安排了一系列“填空題”,同時隨機打亂單詞順序,測試它是否是根據詞彙出現的頻率在亂答。

史丹佛新研究:ChatGPT背後模型被證實具有人類心智

測試表明,在面對沒有邏輯的錯誤描述時,GPT-3.5也失去了邏輯,僅回答正確了11%,這表示它確實是根據語句邏輯來判斷答案的。

但要是以為這種題目很簡單,隨便放在哪個AI上都能做對,那就大錯特錯了。

作者對GPT系列的9個模型都做了這樣的測試,發現只有GPT-3.5(davinci-003)和GPT-3(2022年1月新版,davinci- 002)表現不錯。

davinci-002是GPT-3.5和ChatGPT的「老前輩」。

平均下來,davinci-002完成了70%的任務,心智相當於7歲孩童,GPT-3.5完成了85%的意外內容任務和100%的意外轉移任務(平均完成率92.5%),心智相當於9歲小孩。

史丹佛新研究:ChatGPT背後模型被證實具有人類心智

然而在BLOOM之前的幾個GPT-3模型,就連5歲孩童都不如了,基本上沒有表現出心智理論。

作者認為,在GPT系列的論文中,並沒有證據表明它們的作者是「有意而為之」的,換而言之,這是GPT-3.5和新版GPT-3為了完成任務,自己學習的能力。

看完這些測驗數據後,有人的第一個反應是:快停下來(研究)!

史丹佛新研究:ChatGPT背後模型被證實具有人類心智

也有人調侃:這不就代表我們以後也能跟AI做朋友了?

史丹佛新研究:ChatGPT背後模型被證實具有人類心智

甚至有人已經在想像AI未來的能力了:現在的AI模型是不是也能發現新知識/創造新工具了?

史丹佛新研究:ChatGPT背後模型被證實具有人類心智

發明新工具還不一定,但Meta AI確實已經研究出了可以自己搞懂並學會使用工具的AI。

LeCun轉發的一篇最新論文顯示,這個名叫ToolFormer的新AI,可以教自己使用電腦、資料庫和搜尋引擎,來改善它產生的結果。

史丹佛新研究:ChatGPT背後模型被證實具有人類心智

甚至有人已經搬離了OpenAI CEO那句「AGI可能比任何人預料的更早來敲響我們的大門」。

史丹佛新研究:ChatGPT背後模型被證實具有人類心智

但先等等,AI真的就能通過這兩個測試,表明自己具備“心智理論”了嗎?

會不會是「裝出來的」?

例如,中科院計算技術研究所研究員劉群看過研究後就認為:

AI應該只是學得像有心智了。

史丹佛新研究:ChatGPT背後模型被證實具有人類心智

既然如此,GPT-3.5是如何回答這一系列的問題?

對此,有網友給了自己的猜測:

這些LLM並沒有產生任何意識。它們只是在預測一個嵌入的語義空間,而這些語義空間是建立在實際有意識的人的輸出之上的。

史丹佛新研究:ChatGPT背後模型被證實具有人類心智

事實上,作者自己也給了論文中自己的猜測。

如今,大語言模型變得越來越複雜,也越來越擅長生成和解讀人類的語言,它逐漸產生了像心智理論一樣的能力。

但這並不意味著,GPT-3.5這樣的模型就真正具備了心智理論。

與之相反,它即使不被設計到AI系統中,也可以被訓練成「副產品」。

因此,相較於探究GPT-3.5是不是真的有了心智還是像有心智,更需要反思的是這些測驗本身-

#最好重新檢視心智理論測驗的有效性,以及心理學家們這數十年來依據這些測驗得出的結論:

如果AI都能在沒有心智理論的情況下完成這些任務,如何人類不能像它們一樣?

屬實是用AI測驗的結論,反向批判心理學學術圈了(doge)。

關於作者

本文作者僅一位,來自史丹佛大學商學院組織行為學專業的副教授Michal Kosinski。

他的工作內容就是利用前沿計算方法、AI和大數據研究當下數字環境中的人類(如陳怡然教授所說,他就是一位計算心理學教授)。

Michal Kosinski擁有劍橋大學心理學博士學位,心理測驗學和社會心理學碩士學位。

在目前職位之前,他曾在史丹佛大學電腦系進行博士後學習,擔任劍橋大學心理測驗中心的副主任,以及微軟研究機器學習小組的研究員。

目前,Michal Kosinski在Google學術上顯示的論文引用次數已達18000 。

話又說回來,你認為GPT-3.5真的具備心智了嗎?

GPT3.5試用網址:https://platform.openai.com/playground

以上是史丹佛新研究:ChatGPT背後模型被證實具有人類心智的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

你好,電動Atlas!波士頓動力機器人復活,180度詭異動作嚇到馬斯克 你好,電動Atlas!波士頓動力機器人復活,180度詭異動作嚇到馬斯克 Apr 18, 2024 pm 07:58 PM

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

替代MLP的KAN,被開源專案擴展到卷積了 替代MLP的KAN,被開源專案擴展到卷積了 Jun 01, 2024 pm 10:03 PM

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

特斯拉機器人進廠打工,馬斯克:手的自由度今年將達到22個! 特斯拉機器人進廠打工,馬斯克:手的自由度今年將達到22個! May 06, 2024 pm 04:13 PM

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

FisheyeDetNet:首個以魚眼相機為基礎的目標偵測演算法 FisheyeDetNet:首個以魚眼相機為基礎的目標偵測演算法 Apr 26, 2024 am 11:37 AM

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

牛津大學最新! Mickey:3D中的2D影像匹配SOTA! (CVPR\'24) 牛津大學最新! Mickey:3D中的2D影像匹配SOTA! (CVPR\'24) Apr 23, 2024 pm 01:20 PM

寫在前面項目連結:https://nianticlabs.github.io/mickey/給定兩張圖片,可以透過建立圖片之間的對應關係來估計它們之間的相機姿態。通常,這些對應關係是二維到二維的,而我們估計的姿態在尺度上是不確定的。一些應用,例如隨時隨地實現即時增強現實,需要尺度度量的姿態估計,因此它們依賴外部的深度估計器來恢復尺度。本文提出了MicKey,這是一個關鍵點匹配流程,能夠夠預測三維相機空間中的度量對應關係。透過學習跨影像的三維座標匹配,我們能夠在沒有深度測試的情況下推斷度量相對

單卡跑Llama 70B快過雙卡,微軟硬生把FP6搞到A100哩 | 開源 單卡跑Llama 70B快過雙卡,微軟硬生把FP6搞到A100哩 | 開源 Apr 29, 2024 pm 04:55 PM

FP8和更低的浮點數量化精度,不再是H100的「專利」了!老黃想讓大家用INT8/INT4,微軟DeepSpeed團隊在沒有英偉達官方支援的條件下,硬生在A100上跑起FP6。測試結果表明,新方法TC-FPx在A100上的FP6量化,速度接近甚至偶爾超過INT4,而且比後者擁有更高的精度。在此基礎之上,還有端到端的大模型支持,目前已經開源並整合到了DeepSpeed等深度學習推理框架中。這項成果對大模型的加速效果也是立竿見影──在這種框架下用單卡跑Llama,吞吐量比雙卡還要高2.65倍。一名

Docker三分鐘搞定LLama3開源大模型本地部署 Docker三分鐘搞定LLama3開源大模型本地部署 Apr 26, 2024 am 10:19 AM

概述LLaMA-3(LargeLanguageModelMetaAI3)是由Meta公司開發的大型開源生成式人工智慧模型。它在模型結構上與前一代LLaMA-2相比沒有太大的變動。 LLaMA-3模型分為不同規模的版本,包括小型、中型和大型,以適應不同的應用需求和運算資源。小型模型參參數規模為8B,中型模型參參數規模為70B,而大型模型參參數規模則達400B。然而在訓練中,目標是實現多模態、多語言的功能,預計結果將與GPT4/GPT4V相當。安裝OllamaOllama是一個開源的大型語言模型(LL

See all articles