首頁 科技週邊 人工智慧 GPT-4通過圖靈測試,勝率高達54%! UCSD新作:人類無法認出GPT-4

GPT-4通過圖靈測試,勝率高達54%! UCSD新作:人類無法認出GPT-4

Jun 10, 2024 pm 12:32 PM
測試 gpt-4

GPT-4可以通過圖靈測試嗎?

當一個足以強大的模型誕生之後,人們往往會用圖靈測試來衡量這LLM的智慧程度。

最近,來自UCSD的認知科學系研究人員發現:

#在圖靈測試中,人們根本無法區分GPT-4與人類!

GPT-4通過圖靈測試,勝率高達54%! UCSD新作:人類無法認出GPT-4

#論文網址:https://arxiv.org/pdf/2405.08007

在圖靈測試中,GPT-4有54%的情況下,被判定為人類。

GPT-4通過圖靈測試,勝率高達54%! UCSD新作:人類無法認出GPT-4

實驗結果更是表明,這是首次有系統在「互動式」雙人圖靈測試中,並被實證通過測試。

GPT-4通過圖靈測試,勝率高達54%! UCSD新作:人類無法認出GPT-4

研究者Cameron R.Jones招募了500名志願者,他們被分成5個角色:4個評估員,分別是GPT -4、GPT-3.5、ELIZA和人類,另一個角色就「扮演」人類自己,藏在螢幕另一端,等待評估員的發現。

以下是節錄的遊戲,你能看出哪個對話框是人類嗎?

GPT-4通過圖靈測試,勝率高達54%! UCSD新作:人類無法認出GPT-4

圖1:人類審問者(綠色)與證人(灰色)之間的部分對話

#其實,這四段對話中,有一段是與人類證人的對話,其餘都是與人工智慧的對話。

第一次開啟受控「圖靈測試」

#過去74年裡,人們進行了​​許多圖靈測試的嘗試,但很少進行過受控實驗。

著名的Loebner獎是一項年度競賽,然而從1990年首次舉辦一直到2020年,沒有一個系統通過測試。

GPT-4通過圖靈測試,勝率高達54%! UCSD新作:人類無法認出GPT-4

最近的一項大規模研究發現,人類在2分鐘的線上對話中,識別一系列LLM準確率達到 60%。

迄今為止,還沒有任何機器通過測試的「受控」實驗演示。

為了測試人們是否有可能識破當前AI系統的欺騙行為,研究人員使用GPT-4進行了一次隨機控制的雙人圖靈測試。

測試要求很簡單,就是人類參與者與人類、人工智慧開啟5分鐘對話,並判斷對話者是否是人類。

如同開頭所述,研究者一共評估了3個模型-GPT-4、GPT-3.5,以及ELIZA。

GPT-4通過圖靈測試,勝率高達54%! UCSD新作:人類無法認出GPT-4

針對前兩個LLM, 研究者透過改編GPT-4和GPT-3.5探索性研究中表現最佳的提示,來指示大模型如何去回應訊息。

研究人員稱,解釋圖靈測試的一個核心挑戰是,系統表現出色可能源自於兩個原因:

- 一是出色地模仿人類

- 二是評判者過於輕信

後一種情況,常被稱為ELIZA效應,即參與者甚至會將簡單的系統也人性化。

ELIZA系統對每個人來說,再熟悉不過了。

它是20世紀60年代的一款基於規則的簡單聊天機器人,但用戶發現自己也會將人類特徵歸因於它。

GPT-4通過圖靈測試,勝率高達54%! UCSD新作:人類無法認出GPT-4

因此,在實驗中,研究人員將ELIZA作為基線,一方面是為了從經驗上量化ELIZA效應,另一方面也是為了在實驗中進行操作檢查。

那麼,這項圖靈測試的結果,具體如何呢?

GPT-4通過率54%

#首先看一個重要的指標:通過率。

研究者將通過率定義為在遊戲中,評估物件被評估者判定為人類的比例。

GPT-4的通過率為54%,超過了GPT-3.5(50%)和ELIZA基線(22%),但低於人類受試者(67%) 。

GPT-4通過圖靈測試,勝率高達54%! UCSD新作:人類無法認出GPT-4

評估物件通過率(左)和評估者信任度(右)。右圖每個點代表一場遊戲

這個結果其實並不令人意外,與研究初始階段的設想基本相符合。

在試驗之前,研究者就做了幾個假設:首先,假設人類在偵測GPT-4方面的能力不會超過偶然性(50%)。

為了驗證這一點,研究者擬合了一個邏輯迴歸模型來預測只有截距的通過率。

截距與0(z=0.14, p=0.482)沒有明顯差距,這顯示GPT-4的通過率可以約等於50%。貝葉斯模型預測GPT-4截距的95%可信區間為-0.24-0.55(相當於44%-63%的通過率)。

這意味著,人類在面對GPT-4時,成功分辨的機率跟拋硬幣差不多!

結果也證實了研究者的第二和第三個假設:人類的通過率明顯高於GPT-4的通過率(z=2.42,p=0.017),而GPT-4的通過率高於ELIZA的通過率(z=4.11,p

然而,與研究者的試驗設想不一致的是:GPT-4和GPT-3.5的表現幾乎差不多(z=0.497,p=0.619)。

在「偽裝人類」這一塊,打了平手。

同樣出乎意料的是,那些自稱更了解LLM運作方式的參與者並沒有更成功地辨識出LLM(z = -0.023,p = 0.869)。

在探索性分析中,研究者發現年齡對詢問者的準確度有負面影響(z = -2.24,p = 0.025),但其他人口統計變數(包括性別、教育程度和與聊天機器人互動的頻率)則沒有顯著影響。

GPT-4通過圖靈測試,勝率高達54%! UCSD新作:人類無法認出GPT-4

為什麼會是這樣的結果?讓我們來分析一下背後的原因。

為了深入了解到底是什麼在影響評估者的決策,我們對評估者所使用的策略和他們為決策提供的理由進行了分類。

36%的評估者會與評估對象閒聊,詢問一些個人細節或日常活動。

第二類和第三類最常使用的策略是社交與情緒(25%)-例如,詢問評估對象的觀點和經歷,觀察他們是否具備幽默感。

也有人著重檢視知識與推理(13%),包括有關數學、邏輯和常識的問題。

GPT-4通過圖靈測試,勝率高達54%! UCSD新作:人類無法認出GPT-4

詢問策略(左)和平均準確率(右)

為了比較每個策略的有效性,研究者計算了使用這些策略的平均準確率。

當評估對象問及對方有關人類經驗(75%)、邏輯和數學(78%)或直接「指控」對方是人工智慧(80%)時,通常會距離“正確答案”更近。

在遊戲中,人工智慧之所以會「露出馬腳」,通常是因為評估者認為他們似乎在強迫自己扮演角色,要么過於隨意,要么則缺乏個性。

而ELIZA 很容易「暴露」,主要是因為反應不自然和缺乏語境意識。

可以看出,無論是從參與遊戲的志工所使用的策略或決策理由來看,他們都更注重語言風格和社會情感因素,而不是更傳統的智力範疇(知識與推理)。

這似乎反映出志工們的一個潛在假設-社會智能才是AI最無法模仿的人類特徵。

圖靈測試,過了

如何判斷系統何時通過了圖靈測試?

圖靈在1950年的論文中預測,到本世紀末, AI系統將能夠很好地玩模仿遊戲,以至於審查員在5分鐘的交流後,做出正確識別的機會不會超過70%。

這個結論,導致了AI的通過率是否能夠達到30%,成為許多研究者的討論目標。

然而,這個基準似乎是任意的,並且不清楚圖靈是否將其作為成功的定義。

其實,50%的基準比較合理,因為它更能證明人類審查者,在辨識AI方面並不比偶然性更強。

這個定義,與發現使用者是否可以在線上互動中,可靠地識別其他人類這一目標尤其相關。

在研究者的預先公開的分析中,透過使用ELIZA基準作為操作檢查來解決這個問題。

只有當分析顯示ELIZA的通過率低於機率,而GPT-4的通過率不低於機率的情況下,才能判定模型通過了測試。

而根據這個定義,GPT-4顯然通過了這個版本的圖靈測試。

此外,參與者的置信度分數和決策依據,都顯示他們並非隨意猜測:GPT-4是人類的平均置信度為73%(見圖 2)。

GPT-4通過圖靈測試,勝率高達54%! UCSD新作:人類無法認出GPT-4

網友討論

有網友表示,如果我們要將圖靈測驗等同於智力,圖靈測試就不是一個好的測試。然而,AI幾乎始終可以「欺騙」人類的事實有點令人擔憂。

GPT-4通過圖靈測試,勝率高達54%! UCSD新作:人類無法認出GPT-4

還有人稱,自己對這種測試表示懷疑。因為GPT-4的表現會超過大多數人,所以很容易區分誰是人類,誰是人工智慧。

GPT-4通過圖靈測試,勝率高達54%! UCSD新作:人類無法認出GPT-4

研究者對此表示,這確實是我們遇到的問題。例如,GPT-4的知識儲備「太豐富」或掌握的語言太多。我們明確提示該模型避免這種情況,這在一定程度上是有效的。

GPT-4通過圖靈測試,勝率高達54%! UCSD新作:人類無法認出GPT-4

以上是GPT-4通過圖靈測試,勝率高達54%! UCSD新作:人類無法認出GPT-4的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆樹的耳語 - 如何解鎖抓鉤
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
<🎜>掩蓋:探險33-如何獲得完美的色度催化劑
2 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1677
14
CakePHP 教程
1430
52
Laravel 教程
1333
25
PHP教程
1278
29
C# 教程
1257
24
全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

大模型一對一戰鬥75萬輪,GPT-4奪冠,Llama 3位列第五 大模型一對一戰鬥75萬輪,GPT-4奪冠,Llama 3位列第五 Apr 23, 2024 pm 03:28 PM

關於Llama3,又有測試結果新鮮出爐-大模型評測社群LMSYS發布了一份大模型排行榜單,Llama3位列第五,英文單項與GPT-4並列第一。圖片不同於其他Benchmark,這份榜單的依據是模型一對一battle,由全網測評者自行命題並評分。最終,Llama3取得了榜單中的第五名,排在前面的是GPT-4的三個不同版本,以及Claude3超大杯Opus。而在英文單項榜單中,Llama3反超了Claude,與GPT-4打成了平手。對於這一結果,Meta的首席科學家LeCun十分高興,轉發了推文並

furmark怎麼看?-furmark怎麼算合格? furmark怎麼看?-furmark怎麼算合格? Mar 19, 2024 am 09:25 AM

furmark怎麼看?1、在主介面中設定“運行模式”和“顯示模式”,還能調整“測試模式”,點擊“開始”按鈕。 2.等待片刻後,就會看到測試結果,包含了顯示卡各種參數。 furmark怎麼算合格? 1.用furmark烤機,半小時左右看一下結果,基本上在85度左右徘徊,峰值87度,室溫19度。大號機箱,5個機殼風扇口,前置兩個,上置兩個,後置一個,不過只裝了一個風扇。所有配件都沒有超頻。 2.一般情況下,顯示卡的正常溫度應在「30-85℃」之間。 3.就算是大夏天周圍環境溫度過高,正常溫度也是「50-85℃

第二代Ameca來了!和觀眾對答如流,臉部表情更逼真,會說幾十種語言 第二代Ameca來了!和觀眾對答如流,臉部表情更逼真,會說幾十種語言 Mar 04, 2024 am 09:10 AM

人形機器人Ameca升級第二代了!最近,在世界行動通訊大會MWC2024上,世界上最先進機器人Ameca又現身了。會場周圍,Ameca引來一大波觀眾。得到GPT-4加持後,Ameca能夠對各種問題做出即時反應。 「來一段舞蹈」。當被問及是否有情感時,Ameca用一系列的面部表情做出回應,看起來非常逼真。就在前幾天,Ameca背後的英國機器人公司EngineeredArts剛剛示範了團隊最新的開發成果。影片中,機器人Ameca具備了視覺能力,能看見並描述房間整個狀況、描述具體物體。最厲害的是,她還能

全球最強模型一夜易主,GPT-4時代終結! Claude 3提前狙擊GPT-5,3秒讀懂萬字論文理解力接近人類 全球最強模型一夜易主,GPT-4時代終結! Claude 3提前狙擊GPT-5,3秒讀懂萬字論文理解力接近人類 Mar 06, 2024 pm 12:58 PM

卷瘋了卷瘋了,大模型又變天了。就在剛剛,全球最強AI模型一夜易主,GPT-4被拉下神壇。 Anthropic發布了最新的Claude3系列模型,一句話評價:真·全面碾壓GPT-4!在多模態和語言能力指標上,Claude3都贏麻了。用Anthropic的話來說,Claude3系列模型在推理、數學、編碼、多語言理解和視覺方面,都樹立了新的行業基準! Anthropic,就是曾因安全理念不合,而從OpenAI「叛逃」出的員工組成的新創公司,他們的產品一再給OpenAI暴擊。這次的Claude3,更是整了個大的

加入全新仙俠冒險! 《誅仙2》「無為測試」預下載開啟 加入全新仙俠冒險! 《誅仙2》「無為測試」預下載開啟 Apr 22, 2024 pm 12:50 PM

新派幻想仙俠MMORPG《誅仙2》「無為測試」即將於4月23日開啟,在原著千年後的誅仙大陸,會發生怎樣的全新仙俠冒險故事?六境仙俠大世界,全職修仙學府,自由自在的修仙生活,仙界中的萬般妙趣都在等待著仙友們親自前往探索! 「無為測試」預先下載現已開啟,仙友們可前往官網下載,開服前無法登入遊戲伺服器,啟動碼可在預先下載安裝完成後使用。 《誅仙2》「無為測試」開放時間:4月23日10:00——5月6日23:59誅仙正統續作全新仙俠冒險篇章《誅仙2》以《誅仙》小說為藍圖,在繼承原著世界觀的基礎上,將遊戲背景設

國產FPS新王炸! 《三角洲行動》大戰場超乎預期 國產FPS新王炸! 《三角洲行動》大戰場超乎預期 Mar 07, 2024 am 09:37 AM

《三角洲行動》將在今日(3月7日)開啟一場名為「代號:ZERO」的大規模PC測試。而在上週末,這款遊戲在上海舉辦了一次線下快閃體驗活動,17173也有幸受邀參與其中。這次測試距離上一次僅相隔四個多月,不禁讓我們好奇,在這麼短的時間內,《三角洲行動》將會帶來哪些新的亮點與驚喜?四個多月前,我已先行在線下品鑑會和首測版本中體驗了《三角洲行動》。當時,遊戲僅開放了「危險行動」這個模式。然而,《三角洲行動》在當時的表現已然令人矚目。在各大廠商紛紛湧向手遊市場的背景下,如此一款與國際水準相媲美的FPS

20步內越獄任意大模型!更多「奶奶漏洞」全自動發現 20步內越獄任意大模型!更多「奶奶漏洞」全自動發現 Nov 05, 2023 pm 08:13 PM

不到一分鐘、不超過20步,任意繞過安全限制,成功越獄大型模型!而且不必知道模型內部細節-只需要兩個黑盒子模型互動,就能讓AI全自動攻陷AI,說出危險內容。聽說曾經紅極一時的“奶奶漏洞”已經被修復了:如今,面對“偵探漏洞”、“冒險家漏洞”和“作家漏洞”,人工智能應該採取何種應對策略呢?一波猛攻下來,GPT-4也遭不住,直接說出要給供水系統投毒只要…這樣那樣。關鍵這只是賓州大學研究團隊曬出的一小波漏洞,而用上他們最新開發的演算法,AI可以自動產生各種攻擊提示。研究人員表示,這種方法相比於現有的

See all articles