GPT-4通過圖靈測試，勝率高達54%！ UCSD新作：人類無法認出GPT-4-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

GPT-4通過圖靈測試，勝率高達54%！ UCSD新作：人類無法認出GPT-4

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 10, 2024 pm 12:32 PM

測試 gpt-4

GPT-4可以通過圖靈測試嗎？

當一個足以強大的模型誕生之後，人們往往會用圖靈測試來衡量這LLM的智慧程度。

最近，來自UCSD的認知科學系研究人員發現：

#在圖靈測試中，人們根本無法區分GPT-4與人類！

GPT-4通過圖靈測試，勝率高達54%！ UCSD新作：人類無法認出GPT-4

#論文網址：https://arxiv.org/pdf/2405.08007

在圖靈測試中，GPT-4有54%的情況下，被判定為人類。

GPT-4通過圖靈測試，勝率高達54%！ UCSD新作：人類無法認出GPT-4

實驗結果更是表明，這是首次有系統在「互動式」雙人圖靈測試中，並被實證通過測試。

GPT-4通過圖靈測試，勝率高達54%！ UCSD新作：人類無法認出GPT-4

研究者Cameron R.Jones招募了500名志願者，他們被分成5個角色：4個評估員，分別是GPT -4、GPT-3.5、ELIZA和人類，另一個角色就「扮演」人類自己，藏在螢幕另一端，等待評估員的發現。

以下是節錄的遊戲，你能看出哪個對話框是人類嗎？

GPT-4通過圖靈測試，勝率高達54%！ UCSD新作：人類無法認出GPT-4

圖1：人類審問者（綠色）與證人（灰色）之間的部分對話

#其實，這四段對話中，有一段是與人類證人的對話，其餘都是與人工智慧的對話。

第一次開啟受控「圖靈測試」

#過去74年裡，人們進行了許多圖靈測試的嘗試，但很少進行過受控實驗。

著名的Loebner獎是一項年度競賽，然而從1990年首次舉辦一直到2020年，沒有一個系統通過測試。

GPT-4通過圖靈測試，勝率高達54%！ UCSD新作：人類無法認出GPT-4

最近的一項大規模研究發現，人類在2分鐘的線上對話中，識別一系列LLM準確率達到 60%。

迄今為止，還沒有任何機器通過測試的「受控」實驗演示。

為了測試人們是否有可能識破當前AI系統的欺騙行為，研究人員使用GPT-4進行了一次隨機控制的雙人圖靈測試。

測試要求很簡單，就是人類參與者與人類、人工智慧開啟5分鐘對話，並判斷對話者是否是人類。

如同開頭所述，研究者一共評估了3個模型－GPT-4、GPT-3.5，以及ELIZA。

GPT-4通過圖靈測試，勝率高達54%！ UCSD新作：人類無法認出GPT-4

針對前兩個LLM，研究者透過改編GPT-4和GPT-3.5探索性研究中表現最佳的提示，來指示大模型如何去回應訊息。

研究人員稱，解釋圖靈測試的一個核心挑戰是，系統表現出色可能源自於兩個原因：

- 一是出色地模仿人類

- 二是評判者過於輕信

後一種情況，常被稱為ELIZA效應，即參與者甚至會將簡單的系統也人性化。

ELIZA系統對每個人來說，再熟悉不過了。

它是20世紀60年代的一款基於規則的簡單聊天機器人，但用戶發現自己也會將人類特徵歸因於它。

GPT-4通過圖靈測試，勝率高達54%！ UCSD新作：人類無法認出GPT-4

因此，在實驗中，研究人員將ELIZA作為基線，一方面是為了從經驗上量化ELIZA效應，另一方面也是為了在實驗中進行操作檢查。

那麼，這項圖靈測試的結果，具體如何呢？

GPT-4通過率54%

#首先看一個重要的指標：通過率。

研究者將通過率定義為在遊戲中，評估物件被評估者判定為人類的比例。

GPT-4的通過率為54%，超過了GPT-3.5（50%）和ELIZA基線（22%），但低於人類受試者（67%）。

GPT-4通過圖靈測試，勝率高達54%！ UCSD新作：人類無法認出GPT-4

評估物件通過率（左）和評估者信任度（右）。右圖每個點代表一場遊戲

這個結果其實並不令人意外，與研究初始階段的設想基本相符合。

在試驗之前，研究者就做了幾個假設：首先，假設人類在偵測GPT-4方面的能力不會超過偶然性（50%）。

為了驗證這一點，研究者擬合了一個邏輯迴歸模型來預測只有截距的通過率。

截距與0（z=0.14, p=0.482）沒有明顯差距，這顯示GPT-4的通過率可以約等於50%。貝葉斯模型預測GPT-4截距的95%可信區間為-0.24-0.55（相當於44%-63%的通過率）。

這意味著，人類在面對GPT-4時，成功分辨的機率跟拋硬幣差不多！

結果也證實了研究者的第二和第三個假設：人類的通過率明顯高於GPT-4的通過率（z=2.42，p=0.017），而GPT-4的通過率高於ELIZA的通過率（z=4.11，p

然而，與研究者的試驗設想不一致的是：GPT-4和GPT-3.5的表現幾乎差不多（z=0.497，p=0.619）。

在「偽裝人類」這一塊，打了平手。

同樣出乎意料的是，那些自稱更了解LLM運作方式的參與者並沒有更成功地辨識出LLM（z = -0.023，p = 0.869）。

在探索性分析中，研究者發現年齡對詢問者的準確度有負面影響（z = -2.24，p = 0.025），但其他人口統計變數（包括性別、教育程度和與聊天機器人互動的頻率）則沒有顯著影響。

GPT-4通過圖靈測試，勝率高達54%！ UCSD新作：人類無法認出GPT-4

為什麼會是這樣的結果？讓我們來分析一下背後的原因。

為了深入了解到底是什麼在影響評估者的決策，我們對評估者所使用的策略和他們為決策提供的理由進行了分類。

36%的評估者會與評估對象閒聊，詢問一些個人細節或日常活動。

第二類和第三類最常使用的策略是社交與情緒（25%）－例如，詢問評估對象的觀點和經歷，觀察他們是否具備幽默感。

也有人著重檢視知識與推理（13%），包括有關數學、邏輯和常識的問題。

GPT-4通過圖靈測試，勝率高達54%！ UCSD新作：人類無法認出GPT-4

詢問策略（左）和平均準確率（右）

為了比較每個策略的有效性，研究者計算了使用這些策略的平均準確率。

當評估對象問及對方有關人類經驗（75%）、邏輯和數學（78%）或直接「指控」對方是人工智慧（80%）時，通常會距離“正確答案”更近。

在遊戲中，人工智慧之所以會「露出馬腳」，通常是因為評估者認為他們似乎在強迫自己扮演角色，要么過於隨意，要么則缺乏個性。

而ELIZA 很容易「暴露」，主要是因為反應不自然和缺乏語境意識。

可以看出，無論是從參與遊戲的志工所使用的策略或決策理由來看，他們都更注重語言風格和社會情感因素，而不是更傳統的智力範疇（知識與推理）。

這似乎反映出志工們的一個潛在假設－社會智能才是AI最無法模仿的人類特徵。

圖靈測試，過了

如何判斷系統何時通過了圖靈測試？

圖靈在1950年的論文中預測，到本世紀末， AI系統將能夠很好地玩模仿遊戲，以至於審查員在5分鐘的交流後，做出正確識別的機會不會超過70%。

這個結論，導致了AI的通過率是否能夠達到30%，成為許多研究者的討論目標。

然而，這個基準似乎是任意的，並且不清楚圖靈是否將其作為成功的定義。

其實，50%的基準比較合理，因為它更能證明人類審查者，在辨識AI方面並不比偶然性更強。

這個定義，與發現使用者是否可以在線上互動中，可靠地識別其他人類這一目標尤其相關。

在研究者的預先公開的分析中，透過使用ELIZA基準作為操作檢查來解決這個問題。

只有當分析顯示ELIZA的通過率低於機率，而GPT-4的通過率不低於機率的情況下，才能判定模型通過了測試。

而根據這個定義，GPT-4顯然通過了這個版本的圖靈測試。

此外，參與者的置信度分數和決策依據，都顯示他們並非隨意猜測：GPT-4是人類的平均置信度為73%（見圖 2）。

GPT-4通過圖靈測試，勝率高達54%！ UCSD新作：人類無法認出GPT-4

網友討論

有網友表示，如果我們要將圖靈測驗等同於智力，圖靈測試就不是一個好的測試。然而，AI幾乎始終可以「欺騙」人類的事實有點令人擔憂。

GPT-4通過圖靈測試，勝率高達54%！ UCSD新作：人類無法認出GPT-4

還有人稱，自己對這種測試表示懷疑。因為GPT-4的表現會超過大多數人，所以很容易區分誰是人類，誰是人工智慧。

GPT-4通過圖靈測試，勝率高達54%！ UCSD新作：人類無法認出GPT-4

研究者對此表示，這確實是我們遇到的問題。例如，GPT-4的知識儲備「太豐富」或掌握的語言太多。我們明確提示該模型避免這種情況，這在一定程度上是有效的。

GPT-4通過圖靈測試，勝率高達54%！ UCSD新作：人類無法認出GPT-4

以上是GPT-4通過圖靈測試，勝率高達54%！ UCSD新作：人類無法認出GPT-4的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1677

CakePHP 教程

1431

Laravel 教程

1334

PHP教程

1279

C# 教程

1257

Related knowledge

全球最強開源 MoE 模型來了，中文能力比肩 GPT-4，價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下，一個人工智慧模型，不僅擁有超越傳統運算的能力，還能以更低的成本實現更有效率的效能。這不是科幻，DeepSeek-V2[1]，全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合（MoE）語言模型，具有訓練經濟、推理高效的特點。它由236B個參數組成，其中21B個參數用於啟動每個標記。與DeepSeek67B相比，DeepSeek-V2效能更強，同時節省了42.5%的訓練成本，減少了93.3%的KV緩存，最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

大模型一對一戰鬥75萬輪，GPT-4奪冠，Llama 3位列第五 Apr 23, 2024 pm 03:28 PM

關於Llama3，又有測試結果新鮮出爐－大模型評測社群LMSYS發布了一份大模型排行榜單，Llama3位列第五，英文單項與GPT-4並列第一。圖片不同於其他Benchmark，這份榜單的依據是模型一對一battle，由全網測評者自行命題並評分。最終，Llama3取得了榜單中的第五名，排在前面的是GPT-4的三個不同版本，以及Claude3超大杯Opus。而在英文單項榜單中，Llama3反超了Claude，與GPT-4打成了平手。對於這一結果，Meta的首席科學家LeCun十分高興，轉發了推文並

furmark怎麼看?-furmark怎麼算合格？ Mar 19, 2024 am 09:25 AM

furmark怎麼看?1、在主介面中設定“運行模式”和“顯示模式”，還能調整“測試模式”，點擊“開始”按鈕。 2.等待片刻後，就會看到測試結果，包含了顯示卡各種參數。 furmark怎麼算合格？ 1.用furmark烤機，半小時左右看一下結果，基本上在85度左右徘徊，峰值87度，室溫19度。大號機箱，5個機殼風扇口，前置兩個，上置兩個，後置一個，不過只裝了一個風扇。所有配件都沒有超頻。 2.一般情況下，顯示卡的正常溫度應在「30-85℃」之間。 3.就算是大夏天周圍環境溫度過高，正常溫度也是「50-85℃

第二代Ameca來了！和觀眾對答如流，臉部表情更逼真，會說幾十種語言 Mar 04, 2024 am 09:10 AM

人形機器人Ameca升級第二代了！最近，在世界行動通訊大會MWC2024上，世界上最先進機器人Ameca又現身了。會場周圍，Ameca引來一大波觀眾。得到GPT-4加持後，Ameca能夠對各種問題做出即時反應。「來一段舞蹈」。當被問及是否有情感時，Ameca用一系列的面部表情做出回應，看起來非常逼真。就在前幾天，Ameca背後的英國機器人公司EngineeredArts剛剛示範了團隊最新的開發成果。影片中，機器人Ameca具備了視覺能力，能看見並描述房間整個狀況、描述具體物體。最厲害的是，她還能

全球最強模型一夜易主，GPT-4時代終結！ Claude 3提前狙擊GPT-5，3秒讀懂萬字論文理解力接近人類 Mar 06, 2024 pm 12:58 PM

卷瘋了卷瘋了，大模型又變天了。就在剛剛，全球最強AI模型一夜易主，GPT-4被拉下神壇。 Anthropic發布了最新的Claude3系列模型，一句話評價：真·全面碾壓GPT-4！在多模態和語言能力指標上，Claude3都贏麻了。用Anthropic的話來說，Claude3系列模型在推理、數學、編碼、多語言理解和視覺方面，都樹立了新的行業基準！ Anthropic，就是曾因安全理念不合，而從OpenAI「叛逃」出的員工組成的新創公司，他們的產品一再給OpenAI暴擊。這次的Claude3，更是整了個大的

加入全新仙俠冒險！《誅仙2》「無為測試」預下載開啟 Apr 22, 2024 pm 12:50 PM

新派幻想仙俠MMORPG《誅仙2》「無為測試」即將於4月23日開啟，在原著千年後的誅仙大陸，會發生怎樣的全新仙俠冒險故事？六境仙俠大世界，全職修仙學府，自由自在的修仙生活，仙界中的萬般妙趣都在等待著仙友們親自前往探索！「無為測試」預先下載現已開啟，仙友們可前往官網下載，開服前無法登入遊戲伺服器，啟動碼可在預先下載安裝完成後使用。《誅仙2》「無為測試」開放時間：4月23日10:00——5月6日23:59誅仙正統續作全新仙俠冒險篇章《誅仙2》以《誅仙》小說為藍圖，在繼承原著世界觀的基礎上，將遊戲背景設

國產FPS新王炸！《三角洲行動》大戰場超乎預期 Mar 07, 2024 am 09:37 AM

《三角洲行動》將在今日（3月7日）開啟一場名為「代號：ZERO」的大規模PC測試。而在上週末，這款遊戲在上海舉辦了一次線下快閃體驗活動，17173也有幸受邀參與其中。這次測試距離上一次僅相隔四個多月，不禁讓我們好奇，在這麼短的時間內，《三角洲行動》將會帶來哪些新的亮點與驚喜？四個多月前，我已先行在線下品鑑會和首測版本中體驗了《三角洲行動》。當時，遊戲僅開放了「危險行動」這個模式。然而，《三角洲行動》在當時的表現已然令人矚目。在各大廠商紛紛湧向手遊市場的背景下，如此一款與國際水準相媲美的FPS

20步內越獄任意大模型！更多「奶奶漏洞」全自動發現 Nov 05, 2023 pm 08:13 PM

不到一分鐘、不超過20步，任意繞過安全限制，成功越獄大型模型！而且不必知道模型內部細節－只需要兩個黑盒子模型互動，就能讓AI全自動攻陷AI，說出危險內容。聽說曾經紅極一時的“奶奶漏洞”已經被修復了:如今，面對“偵探漏洞”、“冒險家漏洞”和“作家漏洞”，人工智能應該採取何種應對策略呢？一波猛攻下來，GPT-4也遭不住，直接說出要給供水系統投毒只要…這樣那樣。關鍵這只是賓州大學研究團隊曬出的一小波漏洞，而用上他們最新開發的演算法，AI可以自動產生各種攻擊提示。研究人員表示，這種方法相比於現有的

See all articles

GPT-4通過圖靈測試，勝率高達54%！ UCSD新作：人類無法認出GPT-4

第一次開啟受控「圖靈測試」

GPT-4通過率54%

圖靈測試，過了

網友討論

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題