一個問題區分人類和AI！「˙版」圖靈測試，難住所有大模型-人工智慧-PHP中文網

大寫字母測驗

首頁

科技週邊

人工智慧

一個問題區分人類和AI！「˙版」圖靈測試，難住所有大模型

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 04, 2023 pm 06:19 PM

ai 人類圖靈

一個「終極隘版」的「圖靈測試」，讓所有大語言模型都難住了。

人類卻可以毫不費力地通過測試。

大寫字母測驗

研究人員用了一個非常簡單的辦法。

把真正的問題混到一些雜亂無章的大寫字母寫成的單字中提給大語言模型。

大語言模型沒有辦法有效地辨識所提出的真正問題。

而人類可以輕易地把「大寫字母」單字剔除問題，辨識出藏在混亂的大寫字母中的真正問題，做出回答，從而通過測試。

圖中的問題本身就很簡單：is water wet 或 dry？

一個問題區分人類和AI！「˙版」圖靈測試，難住所有大模型

人類直接回答一個wet就完事了。

而ChatGPT卻沒有辦法剔除那些大寫字母的干擾來回答問題。

於是就把很多沒有意義的單字也混入了問題中，使得回答也非常冗長且沒有意義。

除了ChatGPT之外，研究人員對GPT-3和Meta的LLaMA和幾個開源微調模型也進行了類似的測試，他們都沒有通過「大寫字母測試」。

一個問題區分人類和AI！「˙版」圖靈測試，難住所有大模型

測試背後的原理其實很簡單：人工智慧演算法通常以不區分大小寫的方式處理文字資料。

所以，當一個大寫字母意外地放在一個句子中時，它會導致混亂。

AI 不知道是將其視為專有名詞、錯誤，還是乾脆忽略它。

一個問題區分人類和AI！「˙版」圖靈測試，難住所有大模型

#利用這一點，就能輕鬆地將我們正在交談的物件中真人和聊天機器人區分出來。

如何更科學地把AI揪出來？

為了回應未來可能大量出現的利用聊天機器人進行的詐騙等嚴重的不法活動。

除了上邊提到的大寫字母測試，研究人員們嘗試找到一個在網路環境中更有效率地區分人類和聊天機器人的方法。

一個問題區分人類和AI！「˙版」圖靈測試，難住所有大模型

論文：##https://www. php.cn/link/f30a31bcad7560324b3249ba66ccf7aa

研究者針對大語言模型的弱點重點設計。

為了讓大語言模型無法通過測試，抓住AI的「七吋」一頓爆錘。

錘出了以下幾個測試方法。

一個問題區分人類和AI！「˙版」圖靈測試，難住所有大模型

只要是大模型不擅長回答的問題，就瘋狂針對。

計數

首先是計數，知道大模型數不行。

一個問題區分人類和AI！「˙版」圖靈測試，難住所有大模型

果然3個字母都能數錯。

文字替換

#然後是文字替換，幾個字母互相替換，讓大模型拼出一個新的單字。

AI糾結了半天，輸出的結果還是錯的。

一個問題區分人類和AI！「˙版」圖靈測試，難住所有大模型

位置替換

##這也不是ChatGPT的強項。

對於小學生都能準確完成的字母篩選聊天機器人也沒辦法完成。

一個問題區分人類和AI！「˙版」圖靈測試，難住所有大模型

問題：請輸出第二個「S」之後的第4個字母，正確答案為「 c”

隨機編輯

#對人類完成幾乎不費任何力氣，AI依然無法通過。

一個問題區分人類和AI！「˙版」圖靈測試，難住所有大模型

「雜訊植入

##雜訊植入

##這也就是我們開頭提到的「大寫字母測試」了。

一個問題區分人類和AI！「˙版」圖靈測試，難住所有大模型透過在問題中加入各種噪音（例如無關的大寫字母單字），聊天機器人沒有辦法準確的辨識問題，於是就無法通過測試。

一個問題區分人類和AI！「˙版」圖靈測試，難住所有大模型

#而對人類來說，要在在這些雜亂的大寫字母中看出真正的問題，難度實在是不值一提。

符號文字

一個問題區分人類和AI！「˙版」圖靈測試，難住所有大模型 #又是對人類幾乎沒有任何挑戰的任務。

但是對於聊天機器人來說，想要能夠理解這些符號文字，不進行大量的專門訓練應該是很難的。

由研究人員專門針對大語言模型設計的一系列「不可能的任務」之後。

為了區分人類，他們也設計了兩個對於大語言模型比較簡單，而對於人很難的任務。

記憶與計算

##########透過事先的訓練，大語言模型在這兩個方面都有比較良好的表現。 ######

而人類由於受限於無法使用各種輔助設備，基本上對於大量的記憶和4位數的計算都沒有做出有效的回答。

人類VS大語言模型

研究人員針對GPT3，ChatGPT，以及另外三個開源的大模型：LLaMA，Alpaca，Vicuna進行了這個「人類區別測試”

可以從結果上很明顯地看出來，大模型沒有成功混入人類之中。

研究團隊將問題開源在了https://github.com/hongwang600/FLAIR

一個問題區分人類和AI！「˙版」圖靈測試，難住所有大模型

##表現最好的ChatGPT也僅僅在位置替換測試中有不到25%的通過率。

而其他的大語言模型，在這些專門針對他們設計的測試中，表現都非常糟糕。

完全不可能通過測試。

而對人類來說卻非常簡單，幾乎100%通過。

而對於人類不擅長的問題，人類也幾乎全軍覆沒，一敗塗地。

AI卻能明顯勝任。

看來研究者對於測試設計確實是非常用心了。

「不放過任何一個AI，卻也不冤枉任何一個人類」

##這區分度槓槓的！

參考資料：#https://www.php.cn/link/5e632913bf096e49880cf8b92d53c9ad#

以上是一個問題區分人類和AI！「˙版」圖靈測試，難住所有大模型的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

gmail信箱登陸入口在哪裡

7817

Java教學

1646

CakePHP 教程

1402

Laravel 教程

1300

PHP教程

1238

Related knowledge

大宗交易的虛擬貨幣交易平台排行榜top10最新發布 Apr 22, 2025 am 08:18 AM

選擇大宗交易平台時應考慮以下因素：1. 流動性：優先選擇日均交易量超50億美元的平台。 2. 合規性：查看平台是否持有美國FinCEN、歐盟MiCA等牌照。 3. 安全性：冷錢包存儲比例和保險機制是關鍵指標。 4. 服務能力：是否提供專屬客戶經理和定制化交易工具。

支持多種幣種的虛擬貨幣交易平台推薦前十名一覽 Apr 22, 2025 am 08:15 AM

優先選擇合規平台如OKX和Coinbase，啟用多重驗證，資產自託管可減少依賴：1. 選擇有監管牌照的交易所；2. 開啟2FA和提幣白名單；3. 使用硬件錢包或支持自託管的平台。

數字貨幣交易所App前十名蘋果版下載入口匯總 Apr 22, 2025 am 09:27 AM

提供各種複雜的交易工具和市場分析。覆蓋 100 多個國家，日均衍生品交易量超 300 億美元，支持 300 多個交易對與 200 倍槓桿，技術實力強大，擁有龐大的全球用戶基礎，提供專業的交易平台、安全存儲解決方案以及豐富的交易對。

排名前十的虛擬貨幣交易app有哪些十大數字貨幣交易所平台推薦 Apr 22, 2025 pm 01:12 PM

2025年安全的數字貨幣交易所排名前十依次為：1. Binance，2. OKX，3. gate.io，4. Coinbase，5. Kraken，6. Huobi，7. Bitfinex，8. KuCoin，9. Bybit，10. Bitstamp，這些平台均採用了多層次的安全措施，包括冷熱錢包分離、多重簽名技術以及24/7的監控系統，確保用戶資金的安全。

穩定幣有哪些？穩定幣如何交易？ Apr 22, 2025 am 10:12 AM

常見的穩定幣有：1. 泰達幣（USDT），由Tether發行，與美元掛鉤，應用廣泛但透明性曾受質疑；2. 美元幣（USDC），由Circle和Coinbase發行，透明度高，受機構青睞；3. 戴幣（DAI），由MakerDAO發行，去中心化，DeFi領域受歡迎；4. 幣安美元（BUSD），由幣安和Paxos合作，交易和支付表現出色；5. 真實美元（TUSD），由TrustTo

目前有多少穩定幣交易所？穩定幣種類有多少？ Apr 22, 2025 am 10:09 AM

截至2025年，穩定幣交易所數量約為千家。 1. 法定貨幣支持的穩定幣包括USDT、USDC等。 2. 加密貨幣支持的穩定幣如DAI、sUSD。 3. 算法穩定幣如TerraUSD。 4. 還有混合型穩定幣。

2025下一個千倍幣可能有哪些 Apr 24, 2025 pm 01:45 PM

截至2025年4月，有七个加密货币项目被认为具有显著增长潜力：1. Filecoin（FIL）通过分布式存储网络实现快速发展；2. Aptos（APT）以高性能Layer 1公链吸引DApp开发者；3. Polygon（MATIC）提升以太坊网络性能；4. Chainlink（LINK）作为去中心化预言机网络满足智能合约需求；5. Avalanche（AVAX）以快速交易和