目錄
問題一:訓練資料污染
有更好的方法來評估 AI 模型對職業的影響
結論
首頁 科技週邊 人工智慧 GPT-4壓根不會編程?有人讓它露餡了

GPT-4壓根不會編程?有人讓它露餡了

Apr 07, 2023 pm 02:42 PM
程式設計師 ai

在 OpenAI 發布 GPT-4 之後,一場有關「AI 取代人類勞動力」的討論正變得越來越激烈。該模型的強大能力及其可能帶來的潛在社會影響引發了許多人的擔憂,馬斯克、Bengio 等人甚至聯名寫了一封公開信,呼籲所有AI 機構暫停訓練比GPT-4 更強的AI 模型,為期至少6 個月。

但另一方面,對於 GPT-4 能力的質疑也是此起彼落。前幾天,圖靈獎得主 Yann LeCun 在一場辯論中直接指出,GPT 家族所採用的自回歸路線存在天然的缺陷,繼續往前走是沒有前途的。

同時,一些研究者、從業者也表示,GPT-4 可能並沒有OpenAI 所展示的那麼強大,尤其是在程式設計方面:它可能只是記住了之前的題目,OpenAI 用來測試此模型程式設計能力的題目可能早就存在於它的訓練集中,這違反了機器學習的基本規則。另外,也有人指出,看到 GPT-4 在各種考試中名列前茅就判定 AI 將取代部分職業的想法是不嚴謹的,畢竟這些考試和人類的實際工作還是有差距的。

近期的一篇部落格詳細地闡述了上述想法。

問題一:訓練資料污染

為了對 GPT-4 的程式設計能力進行基準測試,OpenAI 使用程式設計競賽網站 Codeforces 上的問題對其進行了評估。令人驚訝的是,GPT-4 解決了 10/10 的 2021 年前的問題和 0/10 的近期 easy 類問題。要知道,GPT-4 的訓練資料截止日期是 2021 年 9 月。這有力地表明該模型能夠從其訓練集中記住解決方案 —— 或至少部分記住它們,這足以讓它填補它不記得的東西。

GPT-4壓根不會編程?有人讓它露餡了

圖片來源:https://twitter.com/cHHillee/status/1635790330854526981

#為了進一步證明這個假設,部落客Arvind Narayanan 和Sayash Kapoor 在2021 年不同時間的Codeforces 問題上對GPT-4 進行了測試,發現它可以解決9 月5 日之前的簡單類別的問題,無法解決9 月12 日之後的問題。

作者表示,事實上,他們可以明確地表明GPT-4 已經記住了訓練集中的問題:當把Codeforces 問題的標題加入prompt 中時,GPT-4 的回答會包含指向出現該問題的確切比賽的連結(並且輪數幾乎是正確的:它差了一個)。請注意,當時的 GPT-4 不能上網,所以記憶是唯一的解釋。

GPT-4壓根不會編程?有人讓它露餡了

GPT-4 記住了訓練截止日期之前的 Codeforces 問題。

論文中的 Codeforces 結果並沒有受此影響,因為 OpenAI 使用的是最近的問題(果然,GPT-4 表現很差)。對於程式設計以外的基準,作者不知道有什麼乾淨的方法可以按時間段分開問題,所以他們認為 OpenAI 不太可能避免污染。但出於同樣的原因,他們也無法做實驗來測試性能在不同日期的變化。

不過,他們還是可以尋找一些提示性的跡象。記憶的另一個徵兆是:GPT 對問題的措詞高度敏感。 Melanie Mitchell 舉了一個 MBA 測試題的例子,她改變了這個例子的一些細節,這一改變騙不到人,但卻成功欺騙了(運行 GPT-3.5 的)ChatGPT。沿著這個思路做一個更詳細的實驗會很有價值。

由於 OpenAI 缺乏透明度,作者無法肯定地回答污染問題。但可以肯定的是,OpenAI 檢測污染的方法是膚淺和草率的:

我們使用子字串匹配來衡量我們的評估資料集和預訓練資料之間的交叉污染。評估和訓練資料都是透過移除所有的空格和符號來處理的,只保留字元(包括數字)。對於每個評估實例,我們隨機選擇三個 50 個字符的子字串(如果少於 50 個字符,則使用整個實例)。如果三個被抽中的評估子字串中的任何一個是被處理過的訓練例子的子串,那麼就可以辨識出一個匹配。這就產生了一個被污染的例子的清單。我們丟棄這些,並重新運行以獲得未受污染的分數。

這是一個脆弱的方法。如果一個測試問題出現在訓練集中,但名稱和數字被改變了,它就不會被發現。不那麼脆弱的方法是現成的,比如說嵌入距離。

如果 OpenAI 要使用基於距離的方法,多大程度的相似性才是太相似?這個問題沒有客觀的答案。因此,即使是像選擇題標準化測驗中的表現看似簡單的事情,也充滿了主觀的決定。

但我們可以透過詢問 OpenAI 試圖用這些考試來衡量什麼來明確一些東西。如果目標是預測語言模型在現實世界任務中的表現,那就有一個問題。從某種意義上說,任何兩個律師考試或醫學考試的問題都比現實世界中專業人士所面臨的兩個類似任務更相似,因為它們是從這樣一個受限的空間中提取的。因此,在訓練語料庫中加入任何考試問題,都有可能導致對模型在現實世界中的有用性的誇大估計。

從現實世界的有用性角度來闡述這個問題,突顯了另一個更深層的問題(問題二)。

問題二:專業考試不是比較人類和機器人能力的有效方法

記憶是一個光譜。即使一個語言模型在訓練集上沒有見過某個確切的問題,它也不可避免地看到了非常接近的例子,因為訓練語料庫的規模太大了。這意味著它可以用更淺顯的推理層次來逃避。因此,基準結果並沒有給我們證據,證明語言模型正在獲得人類考生所需的那種深入的推理技能,而這些考生隨後會在現實世界中應用這些技能。

在一些現實世界的任務中,淺層推理可能是足夠的,但並非總是如此。世界是不斷變化的,所以如果一個機器人被要求分析一項新技術或一個新的司法判決的法律後果,它就沒有什麼可藉鑑的。總之,正如 Emily Bender 所指出的,為人類設計的測試在應用於機器人時缺乏結構效度。

GPT-4壓根不會編程?有人讓它露餡了

除此之外,專業考試,尤其是律師資格考試,過度強調學科知識,而對現實世界的技能強調不足,而這些技能在標準化的計算機管理方式下更難衡量。換句話說,這些考試不僅強調了錯誤的東西,而且過度強調了語言模型所擅長的東西。

在 AI 領域,基準被過度地用於比較不同的模型。這些基準因將多維評價壓縮成單一數字而飽受批評。當它們被用來比較人類和機器人時,得到的結果是錯誤的資訊。不幸的是,OpenAI 在對 GPT-4 的評估中選擇大量使用這些類型的測試,而且沒有充分嘗試解決污染問題。

有更好的方法來評估 AI 模型對職業的影響

人們在工作期間可以上網,但在標準化考試期間卻不能上網。因此,如果語言模型的表現能夠媲美可以上網的專業人士,這在某種程度上將能更好地檢驗它們的實際效能。

但這仍然是個錯誤的問題。與其用獨立的基準,我們或許更應該衡量語言模型能在多大程度上完成專業人員必須完成的所有現實任務。例如,在學術界,我們經常會遇到一些我們不熟悉的領域的論文,其中充滿了專業術語;如果 ChatGPT 能夠以一種更容易理解的方式準確地總結這樣的論文,那就很有用了。有些人甚至還測試過這些工具是否能做同儕審查。但即使是這個場景,你也很難確保用來測試的題目沒有包含在訓練集裡。

ChatGPT 可以取代專業人員的想法仍然很牽強。在 1950 年的普查中,270 個工作中僅有 1 個被自動化淘汰了,那就是電梯操作員。當下,我們需要評估的是那些利用人工智慧工具來幫助自己完成工作的專業人員。兩項早期的研究是有希望的:一項是 GitHub 用於程式設計的 copilot,另一項是 ChatGPT 的寫作協助。

在這個階段,我們更需要定性研究而不是定量研究,因為這些工具太新了,我們甚至不知道該問什麼正確的定量問題。例如,微軟的 Scott Guthrie 報告了一個醒目的數字:GitHub Copilot 用戶檢查的程式碼中有 40% 是人工智慧產生的,沒有經過修改。但任何程式設計師都會告訴你,很大一部分程式碼由模板和其他通常可以複製貼上的平凡邏輯組成,特別是在企業應用程式中。如果這就是 Copilot 自動化的部分,那麼生產力的提高將是微不足道的。

作者表示,明確地說,我們不是說 Copilot 沒有用,只是說如果沒有對專業人士如何使用人工智慧的定性理解,現有的衡量標準將是沒有意義的。此外,人工智慧輔助編碼的主要好處甚至可能不是生產力的提升。

結論

下圖總結了這篇文章,並解釋了我們為什麼要以及如何擺脫 OpenAI 報告的那種度量標準。

GPT-4壓根不會編程?有人讓它露餡了

GPT-4 確實令人興奮,它可以透過多種方式解決專業人士的痛點,例如透過自動化,取代我們做簡單、低風險但費力的任務。目前,專注於實現這些好處並降低語言模型的許多風險可能是更好的做法。

以上是GPT-4壓根不會編程?有人讓它露餡了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

WorldCoin(WLD)價格預測2025-2031:到2031年WLD會達到4美元嗎? WorldCoin(WLD)價格預測2025-2031:到2031年WLD會達到4美元嗎? Apr 21, 2025 pm 02:42 PM

WorldCoin(WLD)凭借其独特的生物识别验证和隐私保护机制,在加密货币市场中脱颖而出,吸引了众多投资者的目光。WLD凭借其创新技术,特别是结合OpenAI人工智能技术,在众多山寨币中表现突出。但未来几年,数字资产的走势如何呢?让我们一起预测WLD的未来价格。2025年WLD价格预测预计2025年WLD将实现显著增长。市场分析显示,WLD平均价格可能达到1.31美元,最高可能触及1.36美元。然而,在熊市情况下,价格可能跌至0.55美元左右。这一增长预期主要源于WorldCoin2.

跨鏈交易什麼意思?跨鏈交易所有哪些? 跨鏈交易什麼意思?跨鏈交易所有哪些? Apr 21, 2025 pm 11:39 PM

支持跨鏈交易的交易所有:1. Binance,2. Uniswap,3. SushiSwap,4. Curve Finance,5. Thorchain,6. 1inch Exchange,7. DLN Trade,這些平台通過各種技術支持多鏈資產交易。

虛擬幣價格上漲或者下降是為什麼 虛擬幣價格上漲或者下降的原因 虛擬幣價格上漲或者下降是為什麼 虛擬幣價格上漲或者下降的原因 Apr 21, 2025 am 08:57 AM

虛擬幣價格上漲因素包括:1.市場需求增加,2.供應量減少,3.利好消息刺激,4.市場情緒樂觀,5.宏觀經濟環境;下降因素包括:1.市場需求減少,2.供應量增加,3.利空消息打擊,4.市場情緒悲觀,5.宏觀經濟環境。

混合型區塊鏈交易平台有哪些 混合型區塊鏈交易平台有哪些 Apr 21, 2025 pm 11:36 PM

選擇加密貨幣交易所的建議:1. 流動性需求,優先選擇幣安、Gate.io或OKX,因其訂單深度與抗波動能力強。 2. 合規與安全,Coinbase、Kraken、Gemini具備嚴格監管背書。 3. 創新功能,KuCoin的軟質押和Bybit的衍生品設計適合進階用戶。

如何在幣安拿下 KERNEL 空投獎勵 全流程攻略 如何在幣安拿下 KERNEL 空投獎勵 全流程攻略 Apr 21, 2025 pm 01:03 PM

在加密貨幣的繁華世界裡,新機遇總是不斷湧現。當下,KernelDAO (KERNEL) 空投活動正備受矚目,吸引著眾多投資者的目光。那麼,這個項目究竟是什麼來頭? BNB Holder 又能從中獲得怎樣的好處?別急,下面將為你一一揭曉。

Aavenomics是修改AAVE協議令牌並介紹令牌回購的建議,已達到法定人數 Aavenomics是修改AAVE協議令牌並介紹令牌回購的建議,已達到法定人數 Apr 21, 2025 pm 06:24 PM

Aavenomics是修改AAVE協議令牌並引入令牌回購的提議,已為AAVEDAO實現了一個法定人數。 AAVE連鎖計劃(ACI)創始人馬克·澤勒(MarcZeller)在X上宣布了這一點,並指出它標誌著該協議的新時代。 AAVE連鎖倡議(ACI)創始人MarcZeller在X上宣布,Aavenomics提案包括修改AAVE協議令牌和引入令牌回購,已為AAVEDAO實現了法定人數。根據Zeller的說法,這標誌著該協議的新時代。 AaveDao成員以壓倒性的投票支持該提議,即在周三以每週100

比特幣成品結構分析圖是啥?怎麼畫? 比特幣成品結構分析圖是啥?怎麼畫? Apr 21, 2025 pm 07:42 PM

繪製比特幣結構分析圖的步驟包括:1. 確定繪圖目的與受眾,2. 選擇合適的工具,3. 設計框架並填充核心組件,4. 參考現有模板。完整的步驟確保圖表準確且易於理解。

Rexas Finance(RXS)可以在2025年超過Solana(Sol),Cardano(ADA),XRP和Dogecoin(Doge) Rexas Finance(RXS)可以在2025年超過Solana(Sol),Cardano(ADA),XRP和Dogecoin(Doge) Apr 21, 2025 pm 02:30 PM

在波動劇烈的加密貨幣市場中,投資者正尋求超越熱門幣種的替代方案。 Solana(SOL)、Cardano(ADA)、XRP和Dogecoin(DOGE)等知名加密貨幣,儘管佔據著一定的市場地位,但也面臨著市場情緒、監管不確定性和可擴展性等挑戰。然而,一個新興項目RexasFinance(RXS)正在嶄露頭角。它並非依靠名人效應或炒作,而是專注於將現實世界資產(RWA)與區塊鏈技術結合,為投資者提供一種創新的投資方式。這一策略使其有望成為2025年最成功的項目之一。 RexasFi

See all articles