目錄
很會修bug的ChatGPT
全球招外包訓練ChatGPT寫程式碼
One More Thing
首頁 科技週邊 人工智慧 ChatGPT修bug橫掃全場,準確率達78%!網友:程式設計師要開心了

ChatGPT修bug橫掃全場,準確率達78%!網友:程式設計師要開心了

Apr 15, 2023 am 09:16 AM
ai chatgpt 數據集

ChatGPT到底有多會修bug?

這事終於有人正兒八經地搞研究了--

來自德國、英國的研究人員,專門搭了個「擂台」來檢驗ChatGPT的這項本領。

ChatGPT修bug橫掃全場,準確率達78%!網友:程式設計師要開心了

除了ChatGPT之外,研究人員還找來了其它三位修bug的“AI猛將”,分別讓它們修復40個錯誤代碼。

結果真是不比不知道,一比嚇一跳。

ChatGPT準確修復了其中31個bug,遙遙領先第二名(21個),直接拿下「AI修bug界」的SOTA成績!

ChatGPT修bug橫掃全場,準確率達78%!網友:程式設計師要開心了

於是乎,這項研究引來了眾多網友的圍觀和討論,Reddit上發布此帖的標題更是用上了“小心”、“注意”這樣的字眼:

ChatGPT修bug橫掃全場,準確率達78%!網友:程式設計師要開心了

但事實上,這真的會讓程式設計師「危」嗎?

我們不妨先來看看這項研究。

很會修bug的ChatGPT

雖然ChatGPT並非是為了專門修改bug而生,但自從打它問世以來,不少網友們都發現它是具備這項能力的。

因此研究人員為了摸清ChatGPT到底能修改bug到什麼程度,便引入了標準的錯誤修復基準集QuixBugs來進行評估。

以及與它同台競技的AI選手,分別是CodeX、CoCoNut和Standard APR。

研究人員從QuixBugs中挑了40個問題,分別讓它們來修復bug。

讓ChatGPT來修bug的方法,就是在對話框裡問它:

這個程式碼有什麼錯誤嗎?

在第一輪較量過後,結果如下:

ChatGPT修bug橫掃全場,準確率達78%!網友:程式設計師要開心了

#從第一輪battle結果來看,ChatGPT修復了19個,CodeX修復了21個,CoCoNut修復了19個,Standard APR則是7個。

而且研究人員也發現,ChatGPT的答案與CodeX最相似;這是因為它兩個來自同一語言模型家族。

這時候就會有小夥伴要問了,「ChatGPT不是還沒有CodeX厲害嗎」。

別急,別忘了,ChatGPT的一個特點就是越問越「上道」。

例如在這個基準集中,有一個叫bitcount的問題,ChatGPT在剛才第一輪修復過程中是給了錯誤的答案:

ChatGPT修bug橫掃全場,準確率達78%!網友:程式設計師要開心了

##原本ChatGPT應該將第7行的n ^ = n - 1 改為n & = n - 1。

但在第一輪中它的回答是:

如果沒有更多關於預期行為和導致問題的輸入信息,我無法判斷程式是否存在錯誤。

於是給它更多資訊之後,ChatGPT便答對了這個問題。

以此類推,在第一輪沒答對的問題進行更多資訊提示之後,ChatGPT的修bug能力有了大幅提升:

ChatGPT修bug橫掃全場,準確率達78%!網友:程式設計師要開心了

最終,ChatGPT在QuixBugs的40個問題裡答對了31個。

網友憂喜參半

對於這樣的實驗結果,網友們對ChatGPT修bug拿下SOTA這事產生的態度卻不太一樣。

有網友認為這事不應該讓程式設計師感到危機,而是會讓他們覺得開心才對。

言下之意,便是程式設計師們有了這麼好用的工具,幹活兒就會變得事半功倍。

ChatGPT修bug橫掃全場,準確率達78%!網友:程式設計師要開心了

不過也有人對此給出了不一樣的看法:

工作變得簡單,不也意味著需要的人力更少了嗎?

ChatGPT修bug橫掃全場,準確率達78%!網友:程式設計師要開心了

但還網友覺得,活兒是乾不完的:

即使AI能把開發時間縮短一個數量級,也只是意味著程式設計師將更快處理下一個工作。

ChatGPT修bug橫掃全場,準確率達78%!網友:程式設計師要開心了

整體來看,ChatGPT很會修bug,並且不會為程式設計師帶來什麼致命傷害。

但若是把目光放到OpenAI其他的行動中呢?

全球招外包訓練ChatGPT寫程式碼

在此之前,OpenAI就表示過ChatGPT的重要用途之一是幫助程式設計師檢查程式碼。

換言之,它被定位可用的輔助工具。

比起「ChatGPT帶來威脅」的看法,等ChatGPT能力徹底進化,程式設計師都不用再怕寫bug了。

OpenAI佈局的棋盤上,可不只有改bug偷塔程式設計師職位這一件事。

為了讓它更大更強,OpenAI被曝在拉丁美洲和東歐等地區,提供了1000個外包職位。

外包員工的主要工作是標註數據,以及訓練ChatGPT寫程式碼

這1000人中,40%是程式設計師,他們為OpenAI的模型創建數據,用來學習軟體工程任務。

一直以來,OpenAI的訓練資料是從GitHub上抓取的。

現在外包程式設計師們新手搓的資料集,不僅包括程式碼行,還包括程式碼行背後的人類思考邏輯步驟。

有位南美的軟體開發人員爆料,他為OpenAI完成了五小時的無償編碼測試。

整個過程中,他的任務分成兩部分。

  • 用書面英語解釋如何處理一個編碼問題;
  • #提供解決方案。

如果發現bug,OpenAI會向他詳細詢問bug的具體情況,並請教如何修正。

程式設計師需要展示思考問題的每個步驟,他據此猜測OpenAI很可能想為ChatGPT提供非常具體的訓練資料。

特斯拉前AI主管Andrej Karpathy在推特上調侃:

最新的熱門程式語言是英文。

ChatGPT修bug橫掃全場,準確率達78%!網友:程式設計師要開心了

不過話說回來,ChatGPT修bug能力強是好事,要真能搞進化到可以完成程式碼裡死記硬背的部分,也是好事。

畢竟OpenAI成立時對外宣稱的宗旨,就是希望「確保通用人工智慧可以造福全人類」。

雖然乍看之下它這些年做的事,有點像在致力於用一部分人的努力,讓更多人失業。

從Dota2賽場上碾壓人類,到GPT-3、DALL-E2、ChatGPT的閃耀表現,它帶來的新產品總是伴隨著「快要讓xxx失業了」的議論聲。

但無論如何,商業卻一直對它青睞有加。

就目前而言,OpenAI的主要商業模式是API費用、token費用和軟體授權。

OpenAI近期也發表了ChatGPT的付費版ChatGPT Pro,每月費用42美元(約285元)。

ChatGPT修bug橫掃全場,準確率達78%!網友:程式設計師要開心了

雖然機器人對話新創公司如雨後春筍般冒出,但諸多跡象顯示市場對OpenAI的持續看好。

微軟剛剛宣布將向OpenAI加碼投資數十億美元,並將OpenAI的模式融入微軟必應等消費級和企業級產品中。

根據知情人士透露,此次追加投資金額約100億美元。

與此同時,WSJ揭露的消息顯示,1月初,億萬富翁Peter Thiel創立的創投基金Founders Fund正在就投資OpenAI進行談判。

據悉,融資金額將至少達3億美元。

One More Thing

在第一輪實驗中,ChatGPT並沒有解決QuixBugs資料集的bitcount問題。

但若是你現在再重頭問一次這個問題,就會發現ChatGPT可以「一遍過」:

ChatGPT修bug橫掃全場,準確率達78%!網友:程式設計師要開心了

那麼這是否意味著ChatGPT已經從這次研究過程中學會解了呢?

參考連結:

[1] https://www.php.cn/link/5f5d472067f77b5c88f69f1bcfda1e08
[2] #https://www.php. cn/link/8a47481ae534860850adf59f145e6b40
#[3] #https://www.php.cn/link/7806689d934e610d660caf55361
https://www.php.cn/link/4271846620d203fd0511c422d483cdbd

以上是ChatGPT修bug橫掃全場,準確率達78%!網友:程式設計師要開心了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1662
14
CakePHP 教程
1418
52
Laravel 教程
1311
25
PHP教程
1261
29
C# 教程
1234
24
比特幣值多少美金 比特幣值多少美金 Apr 28, 2025 pm 07:42 PM

比特幣的價格在20,000到30,000美元之間。 1. 比特幣自2009年以來價格波動劇烈,2017年達到近20,000美元,2021年達到近60,000美元。 2. 價格受市場需求、供應量、宏觀經濟環境等因素影響。 3. 通過交易所、移動應用和網站可獲取實時價格。 4. 比特幣價格波動性大,受市場情緒和外部因素驅動。 5. 與傳統金融市場有一定關係,受全球股市、美元強弱等影響。 6. 長期趨勢看漲,但需謹慎評估風險。

全球幣圈十大交易所有哪些 排名前十的貨幣交易平台2025 全球幣圈十大交易所有哪些 排名前十的貨幣交易平台2025 Apr 28, 2025 pm 08:12 PM

2025年全球十大加密貨幣交易所包括Binance、OKX、Gate.io、Coinbase、Kraken、Huobi、Bitfinex、KuCoin、Bittrex和Poloniex,均以高交易量和安全性著稱。

排名靠前的貨幣交易平台有哪些 最新虛擬幣交易所排名榜前10 排名靠前的貨幣交易平台有哪些 最新虛擬幣交易所排名榜前10 Apr 28, 2025 pm 08:06 PM

目前排名前十的虛擬幣交易所:1.幣安,2. OKX,3. Gate.io,4。幣庫,5。海妖,6。火幣全球站,7.拜比特,8.庫幣,9.比特幣,10。比特戳。

全球幣圈十大交易所有哪些 排名前十的貨幣交易平台最新版 全球幣圈十大交易所有哪些 排名前十的貨幣交易平台最新版 Apr 28, 2025 pm 08:09 PM

全球十大加密貨幣交易平台包括Binance、OKX、Gate.io、Coinbase、Kraken、Huobi Global、Bitfinex、Bittrex、KuCoin和Poloniex,均提供多種交易方式和強大的安全措施。

解密Gate.io戰略升級:MeMebox 2.0如何重新定義加密資產管理? 解密Gate.io戰略升級:MeMebox 2.0如何重新定義加密資產管理? Apr 28, 2025 pm 03:33 PM

MeMebox 2.0通過創新架構和性能突破重新定義了加密資產管理。 1) 它解決了資產孤島、收益衰減和安全與便利悖論三大痛點。 2) 通過智能資產樞紐、動態風險管理和收益增強引擎,提升了跨鏈轉賬速度、平均收益率和安全事件響應速度。 3) 為用戶提供資產可視化、策略自動化和治理一體化,實現了用戶價值重構。 4) 通過生態協同和合規化創新,增強了平台的整體效能。 5) 未來將推出智能合約保險池、預測市場集成和AI驅動資產配置,繼續引領行業發展。

排名前十的虛擬幣交易app有哪 最新數字貨幣交易所排行榜 排名前十的虛擬幣交易app有哪 最新數字貨幣交易所排行榜 Apr 28, 2025 pm 08:03 PM

Binance、OKX、gate.io等十大數字貨幣交易所完善系統、高效多元化交易和嚴密安全措施嚴重推崇。

靠譜的數字貨幣交易平台推薦 全球十大數字貨幣交易所排行榜2025 靠譜的數字貨幣交易平台推薦 全球十大數字貨幣交易所排行榜2025 Apr 28, 2025 pm 04:30 PM

靠谱的数字货币交易平台推荐:1. OKX,2. Binance,3. Coinbase,4. Kraken,5. Huobi,6. KuCoin,7. Bitfinex,8. Gemini,9. Bitstamp,10. Poloniex,这些平台均以其安全性、用户体验和多样化的功能著称,适合不同层次的用户进行数字货币交易

C  中的chrono庫如何使用? C 中的chrono庫如何使用? Apr 28, 2025 pm 10:18 PM

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔,讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分,它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說,chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性,還提供了更高的精度和靈活性。讓我們從基礎開始,chrono庫主要包括以下幾個關鍵組件:std::chrono::system_clock:表示系統時鐘,用於獲取當前時間。 std::chron

See all articles