首頁 > 科技週邊 > 人工智慧 > 紙投Nature先問GPT-4!史丹佛實測5000篇,一半意見跟人類評審沒差別

紙投Nature先問GPT-4!史丹佛實測5000篇,一半意見跟人類評審沒差別

PHPz
發布: 2023-10-06 14:37:06
轉載
1658 人瀏覽過

GPT-4有能力做論文評審嗎?

來自史丹佛等大學的研究人員還真測試了一把。

他們丟給GPT-4數千篇來自Nature、ICLR等頂會的文章,讓它產生評審意見(包括修改建議啥的),然後與人類給的意見進行比較。

經過調查,我們發現:

GPT-4提出的超50%觀點與至少一名人類評審員一致;

並且有超過82.4%的作者發現GPT-4提供的意見非常有幫助

這項研究能為我們帶來哪些啟示呢?

結論是:

高品質的人類回饋仍然不可替代;但GPT-4可以幫助作者在正式同儕審查前改進初稿。

紙投Nature先問GPT-4!史丹佛實測5000篇,一半意見跟人類評審沒差別

具體來看。

實測GPT-4論文評審水準

為了證明GPT-4的潛力,研究人員先用GPT-4創造了一個自動pipeline

紙投Nature先問GPT-4!史丹佛實測5000篇,一半意見跟人類評審沒差別# #。

它能夠分析整篇PDF格式的論文,提取標題、摘要、圖表、表格標題等內容,以建立提示語然後讓GPT-4提供評審意見。 其中,意見和各頂會的標準一樣,共包含四個部分:

研究的重要性和新穎性,以及可能被接受或拒絕的原因和改進建議

具體實驗從

兩方面

展開。

首先是量化實驗:

紙投Nature先問GPT-4!史丹佛實測5000篇,一半意見跟人類評審沒差別

閱讀現有論文,產生回饋,並與真實人類觀點進行系統比較,以找出重疊部分

在此,團隊從Nature正刊和各大子刊挑選了3096篇文章,從ICLR機器學習會議

(包含去年和今年)

挑選了1709篇,共計4805篇。 其中,Nature論文共涉及8745條人類評審意見;ICLR會議涉及6506條。

紙投Nature先問GPT-4!史丹佛實測5000篇,一半意見跟人類評審沒差別GPT-4給出意見之後,pipeline就在match環節分別提取人類和GPT-4的論點,然後進行語義文本匹配,找到重疊的論點,以此來衡量GPT-4意見的有效性和可靠性。

結果是:

1、GPT-4意見與人類評審員真實意見顯著重疊

整體來看,在Nature論文中, GPT-4有57.55%的意見與至少一位人類評審員一致;在ICLR中,這個數字則高達77.18%。

紙投Nature先問GPT-4!史丹佛實測5000篇,一半意見跟人類評審沒差別

再進一步仔細比較GPT-4與每位評審員的意見之後,團隊又發現:GPT-4在Nature論文上和人類評審員的重疊率下降為30.85%,在ICLR上降至39.23%。

然而,這與兩位人類審查者之間的重疊率相當

在Nature論文中,人類的平均重疊率為28.58%;而在ICLR上則為35.25%

此外,他們也透過分析論文的等級等級(oral、spotlight、或直接被拒絕的)

發現:

對於程度較弱的論文而言,GPT-4和人類審查者之間的重疊率有望提高。從目前的30%多,可以增加到接近50%

這表明,GPT-4具有很高的辨別能力,可以辨別出水平較差的論文

#作者也因此表示,那些需要更實質修改才能被接收的論文有福了,大夥兒可以在正式提交前多試試GPT-4給出的修改意見。

2、GPT-4能夠提供非通用的回饋

######所謂非一般回饋,即GPT-4不會給予一個適用於多篇論文的通用評審意見。 ######在此,作者們衡量了一個「成對重疊率」的指標,結果發現它在Nature和ICLR上都顯著降低到了0.43%和3.91%。 ######這顯示GPT-4具有特定目標#########3、能夠與人類觀點在重大、普遍問題上達成一致######

一般而言,那些最早出現並且被多個評審員提及的意見,往往代表著重要且普遍存在的問題

#在這裡,團隊還發現LLM更有可能識別出多個評審員一致認可的常見問題或缺陷

GPT-4在整體上表現尚可

4、GPT-4給的意見更強調一些與人類不同的面向

研究發現,GPT-4評論研究本身意義的頻率是人類的7.27倍,而評論研究新穎性的可能性是人類的10.69倍。

以及GPT-4和人類都經常建議進行額外的實驗,但人類更關註消融實驗,GPT-4更建議在更多資料集上嘗試。

作者表示,這些發現表明,GPT-4和人類評審員在各方面的重視程度各不相同,兩者合作可能帶來潛在優勢。

定量實驗之外是使用者研究#。

本研究共有308名來自不同機構的AI和計算生物學領域的研究員參與,他們將各自的論文上傳給GPT-4進行評審

研究團隊收集了他們對GPT-4評審意見的真實回饋。

紙投Nature先問GPT-4!史丹佛實測5000篇,一半意見跟人類評審沒差別

總體而言,超過一半(57.4%)的參與者認為GPT-4產生的回饋很有幫助,包括給到一些人類想不到的點。

以及82.4%的調查者認為它比至少一些人類評審員的回饋更有益。

此外,有超過一半的人(50.5%)表示,願意進一步使用GPT-4等大模型來改進論文。

其中一人表示,只需要5分鐘GPT-4就給了結果,這個回饋速度真的非常快,對研究人員改善論文很有幫助。

當然,作者強調:

GPT-4的能力也有一些限制

最明顯的是它更關注於“整體佈局”,缺少特定技術領域(例如模型架構)的深度建議。

因此,正如作者最後的結論所述:

在正式評審之前,人類評審員的高品質回饋是非常重要的,但我們可以先試水一下,以彌補實驗和建構等方面的細節可能被遺漏的情況

當然,他們也提醒:

正式評審中,審稿人應該還是獨立參與,不依賴任何LLM。

一作都是華人

本研究一作共三位,都是華人,都來自史丹佛大學電腦科學學院。

紙投Nature先問GPT-4!史丹佛實測5000篇,一半意見跟人類評審沒差別

他們分別是:

  • 梁偉欣,該校博士生,也是斯坦福AI實驗室(SAIL)成員。他碩士畢業於史丹佛電機工程專業,本科畢業於浙江大學計算機科學。
  • Yuhui Zhang,同博士生在讀,研究方向為多模態AI系統。清華本科畢業,史丹佛碩士畢業。
  • 曹瀚成,該校五年級博士在讀,輔修管理科學與工程,同時加入了史丹佛大學NLP和HCI小組。此前畢業於清華大學電子工程學系大學部。

論文連結:https://arxiv.org/abs/2310.01783

#

以上是紙投Nature先問GPT-4!史丹佛實測5000篇,一半意見跟人類評審沒差別的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:51cto.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
最新問題
模板在哪裡呢?
來自於 1970-01-01 08:00:00
0
0
0
java - springboot新手學習
來自於 1970-01-01 08:00:00
0
0
0
spring - JavaWeb中 Service 層的事務問題
來自於 1970-01-01 08:00:00
0
0
0
java - C語言演算法題-韓信點兵 解法?
來自於 1970-01-01 08:00:00
0
0
0
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板