少用ChatGPT,多支援開源!紐約大學教授Nature發文:為了科學界的未來

王林
發布: 2023-05-10 13:13:11
轉載
1600 人瀏覽過

免費的ChatGPT用的是很爽,但這種閉源的語言模型最大的缺點就是不開源,外界根本無法了解背後的訓練資料以及是否會洩露用戶隱私等問題,也引發了後續工業界、學術界聯合開源了LLaMA等一系列羊駝模型。

最近Nature世界觀專欄刊登了一篇文章,紐約大學政治與資料科學教授Arthur Spirling呼籲大家更多地使用開源模型,實驗結果可復現,也符合學術倫理

重點是,萬一哪天OpenAI不爽了,關閉了語言模型接口,或是靠封閉壟斷漲價的話,那用戶只能無奈地說一句, 「終究是學術敗給了資本」

少用ChatGPT,多支援開源!紐約大學教授Nature發文:為了科學界的未來

文章作者Arthur Spirling將於今年7月加入普林斯頓大學教授政治學,主要研究方向為政治方法論和立法行為,具體為文本資料(text-as-data)、自然語言處理、貝葉斯統計、機器學習、項目反應理論和廣義線性模型在政治科學中的應用。

研究人員應該避免商用模型的誘惑,共同開發透明的大型語言模型,以確保可重複性。

擁抱開源,拒絕壟斷

似乎每天都有一個全新的大型語言模型(LLM)推出,其創建者和學術界相關人士每次都會對新模型如何與人類進行流暢溝通的能力慷慨陳詞,例如可以幫用戶改程式碼,寫推薦信,給文章寫摘要等等。

作為一名正在使用並教授如何使用這些模型的政治和數據科學家,我認為學者們應該保持警惕,因為目前最受大眾追捧的語言模型仍然是私有且封閉的,即由公司運營,他們不會披露基本模型的具體信息,只會獨立地檢查或驗證模型的能力,所以研究人員和公眾並不知道模型的訓練使用了哪些文件。

急於將語言模型納入自己的研究流程可能會出問題,可能會威脅到來之不易的「研究倫理」和「結果復現性」方面的相關進展。

不光不能依賴商用模型,研究人員還要通力合作開發透明且不依賴某個特定公司利益的開源大型語言模型。

雖然商用模型非常方便,可以開箱即用,但投資開源語言模型是歷史的趨勢,既要想辦法推進開發,也要讓模型應用於未來的研究中。

我樂觀地估計​​,語言模型工具的未來一定是開源的,類似於開源統計軟體的發展歷史,剛開始商用的統計軟體很流行,但目前基本上所有社區都在使用R或Python等開源平台。

舉個例子,去年7月發布的開源語言模式BLOOM,其開發團隊Hugging Face是一家總部位於紐約的人工智慧公司,攜手一千多名志工和研究人員共同打造,部分研發經費由法國政府提供;其他團隊也正在努力開源大型語言模式。

我認為類似這樣的開源專案都是很棒的,但我們還需要更多的合作,需要匯集國際資源和專業知識。

開源大型語言模型的團隊通常不像大公司那樣資金充足,並且開發團隊還需要持續運作以追蹤領域內的最新進展:AI領域的發展實在是太快了,甚至大部分語言模型在推出幾週或幾個月後就會過時。

所以參與開源的學者越多,最終開源模型的效果也會更好。

使用開源LLM 對於「可重複性的研究」至關重要,因為閉源的商用語言模型擁有者可以隨時更改其產品或其訓練數據,都有可能會改變模型的生成結果。

比如說,一個研究小組可能會發表一篇論文,測試商用語言模型建議的措辭是否可以幫助臨床醫生更有效地與患者溝通;如果另一個小組試圖復現這項研究,誰知道模型的基礎訓練資料是否和當時一樣?甚至該模型是否仍然運作都是未知數。

先前研究人員常用的輔助工具GPT-3已經被GPT-4取代了,所有基於GPT-3介面的研究在未來很可能無法復現,對於公司來說,維持舊模型運作的優先順序並不高。

相較之下,使用開源LLM,研究人員可以查看模型的內部架構、權重,了解模型是如何運作的,定製程式碼並指出錯誤,這些細節包括模型的可調參數和訓練模型的數據,社區的參與和監督都有助於讓這種模式長期保持穩健。

在科學研究中使用商用語言模型也對研究倫理產生了負面的影響,因為用於訓練這些模型的文本是未知的,可能包括社交媒體平台上用戶之間的直接訊息或兒童撰寫的內容。

儘管製作公開文本的人可能已經同意了平台的服務條款,但這可能不是研究人員希望看到的知情同意標準。

在我看來,科學家應該盡可能地在自己的工作中遠離使用這些模型。我們應該轉向開放的語言模型,並推廣給其他人使用。

此外,我認為學者,尤其是那些擁有大量社交媒體追隨者的學者,不應該推動其他人使用商用模型,如果價格飆升,或者公司倒閉,研究人員可能會後悔把科技推廣給同事。

研究人員目前可以求助於私人組織製作的開放式語言模型,例如用Facebook母公司Meta開源的LLaMA,最初是基於用戶申請、審核的形式發放的,但完整版模型隨後在網路上洩漏;還可以使用Meta的開放語言模型OPT-175 B

從長遠來看,不利的一面是,這些模型的發布過於依賴公司的仁慈,這是一種不穩定的局面。

除此之外,還應該有與語言模型合作的學術行為準則,以及相應的監管措施,但這些都需要時間,根據我作為政治學家的經驗,我預期這些規定最初肯定是很不完美的,而且見效緩慢。

同時,大規模的合作計畫迫切需要支持,以訓練用於研究的開源語言模型,類似歐洲粒子物理研究所(CERN),國際粒子物理組織,政府應透過贈款增加資金。

該領域正在以閃電般的速度發展,現在需要開始協調國內和國際支援。

科學界需要有能力評估由此得到模型的風險,並且需要謹慎地向公眾發布,但很明顯,開放的環境是正確的。

以上是少用ChatGPT,多支援開源!紐約大學教授Nature發文:為了科學界的未來的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:51cto.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板
關於我們 免責聲明 Sitemap
PHP中文網:公益線上PHP培訓,幫助PHP學習者快速成長!