少用ChatGPT,多支援開源!紐約大學教授Nature發文:為了科學界的未來
免費的ChatGPT用的是很爽,但這種閉源的語言模型最大的缺點就是不開源,外界根本無法了解背後的訓練資料以及是否會洩露用戶隱私等問題,也引發了後續工業界、學術界聯合開源了LLaMA等一系列羊駝模型。
最近Nature世界觀專欄刊登了一篇文章,紐約大學政治與資料科學教授Arthur Spirling呼籲大家更多地使用開源模型,實驗結果可復現,也符合學術倫理。
重點是,萬一哪天OpenAI不爽了,關閉了語言模型接口,或是靠封閉壟斷漲價的話,那用戶只能無奈地說一句, 「終究是學術敗給了資本」。
文章作者Arthur Spirling將於今年7月加入普林斯頓大學教授政治學,主要研究方向為政治方法論和立法行為,具體為文本資料(text-as-data)、自然語言處理、貝葉斯統計、機器學習、項目反應理論和廣義線性模型在政治科學中的應用。
研究人員應該避免商用模型的誘惑,共同開發透明的大型語言模型,以確保可重複性。
擁抱開源,拒絕壟斷
似乎每天都有一個全新的大型語言模型(LLM)推出,其創建者和學術界相關人士每次都會對新模型如何與人類進行流暢溝通的能力慷慨陳詞,例如可以幫用戶改程式碼,寫推薦信,給文章寫摘要等等。
作為一名正在使用並教授如何使用這些模型的政治和數據科學家,我認為學者們應該保持警惕,因為目前最受大眾追捧的語言模型仍然是私有且封閉的,即由公司運營,他們不會披露基本模型的具體信息,只會獨立地檢查或驗證模型的能力,所以研究人員和公眾並不知道模型的訓練使用了哪些文件。
急於將語言模型納入自己的研究流程可能會出問題,可能會威脅到來之不易的「研究倫理」和「結果復現性」方面的相關進展。
不光不能依賴商用模型,研究人員還要通力合作開發透明且不依賴某個特定公司利益的開源大型語言模型。
雖然商用模型非常方便,可以開箱即用,但投資開源語言模型是歷史的趨勢,既要想辦法推進開發,也要讓模型應用於未來的研究中。
我樂觀地估計,語言模型工具的未來一定是開源的,類似於開源統計軟體的發展歷史,剛開始商用的統計軟體很流行,但目前基本上所有社區都在使用R或Python等開源平台。
舉個例子,去年7月發布的開源語言模式BLOOM,其開發團隊Hugging Face是一家總部位於紐約的人工智慧公司,攜手一千多名志工和研究人員共同打造,部分研發經費由法國政府提供;其他團隊也正在努力開源大型語言模式。
我認為類似這樣的開源專案都是很棒的,但我們還需要更多的合作,需要匯集國際資源和專業知識。
開源大型語言模型的團隊通常不像大公司那樣資金充足,並且開發團隊還需要持續運作以追蹤領域內的最新進展:AI領域的發展實在是太快了,甚至大部分語言模型在推出幾週或幾個月後就會過時。
所以參與開源的學者越多,最終開源模型的效果也會更好。
使用開源LLM 對於「可重複性的研究」至關重要,因為閉源的商用語言模型擁有者可以隨時更改其產品或其訓練數據,都有可能會改變模型的生成結果。
比如說,一個研究小組可能會發表一篇論文,測試商用語言模型建議的措辭是否可以幫助臨床醫生更有效地與患者溝通;如果另一個小組試圖復現這項研究,誰知道模型的基礎訓練資料是否和當時一樣?甚至該模型是否仍然運作都是未知數。
先前研究人員常用的輔助工具GPT-3已經被GPT-4取代了,所有基於GPT-3介面的研究在未來很可能無法復現,對於公司來說,維持舊模型運作的優先順序並不高。
相較之下,使用開源LLM,研究人員可以查看模型的內部架構、權重,了解模型是如何運作的,定製程式碼並指出錯誤,這些細節包括模型的可調參數和訓練模型的數據,社區的參與和監督都有助於讓這種模式長期保持穩健。
在科學研究中使用商用語言模型也對研究倫理產生了負面的影響,因為用於訓練這些模型的文本是未知的,可能包括社交媒體平台上用戶之間的直接訊息或兒童撰寫的內容。
儘管製作公開文本的人可能已經同意了平台的服務條款,但這可能不是研究人員希望看到的知情同意標準。
在我看來,科學家應該盡可能地在自己的工作中遠離使用這些模型。我們應該轉向開放的語言模型,並推廣給其他人使用。
此外,我認為學者,尤其是那些擁有大量社交媒體追隨者的學者,不應該推動其他人使用商用模型,如果價格飆升,或者公司倒閉,研究人員可能會後悔把科技推廣給同事。
研究人員目前可以求助於私人組織製作的開放式語言模型,例如用Facebook母公司Meta開源的LLaMA,最初是基於用戶申請、審核的形式發放的,但完整版模型隨後在網路上洩漏;還可以使用Meta的開放語言模型OPT-175 B
從長遠來看,不利的一面是,這些模型的發布過於依賴公司的仁慈,這是一種不穩定的局面。
除此之外,還應該有與語言模型合作的學術行為準則,以及相應的監管措施,但這些都需要時間,根據我作為政治學家的經驗,我預期這些規定最初肯定是很不完美的,而且見效緩慢。
同時,大規模的合作計畫迫切需要支持,以訓練用於研究的開源語言模型,類似歐洲粒子物理研究所(CERN),國際粒子物理組織,政府應透過贈款增加資金。
該領域正在以閃電般的速度發展,現在需要開始協調國內和國際支援。
科學界需要有能力評估由此得到模型的風險,並且需要謹慎地向公眾發布,但很明顯,開放的環境是正確的。
以上是少用ChatGPT,多支援開源!紐約大學教授Nature發文:為了科學界的未來的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

CentOS 關機命令為 shutdown,語法為 shutdown [選項] 時間 [信息]。選項包括:-h 立即停止系統;-P 關機後關電源;-r 重新啟動;-t 等待時間。時間可指定為立即 (now)、分鐘數 ( minutes) 或特定時間 (hh:mm)。可添加信息在系統消息中顯示。

檢查CentOS系統中HDFS配置的完整指南本文將指導您如何有效地檢查CentOS系統上HDFS的配置和運行狀態。以下步驟將幫助您全面了解HDFS的設置和運行情況。驗證Hadoop環境變量:首先,確認Hadoop環境變量已正確設置。在終端執行以下命令,驗證Hadoop是否已正確安裝並配置:hadoopversion檢查HDFS配置文件:HDFS的核心配置文件位於/etc/hadoop/conf/目錄下,其中core-site.xml和hdfs-site.xml至關重要。使用

CentOS系統下GitLab的備份與恢復策略為了保障數據安全和可恢復性,CentOS上的GitLab提供了多種備份方法。本文將詳細介紹幾種常見的備份方法、配置參數以及恢復流程,幫助您建立完善的GitLab備份與恢復策略。一、手動備份利用gitlab-rakegitlab:backup:create命令即可執行手動備份。此命令會備份GitLab倉庫、數據庫、用戶、用戶組、密鑰和權限等關鍵信息。默認備份文件存儲於/var/opt/gitlab/backups目錄,您可通過修改/etc/gitlab

在CentOS系統上啟用PyTorchGPU加速,需要安裝CUDA、cuDNN以及PyTorch的GPU版本。以下步驟將引導您完成這一過程:CUDA和cuDNN安裝確定CUDA版本兼容性:使用nvidia-smi命令查看您的NVIDIA顯卡支持的CUDA版本。例如,您的MX450顯卡可能支持CUDA11.1或更高版本。下載並安裝CUDAToolkit:訪問NVIDIACUDAToolkit官網,根據您顯卡支持的最高CUDA版本下載並安裝相應的版本。安裝cuDNN庫:前

Docker利用Linux內核特性,提供高效、隔離的應用運行環境。其工作原理如下:1. 鏡像作為只讀模板,包含運行應用所需的一切;2. 聯合文件系統(UnionFS)層疊多個文件系統,只存儲差異部分,節省空間並加快速度;3. 守護進程管理鏡像和容器,客戶端用於交互;4. Namespaces和cgroups實現容器隔離和資源限制;5. 多種網絡模式支持容器互聯。理解這些核心概念,才能更好地利用Docker。

在 CentOS 上安裝 MySQL 涉及以下步驟:添加合適的 MySQL yum 源。執行 yum install mysql-server 命令以安裝 MySQL 服務器。使用 mysql_secure_installation 命令進行安全設置,例如設置 root 用戶密碼。根據需要自定義 MySQL 配置文件。調整 MySQL 參數和優化數據庫以提升性能。

CentOS系統下查看GitLab日誌的完整指南本文將指導您如何查看CentOS系統中GitLab的各種日誌,包括主要日誌、異常日誌以及其他相關日誌。請注意,日誌文件路徑可能因GitLab版本和安裝方式而異,若以下路徑不存在,請檢查GitLab安裝目錄及配置文件。一、查看GitLab主要日誌使用以下命令查看GitLabRails應用程序的主要日誌文件:命令:sudocat/var/log/gitlab/gitlab-rails/production.log此命令會顯示produc

在CentOS系統上進行PyTorch分佈式訓練,需要按照以下步驟操作:PyTorch安裝:前提是CentOS系統已安裝Python和pip。根據您的CUDA版本,從PyTorch官網獲取合適的安裝命令。對於僅需CPU的訓練,可以使用以下命令:pipinstalltorchtorchvisiontorchaudio如需GPU支持,請確保已安裝對應版本的CUDA和cuDNN,並使用相應的PyTorch版本進行安裝。分佈式環境配置:分佈式訓練通常需要多台機器或單機多GPU。所
