從BERT到ChatGPT,北航等9大頂尖研究機構全面綜述:那些年一起追過的「預訓練基礎模型」
ChatGPT在few-shot和zero-shot場景下展現出的驚人性能,讓研究人員們更堅定「預訓練」是一條正確的路線。
預訓練基礎模型(Pretrained Foundation Models, PFM)被認為是不同資料模式下各種下游任務的基礎,即基於大規模數據,對BERT、 GPT-3、 MAE、 DALLE-E 和ChatGPT 等預訓練基礎模型進行訓練,為下游應用提供了合理的參數初始化。
PFM 背後的預訓練思想在大型模型的應用中起著重要作用,與以往採用卷積和遞歸模組進行特徵提取的方法不同,生成預訓練(GPT)方法採用Transformer 作為特徵提取器,在大型資料集上進行自回歸訓練。
隨著PFM 在各個領域獲得巨大成功,近年來發表的論文中提出了大量的方法、數據集和評價指標,行業內需要一篇從BERT開始一直追蹤ChatGPT發展過程的全面綜述。
最近,來自北航、密西根州立大學、理海大學、南洋理工、杜克等國內外多所知名院校、企業的研究人員聯合寫了一篇關於預訓練基礎模型的綜述,提供了在文本、圖像和圖(graph)等領域的最近的研究進展,以及目前和未來的挑戰、機會。
論文連結:https://arxiv.org/pdf/2302.09419.pdf
研究人員首先回顧了自然語言處理、電腦視覺和圖形學習的基本組成部分和現有的預訓練;然後討論了其他先進的PFM 的其他資料模式和統一的PFM 考慮資料品質和數量;以及PFM 基本原理的相關研究,包括模型效率和壓縮、安全性和隱私性;最後,文中列出了幾個關鍵的結論,包括未來的研究方向、挑戰和開放的問題。
從BERT到ChatGPT
預訓練基礎模型(PFMs)是大數據時代建構人工智慧系統的重要組成部分,其在自然語言處理(NLP)、電腦視覺(CV)和圖學習(GL)三大人工智慧領域得到廣泛的研究和應用。
PFMs是通用模型,在各個領域內或跨領域任務中都很有效,在各種學習任務中學習特徵表示方面表現出巨大的潛力,如文本分類、文字生成、影像分類、物件偵測和圖分類等。
PFMs在用大規模語料庫訓練多個任務並對類似的小規模任務進行微調方面表現出卓越的性能,使得啟動快速資料處理成為可能。
PFMs和預訓練
#PFMs是基於預訓練技術的,目的是利用大量的資料和任務來訓練一個通用模型,在不同的下游應用中可以很容易地進行微調。
預訓練的想法起源於CV任務中的遷移學習,在認識到預訓練在CV領域的有效性後,人們開始使用預訓練技術來提高其他領域的模型性能。當把預訓練技術應用於NLP領域時,經過良好訓練的語言模型(LMs)可以捕捉到對下游任務有益的豐富知識,如長期依賴關係、層次關係等。
此外,預訓練在NLP領域的顯著優勢是,訓練資料可以來自任何未標記的文字語料庫,也就是說,在預訓練過程中存在著無限量的訓練數據。
早期的預訓練是一種靜態方法,如NNLM和Word2vec,很難適應不同的語意環境;後來有研究人員提出了動態預訓練技術,如BERT、XLNet等。
PFMs在NLP、CV和GL領域的歷史和演變
基於預訓練技術的PFMs使用大型語料庫來學習通用語義表徵,隨著這些開創性工作的引入,各種PFMs已經出現,並被應用於下游的任務和應用。
一個顯著的PFM應用案例就是最近爆火的ChatGPT。
ChatGPT是從生成式預訓練Transformer,也就是GPT-3.5在文字和程式碼的混合語料訓練後,再微調得到的;ChatGPT使用了來自人類回饋的強化學習(RLHF)技術,也是目前將大型LM與人類的意圖相匹配的一種最有前景的方法。
ChatGPT的優越表現可能會導致每一類PFMs的訓練範式轉變的臨界點,即應用指令對齊(instruction aligning)技術,包括強化學習(RL)、prompt tuning和思維鏈(chain-of-thought),最終走向通用人工智慧。
#在這篇文章中,研究人員主要回顧了文字、圖像和圖(graph)相關的PFM,也是一個相對成熟的研究分類方法。
對於文字來說,語言模型透過預測下一個單字或字元即可實現多種任務,例如, PFMs可用於機器翻譯、問題回答系統、主題建模、情緒分析等。
對於圖像來說,類似於文字中的PFMs,使用大規模的資料集來訓練一個適合多個CV任務的大模型。
對於圖來說,相似的預訓練思路也被用來獲得PFMs,可用於諸多下游任務。
除了針對特定資料域的PFMs,文中也回顧並闡述了其他一些先進的PFMs,如針對語音、視訊和跨域資料的PFMs,以及多模態PFMs。
此外,一個能夠處理多模態的PFMs的大融合趨勢正在出現,也就是所謂的統一(unified)PFMs;研究人員首先定義了統一PFMs的概念,然後回顧了近期研究中最先進的統一PFMs,包括OFA、UNIFIED-IO、FLAVA、BEiT-3等。
根據這三個領域現有的PFMs的特點,研究人員得出結論,PFMs有以下兩大優勢:
##1 . 只需要進行極少的微調就可以提高模型在下游任務上的表現;2. PFMs已經在質量方面通過了考驗。 與其從頭開始建立一個模型來解決類似的問題,更好的選擇是將PFMs應用於與任務相關的資料集。 PFMs的巨大前景激發了大量的相關工作來關注模型的效率、安全性和壓縮等問題。 這篇綜述的特點在於:- #研究人員追蹤了最新的研究成果,對PFM在NLP、CV和GL中的發展進行了紮實的總結,討論並提供了關於這三個主要應用領域中通用的PFM設計和預訓練方法的思考結果。
- 總結了PFMs在其他多媒體領域的發展,如語音和視頻,還進一步討論了關於PFMs的更深層次的話題,包括統一的PFMs、模型效率和壓縮,以及安全和隱私。
- 透過對各種模態下不同任務的PFMs的回顧,討論了在大數據時代對超大型模型未來研究的主要挑戰和機遇,將引導開發新一代基於PFMs的協作和互動智能。
以上是從BERT到ChatGPT,北航等9大頂尖研究機構全面綜述:那些年一起追過的「預訓練基礎模型」的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

DALL-E 3 於 2023 年 9 月正式推出,是比其前身大幅改進的車型。它被認為是迄今為止最好的人工智慧圖像生成器之一,能夠創建具有複雜細節的圖像。然而,在推出時,它不包括

ChatGPT與Python的完美結合:打造智慧客服聊天機器人引言:在當今資訊時代,智慧客服系統已成為企業與客戶之間重要的溝通工具。而為了提供更好的客戶服務體驗,許多企業開始轉向採用聊天機器人的方式來完成客戶諮詢、問題解答等任務。在這篇文章中,我們將介紹如何使用OpenAI的強大模型ChatGPT和Python語言結合,來打造一個智慧客服聊天機器人,以提高

安裝步驟:1、在ChatGTP官網或手機商店下載ChatGTP軟體;2、開啟後在設定介面中,選擇語言為中文;3、在對局介面中,選擇人機對局並設定中文相譜;4 、開始後在聊天視窗中輸入指令,即可與軟體互動。

在這篇文章中,我們將介紹如何使用ChatGPT和Java開發智慧聊天機器人,並提供一些具體的程式碼範例。 ChatGPT是由OpenAI開發的困境預測轉換(GenerativePre-trainingTransformer)的最新版本,它是一種基於神經網路的人工智慧技術,可以理解自然語言並產生人類類似的文本。使用ChatGPT,我們可以輕鬆地創建自適應的聊天

chatgpt在國內可以使用,但不能註冊,港澳也不行,用戶想要註冊的話,可以使用國外的手機號碼進行註冊,注意註冊過程中要將網路環境切換成國外ip。

如何利用ChatGPT和Python實現使用者意圖辨識功能引言:在當今的數位時代,人工智慧技術逐漸成為各個領域中不可或缺的一部分。其中,自然語言處理(NaturalLanguageProcessing,NLP)技術的發展使得機器能夠理解和處理人類語言。 ChatGPT(Chat-GeneratingPretrainedTransformer)是一種基於

如何使用ChatGPTPHP建構智慧客服機器人引言:隨著人工智慧技術的發展,機器人在客服領域的應用越來越廣泛。使用ChatGPTPHP建構智慧客服機器人,可以幫助企業提供更有效率、更個人化的客戶服務。本文將介紹如何使用ChatGPTPHP建構智慧客服機器人,並提供具體的程式碼範例。一、安裝ChatGPTPHP要使用ChatGPTPHP建構智慧客服機器人

ChatGPT與Python的完美結合:打造即時聊天機器人導言:隨著人工智慧技術的快速發展,聊天機器人在各個領域中扮演著越來越重要的角色。聊天機器人可以幫助用戶提供即時且個人化的協助,同時也為企業提供高效率的客戶服務。本文將介紹如何使用OpenAI的ChatGPT模型和Python語言結合,打造一個即時聊天機器人,並提供具體的程式碼範例。一、ChatGPT
