從BERT到ChatGPT,百頁綜述梳理預訓練大模型演變史
所有的成功都有跡可循,ChatGPT 也不例外。
前不久,因為對 ChatGPT 的評價過於苛刻,圖靈獎得主 Yann LeCun 被送上了熱搜。
在他看來,「就底層技術而言,ChatGPT 並沒有什麼特別的創新,」也不是「什麼革命性的東西」。許多研究實驗室正在使用同樣的技術,進行同樣的工作。更重要的是,ChatGPT 及其背後的 GPT-3 在許多方面都是由多方多年來開發的多種技術組成的,是不同的人數十年貢獻的結果。因此,LeCun 認為,與其說 ChatGPT 是一個科學突破,不如說它是一個像樣的工程實例。
「ChatGPT 是否具有革命性」是個充滿爭議的話題。但毋庸置疑,它確實是在先前累積的多項技術的基礎上建構起來的,例如核心的 Transformer 是谷歌在幾年前提出來的,而 Transformer 又受到了 Bengio 關於注意力概念的工作的啟發。如果再往前追溯,我們還能連結到更古的幾十年前的研究。
當然,大眾可能體會不到這種循序漸進的感覺,畢竟不是誰都會一篇一篇去看論文。但對於技術人員來說,了解這些技術的演進過程還是非常有幫助的。
在最近的一篇綜述文章中,來自密西根州立大學、北京航空航天大學、理海大學等機構的研究者仔細梳理了該領域的幾百篇論文,主要聚焦在文本、圖像和圖學習領域的預訓練基礎模型,非常值得一讀。杜克大學教授、加拿大工程院院士裴健,伊利諾大學芝加哥分校電腦科學系特聘教授俞士綸(Philip S. Yu) ,Salesforce AI Research 副總裁熊蔡明都是論文作者之一。
論文連結:https://arxiv.org/pdf/2302.09419.pdf
#論文目錄如下:
#在海外社群平台上,DAIR.AI 聯合創始人Elvis S.推薦了這篇綜述並獲得了一千多的讚量。
引言
預訓練基礎模型(PFM)是大數據時代人工智慧的重要組成部分。 「基礎模型」的名字來自 Percy Liang、李飛飛等人發布的一篇綜述 ——《On the Opportunities and Risks of Foundation Models》,是一類模型及其功能的總稱。在 NLP、CV 和圖學習領域,PFM 已經被廣泛研究了。在各種學習任務中,它們表現出了強大的特徵表示學習潛力,如文字分類、文字生成、圖像分類、目標偵測和圖分類等任務。無論是使用大型資料集在多個任務上訓練,還是在小規模任務上進行微調,PFM 都表現出了優越的效能,這使其快速啟動資料處理成為可能。
PFM 和預訓練
#PFM 是基於預訓練技術,目的是利用大量的資料和任務來訓練一個通用模型,該模型可以在不同的下游應用中輕鬆進行微調。
預訓練的想法起源於 CV 任務中的遷移學習。但看到該技術在 CV 領域的有效性後,人們也開始利用該技術來提高其他領域的模型效能。
當預訓練技術應用於 NLP 領域時,經過良好訓練的語言模型可以捕捉到對下游任務有益的豐富知識,如長期依賴關係、層次關係等。此外,預訓練在 NLP 領域的顯著優勢是,訓練資料可以來自任何未標記的文字語料庫,也就是說,幾乎存在著無限量的訓練資料可以用於預訓練過程。早期的預訓練是一種靜態技術,如 NNLM 和 Word2vec,但靜態方法很難適應不同的語意環境。因此,人們提出了動態預訓練技術,如 BERT、XLNet 等。圖 1 描述了 PFM 在 NLP、CV 和 GL 領域的歷史和演變。基於預訓練技術的 PFM 使用大型語料庫來學習通用語意表徵。隨著這些開創性工作的引入,各種 PFM 已經出現,並被應用於下游的任務和應用。
最近走紅的 ChatGPT 是 PFM 應用的典型案例。它是從生成性預訓練 transformer 模型 GPT-3.5 中微調出來的,該模型利用了大量本文和程式碼進行訓練。此外,ChatGPT 還應用了來自人類回饋的強化學習(RLHF),這已經成為讓大型 LM 與人類意圖保持一致的一種有希望的方式。 ChatGPT 卓越的表現表現可能會為每種類型的 PFM 的訓練範式帶來轉變,例如指令對齊技術、強化學習、prompt tuning 和思維鏈的應用,從而走向通用人工智慧。
本文將聚焦在文字、圖像和圖領域的 PFM,這是一個相對成熟的研究分類方法。對於文字來說,它是一個多用途的 LM,用於預測序列中的下一個單字或字元。例如,PFM 可用於機器翻譯、問答系統、主題建模、情緒分析等。對於圖像,它類似於文字上的 PFM,使用巨大的資料集來訓練一個適合許多 CV 任務的大模型。對於圖來說,類似的預訓練想法也被用來獲得 PFM,這些 PFM 被用於許多下游任務。除了針對特定資料域的 PFM,本文也回顧並闡述了其他一些先進的 PFM,例如針對語音、視訊和跨域資料的 PFM,以及多模態 PFM。此外,一場能夠處理多模態任務的的 PFM 的大融合正在出現,這就是所謂的 unified PFM。作者首先定義了 unified PFM 的概念,然後回顧了最近研究中達到 SOTA 的 unified PFM(如 OFA、UNIFIED-IO、FLAVA、BEiT-3 等)。
根據上述三個領域現有的 PFM 的特點,作者得出結論,PFM 有以下兩大優勢。首先,要提高在下游任務中的效能,模型只需要進行很小的微調。其次,PFM 已經在品質方面得到了審查。我們可以將 PFM 應用於任務相關的資料集,而不是從頭開始建立模型來解決類似的問題。 PFM 的廣闊前景激發了大量的相關工作來關注模型的效率、安全性和壓縮等問題。
論文貢獻與結構
#在這篇文章發布之前,已經有幾篇綜述回顧了一些特定領域的預訓練模型,如文字生成、視覺transformer、目標偵測。
《On the Opportunities and Risks of Foundation Models》總結了基礎模型的機會和風險。然而,現有的工作並沒有實現不同領域(如 CV、NLP、GL、Speech、Video)PFM 在不同方面的全面回顧,如預訓練任務、效率、效力和隱私。在這篇綜述中,作者詳細闡述了 PFM 在 NLP 領域的演變,以及預訓練如何遷移到 CV 和 GL 領域並被採用。
與其他綜述相比,本文並未對所有三個領域的現有 PFM 進行全面的介紹和分析。與先前預訓練模型的回顧不同,作者總結了現有的模型,從傳統模型到 PFM,以及三個領域的最新工作。傳統模型強調的是靜態特徵學習。動態 PFM 對結構進行了介紹,這是主流的研究。
作者進一步介紹了 PFM 的一些其他研究,包括其他先進和統一的 PFM、模型的效率和壓縮、安全以及隱私。最後,作者總結了未來的研究挑戰和不同領域的開放問題。他們也在附錄 F 和 G 中全面介紹了相關的評價指標和資料集。
總之,本文的主要貢獻如下:
- 對PFM在NLP、CV 和GL 的發展進行了詳實和最新的回顧。在回顧中,作者討論並提供了關於這三個主要應用領域中通用PFM 的設計和預訓練方法的見解;
- 總結了PFM 在其他多媒體領域的發展,如語音和視訊。此外,作者還討論了關於 PFM 的前沿主題,包括統一的 PFM、模型效率和壓縮,以及安全性和隱私。
- 透過對各種模式的PFM 在不同任務中的回顧,作者討論了大數據時代超大型模型未來研究的主要挑戰和機遇,這指導了新一代基於PFM的協作和互動智能。
各章節的主要內容如下:
論文第2 章介紹了PFM 的一般概念架構。
第 3、4、5 章分別總結了 NLP、CV 和 GL 領域中現有的 PFM。
第6、7 章介紹了PFM 的其他前沿研究,包括前沿和統一的PFM、模型效率和壓縮,以及安全和隱私。
###第 8 章總結了 PFM 的主要挑戰。第 9 章對全文進行了總結。 ######以上是從BERT到ChatGPT,百頁綜述梳理預訓練大模型演變史的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

寫在前面項目連結:https://nianticlabs.github.io/mickey/給定兩張圖片,可以透過建立圖片之間的對應關係來估計它們之間的相機姿態。通常,這些對應關係是二維到二維的,而我們估計的姿態在尺度上是不確定的。一些應用,例如隨時隨地實現即時增強現實,需要尺度度量的姿態估計,因此它們依賴外部的深度估計器來恢復尺度。本文提出了MicKey,這是一個關鍵點匹配流程,能夠夠預測三維相機空間中的度量對應關係。透過學習跨影像的三維座標匹配,我們能夠在沒有深度測試的情況下推斷度量相對

什麼?瘋狂動物城被國產AI搬進現實了?與影片一同曝光的,是一款名為「可靈」全新國產影片生成大模型。 Sora利用了相似的技術路線,結合多項自研技術創新,生產的影片不僅運動幅度大且合理,還能模擬物理世界特性,具備強大的概念組合能力與想像。數據上看,可靈支持生成長達2分鐘的30fps的超長視頻,分辨率高達1080p,且支援多種寬高比。另外再劃個重點,可靈不是實驗室放出的Demo或影片結果演示,而是短影片領域頭部玩家快手推出的產品級應用。而且主打一個務實,不開空頭支票、發布即上線,可靈大模型已在快影
