目錄
#指令微調" >#指令微調
多任務學習" >多任務學習
什麼是OPT?
與舊版比較
首頁 科技週邊 人工智慧 Meta千億參數大模型OPT-IML「升級版」來了,完整模型和程式碼公佈!

Meta千億參數大模型OPT-IML「升級版」來了,完整模型和程式碼公佈!

Apr 11, 2023 pm 10:31 PM
升級 模型

今年五月,MetaAI官員宣布發布了基於1750億參數的超大模型OPT-175B,也對所有社群免費開放。

12月22日,該模型的更新版本OPT-IML(Open Pre-trained Transformer)正式上線,Meta稱其「對2000個語言任務進行了微調,包含1750億個參數」,也將為非商業研究用途免費開放。

Meta千億參數大模型OPT-IML「升級版」來了,完整模型和程式碼公佈!

這次更新的OPT-IML的效能表現如何,先上兩張圖來看。

Meta千億參數大模型OPT-IML「升級版」來了,完整模型和程式碼公佈!

這次的OPT-IML創建了兩種模型尺寸,分別是30B和175B。

與舊版OPT模型相比,OPT-IML在14個標準NLP評估任務的平均表現都優於OPT。

在零次學習任務上兩種模型大小分別好7%~ 和32-shot 任務分別好4%~ 和 0.4%~。

在這項研究中,研究人員描述了增加模型和基準大小如何影響指令調整決策對下游任務表現的影響。

為此他們開發了OPT-IML Bench,這是一個相當大的指令元學習(IML) 基準,包含2000個NLP任務,這些任務根據現有的八個基準分為任務類別。

Meta千億參數大模型OPT-IML「升級版」來了,完整模型和程式碼公佈!

為訓練OPT-IML 30B和175B,研究人員首先從該框架的角度對應用於OPT-30B 的指令調優決策提出了見解。

在具有不同目標和輸入格式的四個評估基準(PromptSource、FLAN、Super-NaturalInstructions 和UnifiedSKG)上,OPT-IML 在兩個尺度上展示了所有三種泛化技巧。

它不僅在所有基準測試中顯著優於OPT,而且以極具競爭力的方式優於針對該特定基準優化的現有模型。

此外OPT-IML已經開源,Github連結小編也放在下面啦~

Meta千億參數大模型OPT-IML「升級版」來了,完整模型和程式碼公佈!

##Github連結:https://github.com/facebookresearch/metaseq/tree/main/projects/OPT-IML

接下來透過論文來一起了解一下OPT-IML。

Meta千億參數大模型OPT-IML「升級版」來了,完整模型和程式碼公佈!

論文連結:https://github.com/facebookresearch/metaseq/blob/main/projects/OPT-IML/optimal_paper_v1 .pdf

研究方法

大型語言模型的指令微調已成為增強其零樣本和少樣本泛化能力的有效方法。在這項研究中,Meta研究人員對指令微調進行了三個重要的補充。

首先,他們編譯了一個大規模的指令微調基準,其中包含來自八個資料集集合的2,000個NLP任務,按任務類型分類。

研究人員在此基準上選擇性地建構評估拆分,以測試三種不同類型的模型泛化能力:#

包括來自完全保留類別的任務(tasks from fully held-out categories)、來自已見類型的保留任務(held-out tasks from seen types)以及來自已見任務的保留實例(held- out instances from seen tasks)。

#指令微調

對模型進行微調,以使它們與遵守說明保持一致,是目前機器學習的研究方向之一。

指令微調有兩種方法。一種專注於使用人工註釋的指令和回饋對各種任務的模型進行微調;另一種,專注於透過註釋或自動向可公開存取的基準和資料集添加指令。

在本研究中,Meta AI成員專注於第二種技術,並編譯了許多可公開存取的資料集,其中包含改進OPT的方法。

研究過程中,Meta成員使用來自四個基準的1836個任務,提出了類似的縮放方法。最後,在調整整個測試,以突破具有挑戰性的外部基準(例如 MMLU 和 Big-Bench Hard (BBH))性能極限的同時,研究人員描述了可能影響下游性能的各種指令調整策略的權值。

多任務學習

多任務學習是基於指令的微調 (MTL) 的一種表述。

MTL 是一種流行的範例,當與共享可比較參數或表示的類似函數結合使用時,它可以提高任務的泛化效能。

近年來,MTL已應用於眾多NLP場景,主要著重於透過利用相關活動的訊號來提高訓練任務或新領域的表現。

相較之下,基於指令的微調有助於我們提高對前所未見問題的泛化效能。它是透過指令將所有任務組合成一個概念並透過在所有任務上分配模型的權重來一起訓練它們來實現的。

什麼是OPT?

大型語言模型,即具有超過 1000 億個參數的自然語言處理系統,在過去幾年中改變了NLP和AI研究。

這些模型接受了大量不同文字的訓練,展現出令人驚訝的新能力,可以產生創意文字、解決基本數學問題、回答閱讀理解問題等等。

雖然在某些情況下,公眾可以透過付費 API 與這些模型進行交互,但完整的研究存取權限仍然僅限於少數資源豐富的實驗室。

這種受限存取限制了研究人員理解這些大型語言模型如何運作以及為何工作的能力,阻礙了提高其穩健性和減輕偏見等已知問題的進展。

出於對開放科學的承諾,Meta AI於今年5月發布了Open Pretrained Transformer (OPT-175B),這是一個具有1750 億參數的模型,在公共數據集上訓練而成,之所以分享這個模型,Meta AI 希望更多的社群參與理解關於大模型的基本技術。

簡單來說,Meta將用於人工智慧研究的大型語言模型存取權限開放給大眾,從而實現大模型研究的人工智慧民主化。

與舊版比較

根據Meta現在發布的IML版本經過微調,在自然語言任務上的表現比舊版OPT更好。

典型的語言任務包括回答問題、總結文字和翻譯。

為了進行微調,研究人員使用了大約2000個自然語言任務。這些任務分為八個NLP基準(OPT-IML Bench),研究人員也提供了這些基準。

平均而言,以30B和175B模型為例,OPT-IML比OPT的零次學習準確度提高了約 6-7%。在32次學習中,300億參數的模型準確度有顯著改進,1750億參數的模型有輕微改進。

Meta千億參數大模型OPT-IML「升級版」來了,完整模型和程式碼公佈!

經過對比,Meta團隊發現OPT-IML的性能在所有基準測試上都優於OPT,並且在零樣本和少樣本學習準確度方面,比其他基於指令微調的模型更具競爭力。

以上是Meta千億參數大模型OPT-IML「升級版」來了,完整模型和程式碼公佈!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI顛覆數學研究!菲爾茲獎得主、華裔數學家領銜11篇頂刊論文|陶哲軒轉贊 AI顛覆數學研究!菲爾茲獎得主、華裔數學家領銜11篇頂刊論文|陶哲軒轉贊 Apr 09, 2024 am 11:52 AM

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓練最快選擇 Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓練最快選擇 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

你好,電動Atlas!波士頓動力機器人復活,180度詭異動作嚇到馬斯克 你好,電動Atlas!波士頓動力機器人復活,180度詭異動作嚇到馬斯克 Apr 18, 2024 pm 07:58 PM

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

替代MLP的KAN,被開源專案擴展到卷積了 替代MLP的KAN,被開源專案擴展到卷積了 Jun 01, 2024 pm 10:03 PM

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

win10系統升級後無法上網的處理教學課程 win10系統升級後無法上網的處理教學課程 Mar 27, 2024 pm 02:26 PM

1.使用win+x快速鍵開啟選單,選擇【指令提示字元(管理員)(A)】,如下圖所示:2、進入到指令提示字元介面後,輸入【ipconfig/flushdns】指令按回車,如下圖所示:3、接著輸入【netshwinsockresetcatalog】指令按回車,如下圖所示:4、最後輸入【netshintipreset】指令按回車,重啟電腦就可以上網了,如下圖所示:

特斯拉機器人進廠打工,馬斯克:手的自由度今年將達到22個! 特斯拉機器人進廠打工,馬斯克:手的自由度今年將達到22個! May 06, 2024 pm 04:13 PM

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

FisheyeDetNet:首個以魚眼相機為基礎的目標偵測演算法 FisheyeDetNet:首個以魚眼相機為基礎的目標偵測演算法 Apr 26, 2024 am 11:37 AM

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

See all articles