算力就這麼一點,如何提升語言模型表現?谷歌想了個新點子
近年來,語言模型(LM)在自然語言處理(NLP)研究中變得更加突出,在實踐中也越來越有影響力。一般來說,擴大模型的規模已被證明可以提昇在一系列NLP任務中的表現。
不過,擴大模型規模的挑戰也是顯而易見的:訓練新的、更大的模型需要大量的運算資源。此外,新的模型往往是從頭開始訓練的,無法利用先前的模型的訓練權重。
對於這個問題,Google的研究人員探討了兩種互補的方法,在不額外消耗大量運算資源的情況下,大幅提升現有語言模型的效能。
首先,在「Transcending Scaling Laws with 0.1% Extra Compute」一文中,研究人員介紹了UL2R,這是一個輕量級的第二階段預訓練模型,使用一個混合enoisers目標。 UL2R提高了一系列任務的效能,甚至在先前具有接近隨機性能的任務上釋放出突發性能。
論文連結:https://arxiv.org/pdf/2210.11399.pdf
另外,在「Scaling Instruction-Finetuned Language Models」中,探討了在一個以指令為措辭的資料集上微調語言模型的問題,這個過程我們稱為"Flan"。這種方法不僅提高了效能,而且還提高了語言模型對使用者輸入的可用性。
論文連結:https://arxiv.org/abs/2210.11416
#最後,Flan和UL2R可以作為互補技術結合在一個名為Flan-U-PaLM 540B的模型中,該模型在一系列具有挑戰性的評估基準中,比未經調整的PaLM 540B模型表現高出10%。
UL2R的訓練
傳統上,大多數語言模型都是在因果語言建模目標上進行預訓練,使模型能夠預測序列中的下一個單字(如GPT-3或PaLM)或去噪目標,其中模型學習從損壞的單字序列中恢復原句(如T5)。
儘管在語言建模目標中存在一些權衡,即因果關係的語言模型在長句生成方面表現更好,而在去噪目標上訓練的語言模型在微調方面表現較好,但在先前的工作中,研究人員表明,包括這兩個目標的混合enoisers目標在兩種情況下都能取得更好的表現。
不過,在不同的目標上從頭開始對大型語言模型進行預訓練,在計算上是很困難的。因此,我們提出了UL2修復(UL2R),這是一個用UL2目標繼續預訓練的額外階段,只需要相對較少的計算量。
我們將UL2R應用於PaLM,並將產生的新語言模型稱為U-PaLM。
在實證評估中,我們發現,只需少量的UL2訓練,模型就會大幅改善。
例如,透過在PaLM 540B的中間檢查點上使用UL2R,可以達到PaLM 540B在最終檢查點的效能,同時使用了2倍的計算量。當然,將UL2R應用於最終的PaLM 540B檢查點也會帶來巨大的改善。
PaLM 540B和U-PaLM 540B在26個NLP基準上的計算與模型效能比較。 U-PaLM 540B繼續訓練PaLM,計算量非常小,但在性能上有很大的提升。
使用UL2R的另一個好處是,它在某些任務上的表現比純粹在因果語言建模目標上訓練的模型好得多。例如,有許多BIG-Bench任務具備所謂「新興能力」,也就是只有在足夠大的語言模型中才有的能力。
雖然最常見的發現新興能力的方式是透過擴大模型規模,但UL2R實際上可以在不擴大模型規模的情況下激發新興能力。
例如在BIG-Bench的導航任務中,衡量模型進行狀態追蹤的能力,除了U-PaLM,所有模型的訓練FLOPs少於10^23個。另一個例子是BIG-Bench的Snarks任務,該任務衡量模型檢測諷刺語言的能力。
對於來自BIG-Bench的兩種能力,展示了新興的任務性能,U-PaLM由於使用了UL2R目標,所以在較小的模型規模下實現了新興性能。
指令微調
在第二篇論文中,我們探討了指令微調,這涉及到在一組以指令為措辭的NLP資料集上對LM進行微調。
在先前的工作中,我們將指令微調應用於62個NLP任務的137B參數模型,例如回答一個小問題,對電影表達的情感進行分類,或將句子翻譯成西班牙文等。
在這項工作中,我們在超過1.8K的任務上微調了540B參數的語言模型。此外,先前的工作只對有少量例證的語言模型(如MetaICL)或無例證的零例證語言模型(如FLAN、T0)進行微調,而我們對兩者的組合都進行了微調。
我們還包括思維鏈微調數據,這使得模型能夠進行多步驟推理。我們把我們改良的方法稱為 "Flan",用來微調語言模型。
值得注意的是,即使在1.8K的任務上進行微調,與預訓練相比,Flan只用了一小部分的計算量(對於PaLM 540B,Flan只需要預訓練計算量的0.2%)。
在1.8K個以指令形式表述的任務上對語言模型進行微調,並在新任務上對模型進行評估,這些任務不包括在微調中。分別在有/無範例的情況下進行微調(即0-shot 和 few-shot),以及有/無思維鏈的情況下進行微調,使模型可以在一系列評估場景中推廣開來。
本文中,一系列規模的LM進行了指令-微調,目的是研究同時擴大語言模型的規模和增加微調任務數量的共同效果。
例如,對於PaLM類別語言模型,包括8B、62B和540B參數規格。在四個具有挑戰性的基準評估標準(MMLU、BBH、TyDiQA和MGSM)上評估了我們的模型,發現擴大參數數量和微調任務數量都能提高在先前未見的新任務上的表現表現。
擴大到540B的參數模型和使用1.8K的微調任務都能提高效能。上圖y軸為四個評估套件(MMLU、BBH、TyDiQA和MGSM)的歸一化平均值。
除了更好的效能之外,指令微調LM能夠在推理時對使用者的指令做出反應,而不需要少量的範例或提示工程。這使得LM在一系列的輸入中更加方便使用者。例如,沒有指令微調的LM有時會重複輸入或無法遵循指令,但指令微調可以減輕這種錯誤。
我們的指令微調語言模型Flan-PaLM與沒有指令微調的PaLM模型相比,對指令的反應較好。
強強聯合,實現「1 1>2」
最後,我們表明,UL2R和Flan可以結合起來訓練Flan-U-PaLM模型。
由於Flan使用來自NLP任務的新數據,並能實現零點指令跟踪,我們將Flan作為UL2R之後的次選方法。
我們再次對四個基準套件進行評估,發現Flan-U-PaLM模型優於只有UL2R(U-PaLM)或只有Flan(Flan-PaLM)的PaLM模型。此外,當與思維鍊和自洽性相結合時,Flan-U-PaLM在MMLU基準上達到了新的SOTA,得分達到75.4%。
與只使用UL2R(U-PaLM)或只使用Flan(Flan-U-PaLM)相比,將UL2R和Flan(Flan -U-PaLM)結合起來會帶來最佳性能:四個評估套件(MMLU、BBH、TyDiQA和MGSM)的歸一化平均值。
總的來說,UL2R和Flan是兩種互補的方法,用於改進預先訓練的語言模型。 UL2R使用相同的資料使LM適應denoisers的混合目標,而Flan則利用超過1.8K NLP任務的訓練資料來教導模型遵循指令。
隨著語言模型變得更大,像UL2R和Flan這樣無需大量運算就能提高一般效能的技術,可能會變得越來越有吸引力。
以上是算力就這麼一點,如何提升語言模型表現?谷歌想了個新點子的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

本文推荐十大值得关注的加密货币交易平台,涵盖币安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所。这些平台在交易币种数量、交易类型、安全性、合规性、特色功能等方面各有千秋,例如币安以其全球最大的交易量和丰富的功能著称,而BitFlyer则凭借其日本金融厅牌照和高安全性吸引亚洲用户。选择合适的平台需要根据自身交易经验、风险承受能力和投资偏好进行综合考量。 希望本文能帮助您找到最适合自

本文詳細介紹了歐易OKEx賬號的註冊、使用和註銷流程。註冊需下載APP,輸入手機號或郵箱註冊,完成實名認證。使用方面涵蓋登錄、充值提現、交易以及安全設置等操作步驟。而註銷賬號則需要聯繫歐易OKEx客服,提供必要信息並等待處理,最終獲得賬號註銷確認。 通過本文,用戶可以輕鬆掌握歐易OKEx賬號的完整生命週期管理,安全便捷地進行數字資產交易。

本文提供Binance幣安註冊及安全設置的完整指南,涵蓋註冊前的準備工作(包括設備、郵箱、手機號及身份證明文件準備),詳細介紹了官網及APP兩種註冊方式,以及不同級別的身份驗證(KYC)流程。此外,文章還重點講解瞭如何設置資金密碼、開啟雙重驗證(2FA,包括谷歌身份驗證器和短信驗證)以及設置防釣魚碼等關鍵安全步驟,幫助用戶安全便捷地註冊和使用Binance幣安平台進行加密貨幣交易。 請務必在交易前了解相關法律法規及市場風險,謹慎投資。

如何優化jieba分詞以改善景區評論的關鍵詞提取?在使用jieba分詞處理景區評論數據時,如果發現分詞結果不理�...

gate.io手機app使用教程:1、安卓用戶,訪問 Gate.io 官方網站,下載安卓安裝包,您可能需要在手機設置中允許安裝來自未知來源的應用;2、ios用戶,在 App Store 中搜索 "Gate.io" 下載。

虛擬貨幣“最老”排行榜如下:1. 比特幣(BTC),發行於2009年1月3日,是首個去中心化數字貨幣。 2. 萊特幣(LTC),發行於2011年10月7日,被稱為“比特幣的輕量版”。 3. 瑞波幣(XRP),發行於2011年,專為跨境支付設計。 4. 狗狗幣(DOGE),發行於2013年12月6日,基於萊特幣代碼的“迷因幣”。 5. 以太坊(ETH),發行於2015年7月30日,首個支持智能合約的平台。 6. 泰達幣(USDT),發行於2014年,是首個與美元1:1錨定的穩定幣。 7. 艾達幣(ADA),發

2025年全球虛擬幣交易平台Top 10推薦,助您玩轉數字貨幣市場!本文將為您深度解析幣安(Binance)、OKX、Gate.io、BitFlyer、KuCoin、Bybit、Coinbase Pro、Kraken、BYDFi和XBIT去中心化交易所等十家頂級平台的核心優勢和特色功能。無論是追求高流動性、豐富的交易類型,還是注重安全合規、創新功能,都能在此找到適合您的平台。 我們將從交易品種、安全性、特色功能等方面進行全面對比,助您選擇最合適的虛擬貨幣交易平台,把握2025年數字貨幣投資機遇

本文詳細介紹了歐易OKEx網頁版登錄的完整步驟,包括準備工作(確保網絡連接穩定及瀏覽器更新)、訪問官網(注意網址準確性,避免釣魚網站)、找到登錄入口(點擊官網首頁右上角的“登錄”按鈕)、輸入登錄信息(郵箱/手機號及密碼,支持驗證碼登錄)、完成安全驗證(滑動驗證、谷歌驗證或短信驗證)等五個步驟,最終成功登錄後即可進行數字資產交易等操作。 安全便捷的登錄流程,保障用戶資產安全。
