蒸餾也能Step-by-Step：新方法讓小模型也能媲美2000倍體量大模型-人工智慧-PHP中文網

逐步蒸餾

實驗結果

首頁

科技週邊

人工智慧

蒸餾也能Step-by-Step：新方法讓小模型也能媲美2000倍體量大模型

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 18, 2023 pm 06:31 PM

數據模型

儘管大型語言模型能力驚人，但由於規模較大，其部署所需的成本往往巨大。華盛頓大學聯合Google雲端運算人工智慧研究院、Google研究院針對此問題進行了進一步解決，提出了逐步蒸餾（Distilling Step-by-Step）範式幫助模型訓練。相對於LLM，這種方法對於訓練小型模型並應用於特定任務方面更有效，且所需的訓練資料比傳統的微調和蒸餾更少。在一個基準任務上，他們的 770M T5 模型勝過了 540B PaLM 模型。令人印象深刻的是，他們的模型只使用了可用數據的 80%。

蒸餾也能Step-by-Step：新方法讓小模型也能媲美2000倍體量大模型

#雖然大型語言模型（LLMs）展現了令人印象深刻的少樣本學習能力，但要將這樣大規模的模型部署在現實應用上是很難的。為 1750 億參數規模的 LLM 提供服務的專門基礎設施，至少需要 350GB 的 GPU 記憶體。更甚者，現今最先進的 LLM 是由超過 5,000 億的參數組成的，這意味著它需要更多的記憶體和運算資源。這樣的計算要求對於大多數生產商來說都是難以企及的，更何況是要求低延遲的應用了。

為了解決大型模型的這個問題，部署者往往會採用小一些的特定模型來取代。這些小一點的模型用常見範式 —— 微調或是蒸餾來進行訓練。微調使用下游的人類註釋資料升級一個預先訓練過的小模型。蒸餾用較大的 LLM 產生的標籤訓練同樣較小的模型。但很遺憾，這些範式在縮小模型規模的同時也付出了代價：為了達到與 LLM 相當的性能，微調需要昂貴的人類標籤，而蒸餾需要大量很難獲得的無標籤數據。

在一篇題為「Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes」的論文中，來自華盛頓大學、谷歌的研究者引入了一種新的簡單機制— 逐步蒸餾（Distilling step-bystep），用於使用更少的訓練資料來訓練較小的模型。這種機制減少了微調和蒸餾 LLM 所需的訓練資料量，使其有更小的模型規模。

蒸餾也能Step-by-Step：新方法讓小模型也能媲美2000倍體量大模型

#論文連結：https://arxiv.org/pdf/2305.02301 v1.pdf

該機制的核心是換一個角度，將LLM 看作是可以推理的agent，而不是雜訊標籤的來源。 LLM 可以產生自然語言的理由（rationale），這些理由可以用來解釋和支持模型所預測的標籤。例如，當被問及「一位先生攜帶著打高爾夫球的設備，他可能有什麼？(a) 球桿，(b) 禮堂，(c) 冥想中心，(d) 會議，(e) 教堂」，LLM 可以透過思考鏈（CoT）推理回答出「（a）球桿」，並透過說明「答案一定是用來打高爾夫球的東西」來合理化這個標籤。在上述選擇中，只有球桿是用來打高爾夫的。研究者使用這些理由作為額外更豐富的資訊在多任務訓練設定中訓練較小的模型，並進行標籤預測和理由預測。

如圖 1 所示，逐步蒸餾可以學習特定任務的小模型，這些模型的參數量還不到 LLM 的 1/500。與傳統的微調或蒸餾相比，逐步蒸餾使用的訓練範例也少得多。

蒸餾也能Step-by-Step：新方法讓小模型也能媲美2000倍體量大模型

#實驗結果顯示，在4 個NLP 基準中，有三個有希望的實驗結論。

第一，相對於微調和蒸餾，逐步蒸餾模型在各資料集上實現了更好的性能，平均減少了50% 以上的訓練實例（最多可減少85% 以上）。
第二，我們的模型在模型尺寸較小的情況下表現優於LLM（最多可以小到2000 倍），大大降低了模型部署所需的計算成本。
第三，研究在縮減模型尺寸的同時，也減少了超越 LLM 所需的資料量。研究者使用 770M 的 T5 模型超越了 540B 參數的 LLM 的表現。這個較小的模型只使用了現有微調方法 80% 的標記資料集。

當只有未標記的資料時，小模型的表現相比LLM 而言仍然有過之而無不及—— 只用一個11B 的T5 模型就超過了540B 的PaLM 的性能。

該研究進一步表明，當一個較小的模型表現比LLM 差時，與標準的蒸餾方法相比，逐步蒸餾可以更有效地利用額外的無標籤資料來使較小的模型媲美LLM 的性能。

逐步蒸餾

研究者提出了逐步蒸餾這個新範式，是利用LLM 對其預測的推理能力，以數據高效率的方式訓練更小的模型。整體框架如圖 2 所示。

蒸餾也能Step-by-Step：新方法讓小模型也能媲美2000倍體量大模型

#這個範式有兩個簡單的步驟：首先，給定一個LLM 和一個無標籤的資料集，提示LLM 產生輸出標籤以及證明該標籤成立的理由。理由用自然語言解釋，為模型預測的標籤提供支持（見圖 2）。理由是當前自監督 LLM 的一個湧現的行為屬性。

然後，除了任務標籤之外，利用這些理由來訓練更小的下游模型。說白了，理由能提供了更豐富、更詳細的信息，來說明一個輸入為什麼被映射到一個特定的輸出標籤。

實驗結果

研究者在實驗中驗證了逐步蒸餾的有效性。首先，與標準的微調和任務蒸餾方法相比，逐步蒸餾有助於實現更好的效能，訓練實例的數量少得多，大幅提高了學習小型特定任務模型的資料效率。

蒸餾也能Step-by-Step：新方法讓小模型也能媲美2000倍體量大模型

研究表明，逐步蒸餾方法以更小的模型大小超越了LLM 的性能，與llm 相比，大大降低了部署成本。

蒸餾也能Step-by-Step：新方法讓小模型也能媲美2000倍體量大模型

最後，研究者調查了逐步蒸餾方法在超過LLM 的性能方面所需的最低資源，包括訓練範例數量和模型大小。他們展示了逐步蒸餾方法透過使用更少的數據和更小的模型，同時提高了數據效率和部署效率。

蒸餾也能Step-by-Step：新方法讓小模型也能媲美2000倍體量大模型

#########

蒸餾也能Step-by-Step：新方法讓小模型也能媲美2000倍體量大模型

以上是蒸餾也能Step-by-Step：新方法讓小模型也能媲美2000倍體量大模型的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1666

CakePHP 教程

1425

Laravel 教程

1324

PHP教程

1272

C# 教程

1251

Related knowledge

開源！超越ZoeDepth！ DepthFM：快速且精確的單目深度估計！ Apr 03, 2024 pm 12:04 PM

0.這篇文章乾了啥？提出了DepthFM：一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外，DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高，可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題：DepthFM:FastMonocularDepthEstimationwithFlowMatching作者：MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

全球最強開源 MoE 模型來了，中文能力比肩 GPT-4，價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下，一個人工智慧模型，不僅擁有超越傳統運算的能力，還能以更低的成本實現更有效率的效能。這不是科幻，DeepSeek-V2[1]，全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合（MoE）語言模型，具有訓練經濟、推理高效的特點。它由236B個參數組成，其中21B個參數用於啟動每個標記。與DeepSeek67B相比，DeepSeek-V2效能更強，同時節省了42.5%的訓練成本，減少了93.3%的KV緩存，最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI顛覆數學研究！菲爾茲獎得主、華裔數學家領銜11篇頂刊論文｜陶哲軒轉贊 Apr 09, 2024 am 11:52 AM

AI，的確正在改變數學。最近，一直十分關注這個議題的陶哲軒，轉發了最近一期的《美國數學學會通報》（BulletinoftheAmericanMathematicalSociety）。圍繞著「機器會改變數學嗎？」這個話題，許多數學家發表了自己的觀點，全程火花四射，內容硬核，精彩紛呈。作者陣容強大，包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化，要知道，其中許多文章是在一年前提交的，而在這一

替代MLP的KAN，被開源專案擴展到卷積了 Jun 01, 2024 pm 10:03 PM

本月初，來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如，作者表示，他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說，DeepMind的MLP有大約300,000個參數，而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎，MLP基於通用逼近定理，而KAN基於Kolmogorov-Arnold表示定理。如下圖所示，KAN在邊上具

你好，電動Atlas！波士頓動力機器人復活，180度詭異動作嚇到馬斯克 Apr 18, 2024 pm 07:58 PM

波士頓動力Atlas，正式進入電動機器人時代！昨天，液壓Atlas剛「含淚」退出歷史舞台，今天波士頓動力就宣布：電動Atlas上崗。看來，在商用人形機器人領域，波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後，短短十幾小時內，就已經有一百多萬觀看。舊人離去，新角色登場，這是歷史的必然。毫無疑問，今年是人形機器人的爆發年。網友銳評：機器人的進步，讓今年看起來像人類的開幕式動作、自由度遠超人類，但這真不是恐怖片？影片一開始，Atlas平靜地躺在地上，看起來應該是仰面朝天。接下來，讓人驚掉下巴

iPhone上的蜂窩數據網路速度慢：修復 May 03, 2024 pm 09:01 PM

在iPhone上面臨滯後，緩慢的行動數據連線？通常，手機上蜂窩互聯網的強度取決於幾個因素，例如區域、蜂窩網絡類型、漫遊類型等。您可以採取一些措施來獲得更快、更可靠的蜂窩網路連線。修復1–強制重啟iPhone有時，強制重啟設備只會重置許多內容，包括蜂窩網路連線。步驟1–只需按一次音量調高鍵並放開即可。接下來，按降低音量鍵並再次釋放它。步驟2–過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據並檢查網路速度。再次檢查修復2–更改資料模式雖然5G提供了更好的網路速度，但在訊號較弱

特斯拉機器人進廠打工，馬斯克：手的自由度今年將達到22個！ May 06, 2024 pm 04:13 PM

特斯拉機器人Optimus最新影片出爐，已經可以在工廠裡打工了。正常速度下，它分揀電池（特斯拉的4680電池）是這樣的：官方還放出了20倍速下的樣子——在小小的「工位」上，揀啊揀啊揀：這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作，是完全自主的，全程沒有人為的干預。而且在Optimus的視角之下，它還可以把放歪了的電池重新撿起來放置，主打一個自動糾錯：對於Optimus的手，英偉達科學家JimFan給出了高度的評價：Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

FisheyeDetNet：首個以魚眼相機為基礎的目標偵測演算法 Apr 26, 2024 am 11:37 AM

目標偵測在自動駕駛系統當中是一個比較成熟的問題，其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而，利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大，標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述，我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示，並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型，並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

See all articles

蒸餾也能Step-by-Step：新方法讓小模型也能媲美2000倍體量大模型

逐步蒸餾

實驗結果

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題