首頁 科技週邊 人工智慧 10萬美元+26天,一個低成本千億參數LLM就誕生了

10萬美元+26天,一個低成本千億參數LLM就誕生了

Sep 20, 2023 pm 03:49 PM
大模型 理論

包括僅解碼器結構(如GPT 和LLAMA 系列模型)、僅編碼器結構(如BERT)和編碼器- 解碼器結構(如T5)以及它們的變體模型在內的大型語言模型(LLM )已經取得了非凡的成功,並已被廣泛用於各種語言處理和多模態任務。

儘管如此成功,訓練 LLM 的成本還是太高昂,以至於只有少數公司能承受其訓練成本。此外,目前的趨勢說明未來還會使用更大規模的訓練數據,這將進一步推升大模型的研發成本。舉個例子,LLAMA-1 訓練使用了 1-1.4 TB token,而 Llama 2 則是達到了 2 TB。

研發 LLM 的另一個大關鍵性挑戰是評估。主流的評估方法分為兩類:知識評估(MMLU 和 C-Eval)和 NLP 任務評估。這些評估方法可能無法真實反映模型的能力,因為也許存在資料外洩問題,即評估資料集中某些部分可能在模型訓練過程中已被使用。此外,知識導向的評估方法可能不足以評估智能等級。一種更公平客觀的評估方法是測 LLM 的智商(IQ),即將 LLM 泛化用於未在訓練資料中見過的條件和上下文。

成長策略。為了解決訓練成本難題,北京智源人工智慧研究院和中國科學院計算技術研究所等多所機構近日做出了一番嘗試 —— 首次透過成長策略(growth strategy)訓練千億參數級的 LLM。成長意味著訓練過程中參數的數量並不固定,而是會從較小的模型擴增成大型模型。

10萬美元+26天,一個低成本千億參數LLM就誕生了

  • 論文:https://arxiv.org/pdf/2309.03852.pdf

  • 需要重寫的內容是:模型連結:https://huggingface.co/CofeAI/FLM-101B

圖1 展示了成長策略的三種典型場景。由於 LLM 的 FLOPs 大致與其參數數量成正比,因此模型參數的變化曲線與 X 軸之間的面積便能表示訓練的計算成本。

10萬美元+26天,一個低成本千億參數LLM就誕生了


圖1 (a) 展示了沒有模型成長的標準訓練策略;1 (b) 是直線型的成長策略,其能節省50% 的成本;1 (c)是一種適量型的成長策略,其節省的成本不到50%;1 (d) 則是一種激進型的成長策略,能節省超過50% 的成本。這項分析說明,為了盡可能節省運算成本,應採用激進型成長策略。

這項新研究的成長算子的設計靈感來自論文《2x faster language model pre-training via masked structural growth》中的MSG,這是一個完整的運算集,涵蓋Transformer 結構的所有四個成長維度。更重要的是,MSG 能在成長的同時嚴格地保存功能。因此,雖然小模型可以透過較小的參數搜尋空間快速學習,但其知識可以被後續更大的模型繼承。這讓成長策略有可能使用相同或更少的運算成本來實現更好的效能。

開源的 FLM-101B 模型。智源研究院的研究者透過逐步成長訓練了一個有 1,010 億參數的 LLM 模型,他們也表示會開源發布該模型。此模型的架構是 FreeLM 的一種演進版。因此,研究者將其命名為 FLM-101B,其中 F 表示 Free。

FreeLM 架構有兩個預訓練目標,分別由語言訊號和教師訊號引導。在這項新研究中,這兩個目標被統一到了一個通用語言建模範式。

IQ 評估基準。除了低成本的訓練範式,團隊還做出了另一項貢獻,即為 LLM 的智商(IQ)評估提出了一套系統性的基準。

先前已有研究顯示:儘管困惑度(PPL)指標能在某種程度上反映生成文本的質量,但卻不可靠。另一方面,LLM 的訓練數據規模非常龐大,以至於我們難以辨別模型究竟只是在引述知識數據,還是真的實現了類似人類的推理、分析和概括能力,而這些能力正是這項研究定義IQ的基礎。一些常用的評估指標(用於英語的 MMLU 和用於漢語的 C-Eval)明顯是面向知識的,無法全面反映模型的智慧程度。

為了進行完整性檢查,該團隊進行了一項測試:來自世界知名大學的五名電腦科學研究者使用C-Eval 的化學試題進行了考試。結果發現他們的準確度幾乎相當於隨機亂猜,因為大多數志願者都已經忘記曾經學過的化學知識。因此,強調對專業知識的了解程度的評估基準其實不足以衡量模型的 IQ。

為了全面衡量LLM 的IQ,該團隊開發了一個IQ 評估基準,其中考慮了智商的四個關鍵方面:符號映射、規則理解、模式挖掘和抗干擾。
  • 語言本質上是符號的。已經有一些研究在使用符號而非類別標籤來評估 LLM 的智慧程度。類似地,團隊使用了一種符號映射方法來測試 LLM 在未曾見過的上下文上的泛化能力。 

  • 人類智慧的一大重要能力是理解給定的規則並採取相應的行動。這種測試方法已被廣泛地用在各種等級的測驗中。因此,規則理解成為這裡的第二項測試。 

  • 重寫後的內容:模式挖掘是智慧的重要組成部分,它涉及歸納和演繹。在科學發展歷史中,這種方法扮演著至關重要的角色。此外,各種競賽的測試題也常常需要這種能力才能解答。基於這些原因,我們選擇了模式挖掘作為第三個評估指標

  • 最後一個也很重要的指標是抗干擾能力,這也是智慧的核心能力之一。已有研究指出,語言和影像都很容易被雜訊幹擾。考慮到這一點,團隊把抗干擾用作了最後一個評估指標。

當然,這四個指標絕非LLM IQ 評估的定案,但它們可作為一個起點,激勵後續的研究發展,並有望最終催生出一套全面的LLM IQ 評估框架。

這項研究的主要貢獻包括: 
  • 研究者表示,這是一個使用成長策略從頭開始訓練超過千億參數的LLM研究嘗試。同時,這也是目前成本最低的千億參數模型,只需10萬美元成本

  • #透過改進FreeLM 訓練目標、有潛力的超參數搜尋方法和功能保留型成長,這項研究解決了不穩定問題。研究者相信此方法也能為更廣大的科學研究社群提供助力。 

  • 研究人員也對新模型與先前的強大模型進行了實驗比較,包括使用知識導向的基準和新提出的系統性IQ評估基準。實驗結果顯示,FLM-101B模型具有競爭力且穩健

  • 團隊會發布模型檢查點、程式碼、相關工具等,以推進千億參數規模的漢語和英語雙語 LLM 的研究開發。

FLM-101B 設計概況

從架構上看,FLM-101B 以FreeLM 為骨幹網絡,並整合了xPos。在模型大小方面,由於新的成長策略,研究者能在一次訓練中得到 16B、51B 和 101B 三種大小的模型。

至於預訓練設置,FLM-101B 繼承了 FreeLM 的訓練策略。

而在成長策略方面,不同於獨立訓練不同大小模型的常用實踐方法,該團隊可以依次訓練具有16B、51B 和101B 參數的三個模型,其中每個模型都會繼承其前一個較小模型的知識。

至於訓練硬件,則是使用了24 台DGX-A800 GPU (8×80G) 伺服器組成的集群;FLM-101B 的訓練時長不到26 天更多重並行策略和模型配置請參考下表1 和2。

10萬美元+26天,一個低成本千億參數LLM就誕生了

10萬美元+26天,一個低成本千億參數LLM就誕生了

FLM-101B 的訓練穩定性

##為了解決損失發散和梯度暴增等不穩定問題,研究者提出了一個相當有潛力的解決方案,簡述如下。

損失預測。新提出的實現訓練穩定的方法如下:

首先,在 FLM-16B 訓練開始之前先確定資料的分佈。

接下來,對三個超參數進行網格搜索,包括學習率、初始化標準差和輸出層的 softmax 溫度。此網格搜尋的執行是透過運行一個代理模型,其隱藏狀態維度(即模型寬度)為 256、頭數為 2,參數數量為 4,000 萬。此代理模型的其它所有結構超參數和訓練資料與 FLM-16B 相同。在 6 個節點上使用資料並行時,一次運行網格搜尋耗時為 24.6 小時,這大致表示:如果使用 24 節點的配置,那麼運行一次需要 6 小時。

透過這個網格搜索,研究者找到了最優的超參數:學習率= 4e-4、標準差= 1.6e-2、softmax 溫度= 2.0。

然後他們透過 µP 遷移這些超參數,能實現規避了不穩定問題的無縫訓練體驗。再組合使用 MSG,LM-51B 和 FLM-101B 也沒出現後續的成長發散問題。

圖 2 展示了完整的訓練損失曲線。

10萬美元+26天,一個低成本千億參數LLM就誕生了

透過 Bfloat16 實現混合精度。使用混合精度的目的是節省運行時的記憶體和時間成本,這裡他們選擇的是 Bfloat16。
 
基準評估

表3 比較了FLM-101B 與其它強大基準模型(LLAMA 系列模型和GLM-130B)的性能表現。

10萬美元+26天,一個低成本千億參數LLM就誕生了

研究者表示,這些結果說明FLM-101B 在事實性知識方面並沒有任何優勢,而如果能使用更多訓練數據,那麼其性能還會繼續提升。

表 4 展示了 eFLM-16B 與基準模型在專業知識評估方面的結果。

10萬美元+26天,一個低成本千億參數LLM就誕生了

結果證明,在強調專業知識的資料集上的分數並不能反映 LLM 的智慧水平,因為某些特定訓練資料可能具有壓倒性的貢獻。

表 5 給出了 FLM 模型每一階段的效能表現。

10萬美元+26天,一個低成本千億參數LLM就誕生了

如預期的那樣,FLM 的性能表現會隨模型增大而提升。 FLM-101B 幾乎在所有任務上都表現最佳。這意味著該模型每一次增長後都會繼承前一階段的知識。
 
IQ 實驗

#實驗中,為了對LLM 的IQ 進行更系統性的評估,智源研究院的這個團隊使用了現有的IQ 相關資料集並做了一些必要的修改,他們也產生了一些新的合成資料。

具體來說,他們提出的 IQ 評估主要考慮了四個面向:符號映射、規則理解、模式挖掘和抗干擾。這些任務有一個關鍵的共同點:它們全都依賴在新的脈絡中進行推理和泛化。

下面幾張表格展示了IQ 實驗的結果:

10萬美元+26天,一個低成本千億參數LLM就誕生了

10萬美元+26天,一個低成本千億參數LLM就誕生了

10萬美元+26天,一個低成本千億參數LLM就誕生了

從這些表格來看,在這四個IQ 評估基準上,FLM-101B 憑藉著低得多的計算成本取得了與GPT-3 媲美且優於GLM-130B 的結果。

除了訓練資料的影響外,研究者推測這種優勢可能是由於早期階段的小模型細化了較小的搜尋空間,當模型變得更大更寬,泛化能力增強時,這種優勢還在持續發揮作用。

以上是10萬美元+26天,一個低成本千億參數LLM就誕生了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1658
14
CakePHP 教程
1415
52
Laravel 教程
1309
25
PHP教程
1257
29
C# 教程
1231
24
大模型App騰訊元寶上線!混元再升級,打造可隨身攜帶的全能AI助理 大模型App騰訊元寶上線!混元再升級,打造可隨身攜帶的全能AI助理 Jun 09, 2024 pm 10:38 PM

5月30日,騰訊宣布旗下混元大模型全面升級,基於混元大模型的App「騰訊元寶」正式上線,蘋果及安卓應用程式商店皆可下載。相較於先前測試階段的混元小程式版本,面向工作效率場景,騰訊元寶提供了AI搜尋、AI總結、AI寫作等核心能力;面向日常生活場景,元寶的玩法也更加豐富,提供了多個特色AI應用,並新增了創建個人智能體等玩法。 「騰訊做大模型不爭一時之先。」騰訊雲副總裁、騰訊混元大模型負責人劉煜宏表示:「過去的一年,我們持續推進騰訊混元大模型的能力爬坡,在豐富、海量的業務場景中打磨技術,同時洞察用戶的真實需求

位元組跳動豆包大模型發布,火山引擎全端 AI 服務協助企業智慧轉型 位元組跳動豆包大模型發布,火山引擎全端 AI 服務協助企業智慧轉型 Jun 05, 2024 pm 07:59 PM

火山引擎總裁譚待企業要做好大模型落地,面臨模型效果、推理成本、落地難度的三大關鍵挑戰:既要有好的基礎大模型做支撐,解決複雜難題,也要有低成本的推理服務讓大模型廣泛應用,還要更多工具、平台和應用程式幫助企業做好場景落地。 ——譚待火山引擎總裁01.豆包大模型首次亮相大使用量打磨好模型模型效果是AI落地最關鍵的挑戰。譚待指出,只有大的使用量,才能打磨出好模型。目前,豆包大模型日均處理1,200億tokens文字、生成3,000萬張圖片。為助力企業做好大模型場景落地,位元組跳動自主研發的豆包大模型將透過火山

突破傳統缺陷檢測的界限,\'Defect Spectrum\'首次實現超高精度豐富語意的工業缺陷檢測。 突破傳統缺陷檢測的界限,\'Defect Spectrum\'首次實現超高精度豐富語意的工業缺陷檢測。 Jul 26, 2024 pm 05:38 PM

在現代製造業中,精準的缺陷檢測不僅是確保產品品質的關鍵,更是提升生產效率的核心。然而,現有的缺陷檢測資料集常常缺乏實際應用所需的精確度和語意豐富性,導致模型無法辨識特定的缺陷類別或位置。為了解決這個難題,由香港科技大學廣州和思謀科技組成的頂尖研究團隊,創新地開發了「DefectSpectrum」資料集,為工業缺陷提供了詳盡、語義豐富的大規模標註。如表一所示,相較於其他工業資料集,「DefectSpectrum」資料集提供了最多的缺陷標註(5438張缺陷樣本),最細緻的缺陷分類(125個缺陷類別

英偉達對話模式ChatQA進化到2.0版本,上下文長度提到128K 英偉達對話模式ChatQA進化到2.0版本,上下文長度提到128K Jul 26, 2024 am 08:40 AM

開放LLM社群正是百花齊放、競相爭鳴的時代,你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等許多表現優良的模型。但是,相較於以GPT-4-Turbo為代表的專有大模型,開放模型在許多領域仍有明顯差距。在通用模型之外,也有一些專精關鍵領域的開放模型已被開發出來,例如用於程式設計和數學的DeepSeek-Coder-V2、用於視覺-語言任務的InternVL

數百萬晶體資料訓練,解決晶體學相位問題,深度學習方法PhAI登Science 數百萬晶體資料訓練,解決晶體學相位問題,深度學習方法PhAI登Science Aug 08, 2024 pm 09:22 PM

編輯|KX時至今日,晶體學所測定的結構細節和精度,從簡單的金屬到大型膜蛋白,是任何其他方法都無法比擬的。然而,最大的挑戰——所謂的相位問題,仍然是從實驗確定的振幅中檢索相位資訊。丹麥哥本哈根大學研究人員,開發了一種解決晶體相問題的深度學習方法PhAI,利用數百萬人工晶體結構及其相應的合成衍射數據訓練的深度學習神經網絡,可以產生準確的電子密度圖。研究表明,這種基於深度學習的從頭算結構解決方案方法,可以以僅2埃的分辨率解決相位問題,該分辨率僅相當於原子分辨率可用數據的10%到20%,而傳統的從頭算方

GoogleAI拿下IMO奧數銀牌,數學推理模型AlphaProof面世,強化學習 is so back GoogleAI拿下IMO奧數銀牌,數學推理模型AlphaProof面世,強化學習 is so back Jul 26, 2024 pm 02:40 PM

對AI來說,奧數不再是問題了。本週四,GoogleDeepMind的人工智慧完成了一項壯舉:用AI做出了今年國際數學奧林匹克競賽IMO的真題,並且距拿金牌僅一步之遙。上週剛結束的IMO競賽共有六道賽題,涉及代數、組合學、幾何和數論。谷歌提出的混合AI系統做對了四道,獲得28分,達到了銀牌水準。本月初,UCLA終身教授陶哲軒剛剛宣傳了百萬美元獎金的AI數學奧林匹克競賽(AIMO進步獎),沒想到7月還沒過,AI的做題水平就進步到了這種水平。 IMO上同步做題,做對了最難題IMO是歷史最悠久、規模最大、最負

工業知識圖譜進階實戰 工業知識圖譜進階實戰 Jun 13, 2024 am 11:59 AM

一、背景簡介首先來介紹雲問科技的發展歷程。雲問科技公...2023年,正是大模型盛行的時期,很多企業認為已經大模型之後圖譜的重要性大大降低了,之前研究的預置的資訊化系統也都不重要了。不過隨著RAG的推廣、資料治理的盛行,我們發現更有效率的資料治理和高品質的資料是提升私有化大模型效果的重要前提,因此越來越多的企業開始重視知識建構的相關內容。這也推動了知識的建構和加工開始向更高層次發展,其中有許多技巧和方法可以挖掘。可見一個新技術的出現,並不是將所有的舊技術打敗,也有可能將新技術和舊技術相互融合後

PRO | 為什麼基於 MoE 的大模型更值得關注? PRO | 為什麼基於 MoE 的大模型更值得關注? Aug 07, 2024 pm 07:08 PM

2023年,幾乎AI的每個領域都在以前所未有的速度進化,同時,AI也不斷地推動著具身智慧、自動駕駛等關鍵賽道的技術邊界。在多模態趨勢下,Transformer作為AI大模型主流架構的局面是否會撼動?為何探索基於MoE(專家混合)架構的大模型成為業界新趨勢?大型視覺模型(LVM)能否成為通用視覺的新突破? ……我們從過去的半年發布的2023年本站PRO會員通訊中,挑選了10份針對以上領域技術趨勢、產業變革進行深入剖析的專題解讀,助您在新的一年裡為大展宏圖做好準備。本篇解讀來自2023年Week50

See all articles