史上首個100%開源大模型重磅登場!破紀錄公開代碼/權重/資料集/訓練全過程,AMD都能訓
多年來,語言模型一直是自然語言處理(NLP)技術的核心。鑑於模型背後的商業價值龐大,最先進模型的技術細節一直未公開。
現在,真·完全開源的大模型來了!
來自艾倫人工智慧研究所、華盛頓大學、耶魯大學、紐約大學和卡內基梅隆大學的研究人員,最近合作發表了一項重要的工作,這個工作將成為AI開源社群的重要里程碑。
他們幾乎將從零開始訓練一個大模型過程中的一切資料和資料都開源了!
論文:https://allenai.org/olmo/olmo-paper.pdf
權重:https://huggingface.co/allenai/OLMo-7B
程式碼:https://github.com/allenai/OLMo
#資料:https://huggingface.co/datasets/allenai/dolma
#評估:https://github.com/allenai/OLMo-Eval
#適合:https://github.com/allenai/open-instruct
#具體來說,艾倫人工智慧研究所推出的這個開放大語言模型(Open Language Model,OLMo)實驗和訓練平台,則提供了一個完全開源的大模型,以及所有和訓練開發這個模型相關的數據和技術細節——
訓練和建模:它包括完整的模型權重、訓練程式碼、訓練日誌、消融研究、訓練指標和推理程式碼。
預訓練語料:一個包含了高達3T token的預訓練開源語料庫,以及產生這些訓練資料的程式碼。
模型參數:OLMo框架提供了四個不同架構、最佳化器和訓練硬件體系下的7B大小的模型,以及一個1B大小的模型,所有模型都在至少2T token上進行了訓練。
同時,也提供了模型推理的程式碼、訓練過程的各項指標以及訓練日誌。
7B:OLMo 7B、OLMo 7B (not annealed)、OLMo 7B-2T、OLMo-7B-Twin-2T
#評估工具:公開了開發過程中的評估工具套件,包括每個模型訓練過程中每1000 step中包含的超過500個的檢查點以及評估代碼。
所有資料都在apache 2.0下授權使用(免費商用)。
如此徹底的開源,似乎是給開源社群打了個樣——以後不像我這樣開源的,就別說自己是開源模型了。
效能評估
從核心的評估結果來看,OLMo-7B與同類開源模型相比略勝一籌。
在前9項評測中,OLMo-7B有8項排名前三,其中有2項超越了其他所有模型。
在許多生成任務或閱讀理解任務(例如truthfulQA)上,OLMo-7B都超過了Llama 2,但在一些熱門的問答任務(如MMLU或Big-bench Hard )上表現則差一些。
前9個任務是研究者對預訓練模型的內部評估標準,而以下三個任務則是為了完善HuggingFace Open LLM排行榜而加入的
下圖展示了9個核心任務準確率的變化趨勢。
除了OBQA外,隨著OLMo-7B接受更多資料的訓練,幾乎所有任務的準確率都呈現上升趨勢。
與此同時,OLMo 1B與其同類模型的核心評估結果表明,OLMo與它們處於同一水平。
透過使用艾倫AI研究所的Paloma(一個基準測試)和可取得的檢查點,研究人員分析了模型預測語言能力與模型規模因素(例如訓練的token數量)之間的關係。
可以看到,OLMo-7B在效能上與主流模型持平。其中,每位元組比特數(Bits per Byte)越低越好。
透過這些分析,研究人員發現模型在處理不同資料來源時的效率差異較大,這主要取決於模型訓練資料與評估數據的相似度。
特別地,OLMo-7B在主要基於Common Crawl的資料來源上表現出色(例如C4)。
不過,在與網路抓取文字關係不大的資料來源上,如WikiText-103、M2D2 S2ORC和M2D2 Wikipedia,OLMo-7B與其他模型相比效率較低。
RedPajama的評估也反映了類似的趨勢,可能是因為它的7個領域中只有2個來自Common Crawl,且Paloma對每個資料來源中的各個領域給予了相同的權重。
鑑於像Wikipedia和arXiv論文這樣的精選資料來源提供的異質資料遠不如網路抓取文字豐富,隨著預訓練資料集的不斷擴大,維持對這些語言分佈的高效率會很更加困難。
OLMo架構
在模型的架構方面,團隊基於的是decoder-only的Transformer架構,並採用了PaLM和Llama使用的SwiGLU激活函數,引入了旋轉位置嵌入技術(RoPE),並改進了GPT-NeoX-20B的基於字節對編碼(BPE)的分詞器,以減少模型輸出中的個人可識別資訊。
此外,為了確保模型的穩定性,研究人員沒有使用偏移項(這點與PaLM的處理方式相同)。
如下表所示,研究人員已經發布了1B和7B兩個版本,同時也計劃很快推出一個65B的版本。
下表詳細比較了7B架構與這些其他模型在相似規模下的表現。
預訓練資料集:Dolma
雖然研究人員在取得模型參數方面取得了一定的進展,但開源社群目前預訓練資料集的開放程度還遠遠不夠。
之前的預訓練資料往往不會隨著模型的開源而公開(閉源模型就更不用說了)。
而有關這些資料的說明文件也常常缺乏足夠的細節,但是這些細節對於想要復現研究或完全理解相關工作至關重要。
這種情況加大了語言模型研究的難度-例如,了解訓練資料如何影響模型能力和其限制。
為了推動語言模型預訓練領域的開放研究,研究人員建構並公開了預訓練資料集Dolma。
這是一個包含了從 7 個不同資料來源取得的3兆個token的多樣化、多源語料庫。
這些資料來源一方面在大規模語言模型預訓練中常見,另一方面也能被一般大眾所接觸。
下表給出了來自各個資料來源的資料量的概覽。
Dolma的建構過程包括六個步驟:語言過濾、品質過濾、內容過濾、去重、多來源混合和token化。
在整理和最終發布Dolma過程中,研究者確保各資料來源的文件保持獨立。
他們也開源了一套高效的資料整理工具,這套工具能夠幫助進一步研究Dolma、複製成果,並簡化預訓練語料庫的整理工作。
此外,研究人員也開源了WIMBD工具,以協助資料集分析。
網路資料處理流程
程式碼處理流程
訓練OLMo
分散式訓練框架
#研究人員利用PyTorch的FSDP框架和ZeRO優化器策略來訓練模型。這種方法透過將模型的權重和它們對應的最佳化器狀態在多個GPU中進行分割,從而有效減少了記憶體的使用量。
在處理高達7B規模的模型時,這項技術使研究人員能夠在每個GPU上處理4096個token的微批大小,以實現更有效率的訓練。
對於OLMo-1B和7B模型,研究人員固定使用大約4M token(2048個資料實例,每個實例包含2048個token的序列)的全域批次大小。
而對於目前正在訓練中的OLMo-65B模型,研究人員採用了一個批次大小預熱策略,起始於大約2M token(1024個資料實例),之後每增加100B token,批次大小翻倍,直到最終達到約16M token(8192個資料實例)的規模。
為了加快模型訓練的速度,研究人員採用了混合精度訓練的技術,這項技術是透過FSDP的內部配置和PyTorch的amp模組來實現的。
這種方法特別設計,以確保一些關鍵的計算步驟(例如softmax函數)始終以最高精度執行,以確保訓練過程的穩定性。
同時,其他大部分計算則使用稱為bfloat16的半精度格式,以減少記憶體使用並提高計算效率。
在特定配置中,每個GPU上的模型權重和最佳化器狀態都以最高精度儲存。
只有在執行模型的前向傳播和反向傳播,也就是計算模型的輸出和更新權重時,每個Transformer模組內的權重才會暫時轉換為bfloat16格式。
此外,各個GPU間同步梯度更新時,也會以最高精度進行,以確保訓練品質。
優化器
研究人員採用了AdamW優化器來調整模型參數。
無論模型規模大小如何,研究人員都會在訓練初期的5000步(大約處理21B個token)內逐漸增加學習率,這個過程稱為學習率預熱。
預熱結束後,學習率將以線性法則逐漸減少,直到降至最高學習率的十分之一。
此外,研究人員也會對模型參數的梯度進行裁剪,確保其總的 L1 範數不會超過 1.0。
在下表中,研究人員將自己在7B模型規模下的最佳化器配置與近期其他使用AdamW優化器的大型語言模型進行了比較。
資料集
#研究者利用開放資料集Dolma中的一個2T token的樣本,建構了他們的訓練資料集。
研究人員將每篇文檔的token連接起來,每篇文檔的末尾都會加上一個特殊的EOS token,接著將這些token 分成每組2048 個,形成訓練樣本。
這些訓練樣本在每次訓練時都會以相同的方式進行隨機打亂。研究人員也提供了一些工具,使得任何人都可以復原每個訓練批次的具體資料順序和組成。
研究人員已經發布的所有模型至少都經過了一輪(2T token)的訓練。其中一些模型還進行了額外的訓練,即在資料上進行第二輪訓練,但採用了不同的隨機打亂順序。
根據先前的研究,這樣重複使用少量資料的影響是微乎其微的。
英偉達和AMD都要YES!
為了確保程式碼庫能夠同時在英偉達和AMD的GPU上都能高效運行,研究人員選擇了兩個不同的叢集進行了模型訓練測試:
利用LUMI超級計算機,研究人員部署了最多256個節點,每個節點都搭載了4張AMD MI250X GPU,每張GPU 擁有128GB記憶體和800Gbps的資料傳輸速率。
透過MosaicML (Databricks) 的支持,研究人員使用了27個節點,每個節點配備了8張英偉達A100 GPU,每張GPU擁有40GB記憶體和800Gbps的資料傳輸速率。
雖然研究人員為了提高訓練效率對批次大小進行了微調,但在完成2T token的評估後,兩個集群的表現幾乎沒有差異。
訓練能耗
#總結
與以往大多數僅提供模型權重和推理程式碼的模型不同,研究人員開源了OLMo的全部內容,包括訓練資料、訓練和評估程式碼,以及訓練日誌、實驗結果、重要發現以及Weights & Biases的記錄等等。
此外,團隊正在研究如何透過指令優化和不同類型的強化學習(RLHF)來改進OLMo。而這些微調程式碼、資料和經過微調後的模型也會被開源。
研究者致力於持續支持與發展OLMo及其框架,推動開放語言模式(LM)的發展,協助開放研究社群的發展。為此,研究人員計劃引入更多不同規模的模型、多種模態、資料集、安全措施和評估方法,豐富OLMo家族。
他們希望透過今後持續進行的徹底開源工作,增強開源研究社群的力量,並引發新一輪的創新浪潮。
團隊介紹
Yizhong Wang(王義中)
Yizhong Wang是華盛頓大學Paul G. Allen電腦科學與工程學院的博士生,導師是Hannaneh Hajishirzi和Noah Smith。同時,也是艾倫人工智慧研究所的兼任研究實習生。
此前,他曾在Meta AI、微軟研究院和百度NLP進行實習。此前,他在北京大學獲得了碩士學位,並在上海交通大學獲得了學士學位。
他的研究方向是自然語言處理(Natural Language Processing)、機器學習(Machine Learning),以及大語言模型(LLM)。
- LLM的適應性:如何更有效地建構和評估能夠跟隨指令的模型?在微調這些模型時,我們應該考慮哪些因素,它們又如何影響模型的通用性?哪種類型的監督方式既有效又能擴展?
- LLM的持續學習:預訓練與微調之間的界線在哪裡?有哪些架構和學習策略能夠讓LLM在預訓練後繼續進化?模型內部已有的知識如何與新學的知識互動?
- 大規模合成資料的應用:在產生模型快速產生資料的今天,這些資料對我們的模式開發乃至整個網路和社會有何影響?我們如何確保能夠在大規模下產生多樣且高品質的數據?我們能否區分這些數據與人類生成的數據?
Yuling Gu
#Yuling Gu是艾倫人工智慧研究所(AI2)Aristo團隊的一位研究員。
2020年,她在紐約大學(NYU)獲得學士學位。除了主修的電腦科學外,她還輔修了一個跨學科專業——語言與心智,這個主修結合了語言學、心理學和哲學。隨後,她在華盛頓大學(UW)獲得了碩士學位。
她對機器學習的技術和認知科學的理論的融合應用充滿了熱情。
以上是史上首個100%開源大模型重磅登場!破紀錄公開代碼/權重/資料集/訓練全過程,AMD都能訓的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

在iPhone上面臨滯後,緩慢的行動數據連線?通常,手機上蜂窩互聯網的強度取決於幾個因素,例如區域、蜂窩網絡類型、漫遊類型等。您可以採取一些措施來獲得更快、更可靠的蜂窩網路連線。修復1–強制重啟iPhone有時,強制重啟設備只會重置許多內容,包括蜂窩網路連線。步驟1–只需按一次音量調高鍵並放開即可。接下來,按降低音量鍵並再次釋放它。步驟2–過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據並檢查網路速度。再次檢查修復2–更改資料模式雖然5G提供了更好的網路速度,但在訊號較弱

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

哭死啊,全球狂煉大模型,一網路的資料不夠用,根本不夠用。訓練模型搞得跟《飢餓遊戲》似的,全球AI研究者,都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中,這問題尤其突出。一籌莫展之際,來自人大系的初創團隊,用自家的新模型,率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下,兩側都能產生高品質、多模態的新數據,對模型本身進行數據反哺。模型是啥?中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰?智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立,高

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

最近,軍事圈被這個消息刷屏了:美軍的戰鬥機,已經能由AI完成全自動空戰了。是的,就在最近,美軍的AI戰鬥機首次公開,揭開了神秘面紗。這架戰鬥機的全名是可變穩定性飛行模擬器測試飛機(VISTA),由美空軍部長親自搭乘,模擬了一對一的空戰。 5月2日,美國空軍部長FrankKendall在Edwards空軍基地駕駛X-62AVISTA升空注意,在一小時的飛行中,所有飛行動作都由AI自主完成! Kendall表示——在過去的幾十年中,我們一直在思考自主空對空作戰的無限潛力,但它始終顯得遙不可及。然而如今,
