模型合併就進化,直接拿下SOTA! Transformer作者創業新成果火了
把Huggingface上的現成模型拿來「攢一攢」—
直接就能組合出新的強大模型? !
日本大模型公司sakana.ai腦洞大開(正是「Transformer八子」之一所創辦的公司),想出了這麼一個進化合併模型的妙招。
該方法不僅能自動產生新的基礎模型,而且效能絕不賴:
他們利用一個包含70億個參數的日文數學大型模型,在相關基準測試中取得了最先進的結果,超越了700億參數的Llama-2等先前模型。
最重要的是,得出這樣的模型不需要任何梯度訓練,因此所需的運算資源大幅減少。
英偉達科學家Jim Fan看完大讚:
這是我最近讀過的最有想像的論文之一。
合併演化,自動產生新基礎模型
從開源大模型排行榜上表現最好的模型,大多不再是LLaMA或Mistral這種「原始」模型,而是一些微調或合併模型之後,我們就能看出:
一種新的趨勢出現了。
Sakana.ai介紹,開源基礎模型很容易在數百個不同的方向上擴展和微調,然後產生在新的領域表現出色的新模型。
而在這之中,模型合併顯現出了巨大前景。
但,它可能是一種“黑魔法”,嚴重依賴直覺和專業知識。
因此,我們需要更為系統性的方法。
受自然界的自然選擇啟發,Sakana.ai盯上了演化演算法,引入「演化模型合併」(Evolutionary Model Merge)的概念,提出一種可以發現最佳模型組合的通用方法。
此方法結合了兩種不同的想法:
(1)合併資料流空間(層)中的模型,以及(2)合併參數空間(權重)中的模型。
具體而言,第一種資料流空間方法是透過演化來發現不同模型層的最佳組合,以此形成新模型。
在社區以往的做法中,都是靠直覺來決定如何以及模型哪些層可以與另一個模型的層結合。
但其實,Sakana.ai介紹,這個問題有一個組合數量龐大的搜尋空間,最適合由最佳化演算法如演化演算法來搜尋。
其操作範例如下:
至於第二個參數空間方法則混合多個模型權重來形成新模型。
這種方法其實很無數種實現,再加上混合的每一層原則上可以使用不同的混合比例,就更多了。
而這,利用演化方法就可以有效找出更為新穎的混合策略。
以下是將兩個不同模型的權重進行混合得到新模型的操作範例:
#將以上這兩種方法合併,就是這樣的:
作者介紹,他們希望在相距較遠的領域,例如數學和非英語語言、視覺和非英語語言,來組成之前大家不曾探索過的新興組合。
結果,還真有點讓人驚喜。
新模型輕鬆拿下SOTA
用以上演化合併方法,團隊得到了3個基礎模型:
- 大語言模型EvoLLM-JP
由日文大模型Shisa-Gamma和數學大模型WizardMath/Abel合併而成,擅長解決日文數學問題,進化了100-150代。
- 視覺語言模型EvoVLM-JP
日文大模型Shisa Gamma 7B v1 LLaVa-1.6-Mistral-7B ,是具有日語能力的VLM。
- 映像產生模型EvoSDXL-JP
#支援日文的SDXL擴散模型。
前兩個已在Hugging Face和GitHub上發布,最後一個也即將推出。
具體來看。
1、EvoLLM-JP
它在GSM8K資料集的多語言版本-MGSM的日文評估集上取得成績如下:
可以看到,EvoLLM-JP用日文解決數學問題的表現超過了它們的原始模型,也超過了Llama-2、GPT-3.5等高效能模型。
其中模型4是僅在參數空間進行了最佳化,模型6是使用模型4在資料流空間中進一步優化的結果。
在既評估數據能力也評估一般日語能力的日語lm-evaluation-harness基準上,EvoLLM-JP則在9個任務上的平均得分最高達到了70.5——只用70億參數,它就打敗了700億的Llama-2等模型。
團隊表示,EvoLLM-JP已經足夠優秀,可以作為通用日語大模型,並解決一些有趣的例子:
例如需要特定日本文化知識的數學問題,或用關西方言講日本笑話。
2、EvoVLM-JP
在以下兩個影像問答的基準資料集上,分數越高,代表模型用日文回答的描述越準確。
結果,它不僅比其所基於的英語VLM LLaVa-1.6-Mistral-7B更出色,也比現有的日語VLM更厲害。
如下圖所示,在回答圖中的訊號燈為何顏色之時,只有EvoVLM-JP答對:藍色。
3、EvoSDXL-JP
這個支援日文的SDXL模型只需4個擴散模型即可執行推理,生成速度相當快。
具體跑分還沒出來,但團隊透露也是「相當有希望的」。
可以欣賞一些例子:
提示詞包括:味噌ラーメン、最高品質の浮世絵、葛飾北斎、江戸時代。
對於以上3個新模型,團隊指出:
原則上,我們可以採用基於梯度的反向傳播來進一步提高以上這些模型的性能。
但我們不用,因為現在的目的是表明,即使沒有反向傳播,我們仍然可以得到足夠先進的基礎模型,挑戰當前的「昂貴範式」。
對此,網友們紛紛按讚。
Jim Fan也補充:
在基礎模型領域,目前社群幾乎完全專注於讓模型去學習,而不太重視搜尋# ,但後者在訓練(也就是本文提出的演化演算法)和推理階段其實都有巨大的潛力。
△馬斯克按讚
所以,如網友所說:
我們現在已經處於模型的寒武紀大爆發時代了嗎?
論文網址:https://arxiv.org/abs/2403.13187
以上是模型合併就進化,直接拿下SOTA! Transformer作者創業新成果火了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

DDREASE是一種用於從檔案或區塊裝置(如硬碟、SSD、RAM磁碟、CD、DVD和USB儲存裝置)復原資料的工具。它將資料從一個區塊設備複製到另一個區塊設備,留下損壞的資料區塊,只移動好的資料區塊。 ddreasue是一種強大的恢復工具,完全自動化,因為它在恢復操作期間不需要任何干擾。此外,由於有了ddasue地圖文件,它可以隨時停止和恢復。 DDREASE的其他主要功能如下:它不會覆寫恢復的數據,但會在迭代恢復的情況下填補空白。但是,如果指示工具明確執行此操作,則可以將其截斷。將資料從多個檔案或區塊還原到單

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

在iPhone上面臨滯後,緩慢的行動數據連線?通常,手機上蜂窩互聯網的強度取決於幾個因素,例如區域、蜂窩網絡類型、漫遊類型等。您可以採取一些措施來獲得更快、更可靠的蜂窩網路連線。修復1–強制重啟iPhone有時,強制重啟設備只會重置許多內容,包括蜂窩網路連線。步驟1–只需按一次音量調高鍵並放開即可。接下來,按降低音量鍵並再次釋放它。步驟2–過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據並檢查網路速度。再次檢查修復2–更改資料模式雖然5G提供了更好的網路速度,但在訊號較弱

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

多模態文件理解能力新SOTA!阿里mPLUG團隊發布最新開源工作mPLUG-DocOwl1.5,針對高解析度圖片文字辨識、通用文件結構理解、指令遵循、外部知識引入四大挑戰,提出了一系列解決方案。話不多說,先來看效果。複雜結構的圖表一鍵識別轉換為Markdown格式:不同樣式的圖表都可以:更細節的文字識別和定位也能輕鬆搞定:還能對文檔理解給出詳細解釋:要知道,“文檔理解”目前是大語言模型實現落地的一個重要場景,市面上有許多輔助文檔閱讀的產品,有的主要透過OCR系統進行文字識別,配合LLM進行文字理

哭死啊,全球狂煉大模型,一網路的資料不夠用,根本不夠用。訓練模型搞得跟《飢餓遊戲》似的,全球AI研究者,都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中,這問題尤其突出。一籌莫展之際,來自人大系的初創團隊,用自家的新模型,率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下,兩側都能產生高品質、多模態的新數據,對模型本身進行數據反哺。模型是啥?中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰?智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立,高
