Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓練最快選擇
Google力推的JAX在最近的基準測試中效能已經超過Pytorch和TensorFlow,7項指標排名第一。
而且測試並不是JAX效能表現最好的TPU上完成的。
雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。
但未來,也許有更多的大模型會基於JAX平台進行訓練和運行。
模型
最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras 2進行了基準測試。
首先,他們為生成式和非生成式人工智慧任務選擇了一組主流的電腦視覺和自然語言處理模型:
對於模型的Keras版本,其採用了KerasCV和KerasNLP中已有的實作進行建構。而對於原生的PyTorch版本,則選擇了網路上最受歡迎的幾個選項:
- 來自HuggingFace Transformers的BERT、Gemma、Mistral
#- 來自HuggingFace Diffusers的StableDiffusion
- 來自Meta的SegmentAnything
#他們將這組模型稱為「Native PyTorch」,以便與使用PyTorch後端的Keras 3版本進行區分。
他們對所有基準測試都使用了合成數據,並在所有LLM訓練和推理中使用了bfloat16精度,同時在所有LLM訓練中使用了LoRA(微調)。
根據PyTorch團隊的建議,他們在原生PyTorch實作中使用了torch.compile(model, mode="reduce-overhead")(由於不相容,Gemma和Mistral訓練除外)。
為了衡量開箱即用的效能,他們使用高階API(例如HuggingFace的Trainer()、標準PyTorch訓練循環和Keras model.fit()),並盡可能減少配置。
硬體配置
所有基準測試都使用Google Cloud Compute Engine進行,配置為:一塊擁有40GB記憶體的NVIDIA A100 GPU、12個虛擬CPU和85GB的主機記憶體。
基準測試結果
表2顯示了基準測試結果(以步/毫秒為單位)。每個步驟都涉及對單一資料批次進行訓練或預測。
結果是100步的平均值,但排除了第一步,因為第一步包括了模型創建和編譯,這會額外花費時間。
為了確保比較的公平性,對於相同的模型和任務(不論是訓練還是推理)都使用相同的批次大小。
然而,對於不同的模型和任務,由於它們的規模和架構有所不同,可根據需要調整資料批大小,從而避免因過大而導致記憶體溢出,或是批過小而導致GPU使用不足。
過小的批次大小也會使PyTorch看起來較慢,因為會增加Python的開銷。
對於大型語言模型(Gemma和Mistral),測試時也使用了相同的批次大小,因為它們是相同類型的模型,具有類似數量的參數(7B)。
考慮到使用者對單批文字產生的需求,也對批次大小為1的文字產生情況進行了基準測試。
關鍵發現
發現1
#不存在「最優」後端。
Keras的三種後端各展所長,重要的是,就效能而言,並沒有哪一個後端能夠始終勝出。
選擇哪個後端最快,往往取決於模型的架構。
這一點突顯了選擇不同框架以追求最佳效能的重要性。 Keras 3可以協助輕鬆切換後端,以便為模型找到最合適的選擇。
發現2
#Keras 3的效能普遍超過PyTorch的標準實作。
相對於原生PyTorch,Keras 3在吞吐量(步/毫秒)上有明顯的提升。
特別是,在10個測試任務中,有5個的速度提升超過了50%。其中,最高更是達到了290%。
如果是100%,表示Keras 3的速度是PyTorch的2倍;如果是0%,則表示兩者效能相當
發現3
Keras 3提供一流的「開箱即用」效能。
也就是,所有參與測試的Keras模型都未進行過任何最佳化。相較之下,使用原生PyTorch實作時,通常需要使用者自行進行更多效能最佳化。
除了上面分享的數據,測試中還注意到在HuggingFace Diffusers的StableDiffusion推理功能上,從版本0.25.0升級到0.3.0時,性能提升超過了100% 。
同樣,在HuggingFace Transformers中,Gemma從4.38.1版本升級至4.38.2版本也顯著提高了效能。
這些效能的提升凸顯了HuggingFace在效能優化上的專注與努力。
對於一些手動最佳化較少的模型,如SegmentAnything,則使用了研究作者提供的實作。在這種情況下,與Keras相比,效能差距比大多數其他型號更大。
這表明,Keras能夠提供卓越的開箱即用效能,使用者無需深入了解所有最佳化技巧即可享受到快速的模型運行速度。
發現4
#Keras 3的表現總是優於Keras 2。
例如,SegmentAnything的推理速度提升了驚人的380%,StableDiffusion的訓練處理速度提升了150%以上,BERT的訓練處理速度也提升了100%以上。
這主要是因為Keras 2在某些情況下直接使用了更多的TensorFlow融合操作,而這可能對於XLA的編譯並不是最佳選擇。
值得注意的是,即使只升級到Keras 3並繼續使用TensorFlow後端,也能顯著提升效能。
結論
框架的表現在很大程度上取決於具體使用的模型。
Keras 3能夠幫助為任務選擇最快的框架,這種選擇幾乎總是超越Keras 2和PyTorch實作。
更為重要的是,Keras 3模型無需進行複雜的底層最佳化,即可提供卓越的開箱即用效能。
以上是Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓練最快選擇的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

在iPhone上面臨滯後,緩慢的行動數據連線?通常,手機上蜂窩互聯網的強度取決於幾個因素,例如區域、蜂窩網絡類型、漫遊類型等。您可以採取一些措施來獲得更快、更可靠的蜂窩網路連線。修復1–強制重啟iPhone有時,強制重啟設備只會重置許多內容,包括蜂窩網路連線。步驟1–只需按一次音量調高鍵並放開即可。接下來,按降低音量鍵並再次釋放它。步驟2–過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據並檢查網路速度。再次檢查修復2–更改資料模式雖然5G提供了更好的網路速度,但在訊號較弱

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

寫在前面項目連結:https://nianticlabs.github.io/mickey/給定兩張圖片,可以透過建立圖片之間的對應關係來估計它們之間的相機姿態。通常,這些對應關係是二維到二維的,而我們估計的姿態在尺度上是不確定的。一些應用,例如隨時隨地實現即時增強現實,需要尺度度量的姿態估計,因此它們依賴外部的深度估計器來恢復尺度。本文提出了MicKey,這是一個關鍵點匹配流程,能夠夠預測三維相機空間中的度量對應關係。透過學習跨影像的三維座標匹配,我們能夠在沒有深度測試的情況下推斷度量相對
