英偉達打臉AMD:H100在軟體加持下,AI效能比MI300X快47%!

WBOY
發布: 2023-12-15 18:15:12
轉載
1300 人瀏覽過

英偉達打臉AMD:H100在軟體加持下,AI效能比MI300X快47%!

12月14日消息,AMD於本月初推出了其最強的AI晶片Instinct MI300X,其8-GPU伺服器的AI性能比英偉達H100 8-GPU高出了60%。對此,英偉達於近日發布了一組最新的H100與MI300X的性能對比數據,展示了H100如何使用正確的軟體提供比MI300X更快的AI性能。

根據AMD先前發表的數據顯示,MI300X的FP8/FP16性能都達到了英偉達(NVIDIA)H100的1.3倍,運行Llama 2 70B和FlashAttention 2 模型的速度比H100均快了20%。在8v8 伺服器中,運行Llama 2 70B模型,MI300X比H100快了40%;運行Bloom 176B模型,MI300X比H100快了60%。

但是,需要指出的是,AMD在將MI300X 與英偉達H100 進行比較時,AMD使用了最新的ROCm 6.0 套件中的優化庫(可支援最新的計算格式,例如FP16、Bf16 和FP8,包括Sparsity等),才得到了這些數字。相較之下,對於英偉達H100則並未沒有使用英偉達的 TensorRT-LLM 等優化軟體加持情況下進行測試。

AMD對英偉達H100測試的隱含聲明顯示,使用vLLM v.02.2.2推理軟體和英偉達DGX H100系統,Llama 2 70B查詢的輸入序列長度為2048,輸出序列長度為128

#英偉達最新發布的對於DGX H100(帶有8個NVIDIA H100 Tensor Core GPU,帶有80 GB HBM3)的測試結果顯示,使用了公開的NVIDIA TensorRT LLM軟體,其中v0.5.0用於Batch-1測試,v0.6.1用於延遲閾值測量。測試的工作量詳細資訊與先前進行的AMD測試相同

英偉達打臉AMD:H100在軟體加持下,AI效能比MI300X快47%!

根據結果顯示,英偉達DGX H100伺服器在使用最佳化的軟體後,其效能提高了超過2倍,比AMD展示的MI300X 8-GPU伺服器快了47%

DGX H100 在1.7秒內可以處理單一推理任務。為了優化回應時間和資料中心的吞吐量,雲端服務為特定的服務設定了固定的回應時間。這樣他們可以將多個推理請求組合成更大的“Batch”,從而增加伺服器每秒的總體推理次數。 MLPerf 等業界標準基準測試也使用這個固定的反應時間指標來衡量效能

回應時間的微小權衡可能會導致伺服器可以即時處理的推理請求數量產生不確定因素。使用固定的 2.5 秒回應時間預算,英偉達DGX H100 伺服器每秒可以處理超過 5 個 Llama 2 70B 推理,而Batch-1每秒處理不到一個。

顯然,英偉達使用這些新的基準測試是相對公平的,畢竟AMD也使用其優化的軟體來評估其GPU的性能,所以為什麼不在測試英偉達H100時也這樣做呢?

要知道英偉達的軟體堆疊圍繞著CUDA生態系統,經過多年的努力和開發,在人工智慧市場擁有非常強大的地位,而AMD的ROCm 6.0是新的,尚未在現實場景中進行測試。

根據AMD先前透露的資訊顯示,已與微軟、Meta等大公司達成了很大一部分交易,這些公司將其MI300X GPU視為英偉達H100解決方案的替代品。

AMD最新的Instinct MI300X預計將在2024年上半年大量出貨,但是,屆時英偉達更強的H200 GPU也將出貨,2024下半年英偉達還將推出新一代的Blackwell B100。另外,英特爾也將會推出其新一代的AI晶片Gaudi 3。接下來,人工智慧領域的競爭似乎會變得更加激烈。

編輯:芯智訊-浪客劍

以上是英偉達打臉AMD:H100在軟體加持下,AI效能比MI300X快47%!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:sohu.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板