總結過去三年,MIT發布AI加速器綜述論文
過去這一年,無論是新創公司還是成熟大廠,預告、發布和部署人工智慧(AI)和機器學習(ML)加速器的步伐很緩慢。但這並非不合理,對於許多發布加速器報告的公司來說,他們花三到四年的時間研究、分析、設計、驗證和對加速器設計的權衡,並建立對加速器進行程式設計的技術堆疊。對於那些已發布升級版本加速器的公司來說,雖然他們報告的開發週期更短,但至少還是兩三年。這些加速器的重點仍然是加速深層神經網路(DNN)模型,應用場景從極低功耗嵌入式語音識別和圖像分類到資料中心大模型訓練,典型的市場和應用領域的競爭仍在繼續,這是工業公司和技術公司從現代傳統計算轉變為機器學習解決方案的重要部分。
人工智慧生態系統將邊緣運算、傳統高效能運算(HPC)和高效能資料分析(HPDA)的元件結合在一起,這些元件必須協同工作,才能有效地給決策者、第一線人員和分析師賦能。圖 1 展示了這種端對端 AI 解決方案及其元件的架構概覽。
原始資料首先需要進行資料規整,在該步驟中資料被融合、聚合、結構化、累積並轉換為資訊。資料規則步驟產生的資訊作為神經網路等監督或無監督演算法的輸入,這些演算法可提取模式、填充缺失資料或查找資料集之間的相似性、進行預測,從而將輸入資訊轉換為可操作的知識。這些可操作的知識將會傳遞給人類,用於人機協作階段的決策過程。人機協作階段為使用者提供有用且重要的洞察,將知識轉化為可操作的智慧或洞察力。
支撐這個系統的是現代計算系統。摩爾定律的趨勢已經結束,但同時還有許多相關的定律和趨勢被提出來,如 Denard 定律(功率密度)、時脈頻率、核心數、每個時脈週期的指令和每焦耳的指令(Koomey 定律)。從最早出現在汽車應用、機器人和智慧型手機的系統單晶片(SoC)趨勢來看,透過開發和整合常用核心、方法或功能的加速器,其創新仍在不斷進步。這些加速器在性能和功能靈活性之間存在不同的平衡,包括深度學習處理器和加速器的創新爆發。透過閱讀大量相關論文,本文探討了這些技術的相對優勢,因為它們對於將人工智慧應用於對大小、重量和功率等有極大要求的嵌入式系統和資料中心時特別重要。
本文是 IEEE-HPEC 過去三年論文的更新。與過去幾年一樣,本文繼續關注深度神經網路(DNN)和卷積神經網路(CNN)的加速器和處理器,它們的運算量極大。本文主要針對加速器和處理器在推理方面的發展,因為許多 AI/ML 邊緣應用極度依賴推理。本文針對加速器支援的所有數位精確度類型,但對於大多數加速器來說,它們的最佳推理效能是 int8 或 fp16/bf16(IEEE 16 位元浮點或 Google 的 16 位元 brain float)。
論文連結:https://arxiv.org/pdf/2210.04055.pdf
目前,已經有許多探討AI 加速器的論文。如本系列調查的第一篇論文就有探討某些 AI 模型的 FPGA 的峰值性能,先前的調查都深入涵蓋了 FPGA,因此不再包含在本次調查中。這項持續調查工作和文章旨在收集一份全面的 AI 加速器列表,包括它們的運算能力、能源效率以及在嵌入式和資料中心應用中使用加速器的運算效率。同時文章主要比較了用於政府和工業感測器和資料處理應用的神經網路加速器。前幾年論文中包含的一些加速器和處理器已被排除在今年的調查之外,之所以放棄它們,是因為它們可能已經被同一家公司的新加速器取代、不再維護或與主題不再相關。
處理器調查
人工智慧的許多最新進展部分原因要歸功於硬體效能的提升,這使得需要龐大算力的機器學習演算法,尤其是 DNN 等網路能夠實現。本文的這次調查從公開可用的資料中收集各類信息,包括各種研究論文、技術期刊、公司發布的基準等。雖然還有其他方法獲取公司和新創公司(包括那些處於沉默期的公司)的信息,但本文在本次調查時忽略了這些信息,這些數據將在公開後納入該調查。此公共資料的關鍵指標如下圖所示,其反映了最新的處理器峰值效能與功耗的關聯能力(截至 2022 年 7 月)。
注意:圖2 中虛線方框與下圖3 是對應的,圖3 是把虛線框放大後的圖。
圖中x 軸表示峰值功率,y 軸表示每秒峰值千兆操作數(GOps/s),皆為對數尺度。處理能力的計算精度以不同幾何形狀表示,計算精度範圍從 int1 到 int32、從 fp16 到 fp64。顯示的精確度有兩種類型,左邊代表乘法運算的精確度,右邊代表累加 / 加運算的精確度(如 fp16.32 表示 fp16 乘法和 fp32 累加 / 加)。使用顏色和形狀區分不同類型系統和峰值功率。藍色表示單晶片;橘色表示卡;綠色表示整體系統(單節點桌面和伺服器系統)。此次調查僅限於單主機板、單內存系統。圖中空心幾何圖形是僅進行推理加速器的最高性能,而實心幾何圖形代表執行訓練和推理的加速器的性能。
本次調查中本文以過去三年調查資料的散佈圖開頭。下表 1 中本文總結了加速器、卡片和整體系統的一些重要元數據,包括圖 2 中每個點的標籤,許多要點都是從去年的調查中提出來的。表 1 中大多數欄位和條目都是準確清楚的。但有兩個技術條目可能不是:Dataflow 和 PIM。 Dataflow 型處理器是為神經網路推理和訓練客製化的處理器。由於神經網路訓練和推理計算完全確定地構建,因此它們適合 dataflow 處理,其中計算、內存訪問和 ALU 間通信被顯式 / 靜態編程或佈局佈線到計算硬體。記憶體處理器(PIM)加速器將處理元素與記憶體技術整合在一起。在這些 PIM 加速器中,有一些基於類比計算技術的加速器,該技術使用就地模擬乘法加法功能來增強快閃記憶體電路。可以參考 Mythic 和 Gyrfalcon 加速器的相關資料,以了解有關此創新技術的更多詳細資訊。
本文根據加速器的預期應用對其進行合理分類,圖1 用橢圓標識了五類加速器,根據性能和功耗做對應:功耗非常低,感測器非常小的語音處理;嵌入式攝影機、小型無人機和機器人;駕駛輔助系統、自動駕駛和自動機器人;資料中心的晶片和卡片;資料中心系統。
大多數加速器的效能、功能等指標都沒有改變,可以參考過去兩年的論文以了解相關資訊。下面的是沒有被過去的文章所收錄的加速器。
荷蘭嵌入式系統新創公司 Acelera 聲稱他們生產的嵌入式測試晶片具有數位和類比設計能力,而這種測試晶片是為了測試數位設計能力的範圍。他們希望在未來的工作中增加模擬(也可能是快閃記憶體)設計要素。
Maxim Integrated 發布了一款名為 MAX78000 用於超低功耗應用的系統晶片(SoC)。其包括 ARM CPU 核心、RISC-V CPU 核心和 AI 加速器。 ARM 核心用於快速原型設計和程式碼重用,而 RISC-V 核心用於實現最佳化,以實現最低的功耗。 AI 加速器有 64 個平行處理器,支援 1 位元、2 位元、4 位元和 8 位元整數運算。 SoC 的最大工作功率為 30mW,適用於低延遲、電池供電的應用。
Tachyum 最近發布名為Prodigy 一體式處理器,Prodigy 每個核心都整合CPU 和GPU 的功能,它是為HPC 和機器學習應用程式設計的,該晶片有128 個高性能統一內核,運作頻率為5.7GHz。
NVIDIA 於 2022 年 3 月發布了名為 Hopper(H100)的下一代 GPU。 Hopper 整合更多的 Symmetric Multiprocessor(SIMD 和 Tensor 核心),50% 的記憶體頻寬,SXM 夾層卡實例的功率為 700W。 (PCIe 卡功率為 450W)
過去幾年 NVIDIA 發布了一系列系統平台,用於部署在汽車、機器人和其他嵌入式應用程式 Ampere 架構的 GPU。對於汽車應用,DRIVE AGX 平台增加了兩個新系統:DRIVE AGX L2 可在 45W 功率範圍內實現 2 級自動駕駛,DRIVE AGX L5 可在 800W 功率範圍內實現 5 級自動駕駛。 Jetson AGX Orin 和 Jetson NX Orin 也使用 Ampere 架構 GPU,用於機器人、工廠自動化等,它們最大峰值功率為 60W 和 25W。
Graphcore 發布其第二代加速器晶片 CG200,它部署在 PCIe 卡上,峰值功率約為 300W。去年,Graphcore 也推出 Bow 加速器,這是與台積電合作設計的首款晶圓對晶圓處理器。加速器本身與上面提到的 CG200 相同,但它與第二個晶片配合使用,從而大大改善了整個 CG200 晶片的功率和時脈分佈。這意味著性能提高了 40% 以及 16% 每瓦特的性能提升。
2021 年 6 月,Google宣布了其第四代純推理 TPU4i 加速器的詳細資訊。將近一年後,Google分享了其第 4 代訓練加速器 TPUv4 的詳細資訊。雖然官方宣布的細節很少,但他們分享了峰值功率和相關性能數值。與先前的 TPU 各種版本一樣,TPU4 可透過 Google Compute Cloud 取得並用於內部操作。
接下來是對沒有出現在圖2 中的加速器的介紹,其中每個版本都發布一些基準測試結果,但有的缺少峰值性能,有的沒有公佈峰值功率,具體如下。
SambaNova 去年發布了一些可重建AI 加速器技術的基準測試結果,今年也發布了多項相關技術並與阿貢國家實驗室合作發表了應用論文,不過SambaNova 沒有提供任何細節,只能從公開的資料估算其解決方案的峰值效能或功耗。
今年 5 月,英特爾 Habana 實驗室宣布推出第二代 Goya 推理加速器和 Gaudi 訓練加速器,分別命名為 Greco 和 Gaudi2。兩者性能都比之前版本表現好幾倍。 Greco 是 75w 的單寬 PCIe 卡,而 Gaudi2 還是 650w 的雙寬 PCIe 卡(可能在 PCIe 5.0 插槽上)。 Habana 發布了 Gaudi2 與 Nvidia A100 GPU 的一些基準比較,但沒有透露這兩款加速器的峰值效能數據。
Esperanto 已經生產了一些 Demo 晶片,供三星和其他合作夥伴評估。該晶片是一個 1000 核心 RISC-V 處理器,每個核心都有一個 AI 張量加速器。 Esperanto 已經發布了部分效能指標,但它們沒有揭露峰值功率或峰值性能。
在特斯拉 AI Day 中,特斯拉介紹了他們客製化的 Dojo 加速器以及系統的一些細節。他們的晶片具有 22.6 TF FP32 性能的峰值,但沒有公佈每個晶片的峰值功耗,也許這些細節會在以後公佈。
去年 Centaur Technology 推出一款帶有整合 AI 加速器的 x86 CPU,其擁有 4096 位元組寬的 SIMD 單元,性能很有競爭力。但 Centaur 的母公司 VIA Technologies 將位於美國的處理器工程團隊賣給了 Intel,似乎已經結束了 CNS 處理器的開發。
一些觀察值以及趨勢
圖 2 中有幾個觀察值值得一提,具體內容如下。
Int8 仍然是嵌入式、自主和資料中心推理應用程式的預設數字精度。這種精確度對於使用有理數的大多數 AI/ML 應用程式來說是足夠的。同時有些加速器使用 fp16 或 bf16。模型訓練使用整數表示。
在極低功耗的晶片中,除了用於機器學習的加速器之外,還沒發現其他額外功能。在極低功耗晶片和嵌入式類別中,發布系統單晶片(SoC)解決方案是很常見的,通常包括低功耗CPU 核心、音訊和視訊類比數位轉換器(ADC)、加密引擎、網路介面等。 SoC 的這些附加功能不會改變峰值性能指標,但它們確實會對晶片報告的峰值功率產生直接影響,所以在比較它們時這一點很重要。
嵌入式部分的變化不大,就是說運算效能和峰值功率足以滿足該領域的應用需求。
過去幾年,包括德州儀器在內的幾家公司已經發布了 AI 加速器。而 NVIDIA 也發布了一些性能更好的汽車和機器人應用系統,如前所述。在資料中心中,為了突破 PCIe v4 300W 的功率限制,PCIe v5 規格備受期待。
最後,高階訓練系統不僅發布了令人印象深刻的性能數據,而且這些公司還發布了高度可擴展的互聯技術,將數千張卡連接在一起。這對於像 Cerebras、GraphCore、Groq、Tesla Dojo 和 SambaNova 這樣的資料流加速器尤其重要,這些加速器透過明確 / 靜態編程或佈局佈線到計算硬體上的。這樣一來它使這些加速器能夠適應像 transformer 這種超大模型。
更多細節請參考原文。
以上是總結過去三年,MIT發布AI加速器綜述論文的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

本站6月27日訊息,剪映是由位元組跳動旗下臉萌科技開發的一款影片剪輯軟體,依託於抖音平台且基本面向該平台用戶製作短影片內容,並相容於iOS、安卓、Windows 、MacOS等作業系統。剪映官方宣布會員體系升級,推出全新SVIP,包含多種AI黑科技,例如智慧翻譯、智慧劃重點、智慧包裝、數位人合成等。價格方面,剪映SVIP月費79元,年費599元(本站註:折合每月49.9元),連續包月則為59元每月,連續包年為499元每年(折合每月41.6元) 。此外,剪映官方也表示,為提升用戶體驗,向已訂閱了原版VIP

透過將檢索增強生成和語意記憶納入AI編碼助手,提升開發人員的生產力、效率和準確性。譯自EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG,作者JanakiramMSV。雖然基本AI程式設計助理自然有幫助,但由於依賴對軟體語言和編寫軟體最常見模式的整體理解,因此常常無法提供最相關和正確的程式碼建議。這些編碼助手產生的代碼適合解決他們負責解決的問題,但通常不符合各個團隊的編碼標準、慣例和風格。這通常會導致需要修改或完善其建議,以便將程式碼接受到應

大型語言模型(LLM)是在龐大的文字資料庫上訓練的,在那裡它們獲得了大量的實際知識。這些知識嵌入到它們的參數中,然後可以在需要時使用。這些模型的知識在訓練結束時被「具體化」。在預訓練結束時,模型實際上停止學習。對模型進行對齊或進行指令調優,讓模型學習如何充分利用這些知識,以及如何更自然地回應使用者的問題。但是有時模型知識是不夠的,儘管模型可以透過RAG存取外部內容,但透過微調使用模型適應新的領域被認為是有益的。這種微調是使用人工標註者或其他llm創建的輸入進行的,模型會遇到額外的實際知識並將其整合

想了解更多AIGC的內容,請造訪:51CTOAI.x社群https://www.51cto.com/aigc/譯者|晶顏審校|重樓不同於網路上隨處可見的傳統問題庫,這些問題需要跳脫常規思維。大語言模型(LLM)在數據科學、生成式人工智慧(GenAI)和人工智慧領域越來越重要。這些複雜的演算法提升了人類的技能,並在許多產業中推動了效率和創新性的提升,成為企業保持競爭力的關鍵。 LLM的應用範圍非常廣泛,它可以用於自然語言處理、文字生成、語音辨識和推薦系統等領域。透過學習大量的數據,LLM能夠產生文本

編輯|ScienceAI問答(QA)資料集在推動自然語言處理(NLP)研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型,也可以有效評估大語言模型(LLM)的能力,尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數據集,涵蓋了醫學、化學、生物等領域,但這些數據集仍有一些不足之處。其一,資料形式較為單一,大多數為多項選擇題(multiple-choicequestions),它們易於進行評估,但限制了模型的答案選擇範圍,無法充分測試模型的科學問題解答能力。相比之下,開放式問答

機器學習是人工智慧的重要分支,它賦予電腦從數據中學習的能力,並能夠在無需明確編程的情況下改進自身能力。機器學習在各個領域都有廣泛的應用,從影像辨識和自然語言處理到推薦系統和詐欺偵測,它正在改變我們的生活方式。機器學習領域存在著多種不同的方法和理論,其中最具影響力的五種方法被稱為「機器學習五大派」。這五大派分別為符號派、聯結派、進化派、貝葉斯派和類推學派。 1.符號學派符號學(Symbolism),又稱符號主義,強調利用符號進行邏輯推理和表達知識。該學派認為學習是一種逆向演繹的過程,透過現有的

編輯|KX在藥物研發領域,準確有效地預測蛋白質與配體的結合親和力對於藥物篩選和優化至關重要。然而,目前的研究並沒有考慮到分子表面訊息在蛋白質-配體相互作用中的重要作用。基於此,來自廈門大學的研究人員提出了一種新穎的多模態特徵提取(MFE)框架,該框架首次結合了蛋白質表面、3D結構和序列的信息,並使用交叉注意機制進行不同模態之間的特徵對齊。實驗結果表明,該方法在預測蛋白質-配體結合親和力方面取得了最先進的性能。此外,消融研究證明了該框架內蛋白質表面資訊和多模態特徵對齊的有效性和必要性。相關研究以「S

本站7月5日消息,格芯(GlobalFoundries)於今年7月1日發布新聞稿,宣布收購泰戈爾科技(TagoreTechnology)的功率氮化鎵(GaN)技術及智慧財產權組合,希望在汽車、物聯網和人工智慧資料中心應用領域探索更高的效率和更好的效能。隨著生成式人工智慧(GenerativeAI)等技術在數位世界的不斷發展,氮化鎵(GaN)已成為永續高效電源管理(尤其是在資料中心)的關鍵解決方案。本站引述官方公告內容,在本次收購過程中,泰戈爾科技公司工程師團隊將加入格芯,進一步開發氮化鎵技術。 G
