特斯拉超算晶片，可超越GPGPU？-人工智慧-PHP中文網

作者：陳巍博士存算一體/GPU架構和AI專家，高級職稱。中關村雲端運算產業聯盟，中國光學工程學會專家，國際電腦學會（ACM）會員，中國電腦學會（CCF）專業會員。曾任AI企業首席科學家、記憶體晶片大廠3D NAND設計負責人，主要成就包括國內首個大算力可重構存算處理器產品架構（已在互聯網大廠完成原型內測），首個醫療領域專用AI處理器（已落地應用），首個RISC-V/x86/ARM平台相容的AI加速編譯器（與阿里平頭哥/芯來合作，已應用），國內首個3D NAND晶片架構與設計團隊建立（與三星對標），國內首個嵌入式快閃編譯器（與台積電對標，已平台級應用）。

2022年9月最後一天，特斯拉的人工智慧日，特斯拉「擎天柱」機器人正式登台亮相。根據特斯拉工程師的說法，2022 年人工智慧日是特斯拉機器人第一次在沒有任何外部支援的情況下被「放出」。「他「步姿端莊，大方向場上觀眾打招呼。除了動作稍微遲緩之外，其他都很自然。

1 特斯拉機器人強大在於「內芯」？

特斯拉展示了機器人在辦公室周圍「工作」的影片。名為擎天柱的機器人搬運物品，為植物澆水，甚至自主的在工廠工作了一段時間。「我們的目標是盡快製造出有用的人形機器人”，特斯拉表明，他們的目標是讓機器人的價格低於 2 萬美元，或比特斯拉的電動車便宜。

特斯拉機器人之所以這麼強，除了特斯拉本身在AI技術的累積外，更主要得益於特斯拉強勁的自研AI晶片。這顆AI晶片，不是傳統上的CPU，更不是GPU，是更適合複雜AI運算的形態。

D1處理器與其他自動駕駛/機器人處理器的比較

特斯拉超算晶片，可超越GPGPU？

1.1基於資料流近存架構打造一顆超越GPU的通用AI晶片

特斯拉打造自有晶片的原因是，GPU 並不是專門為處理深度學習訓練而設計的，這使得GPU在運算任務中的效率相對較低。特斯拉與Dojo（Dojo既是訓練模組的名稱，也是核心架構名稱）的目標是「實現最佳的AI 訓練效能。啟用更大、更複雜的神經網路模型，實現高能源效率且經濟高效的計算。

建立超級電腦一個關鍵點是如何在擴展運算能力同時保持高頻寬（困難）和低延遲（非常困難）。特斯拉給出的解決方案是強大的晶片和獨特的網格結構組成的分散式 2D 架構（平面），或者說是資料流近存運算架構。

特斯拉算力單元的層級分割

特斯拉超算晶片，可超越GPGPU？

#依照層次劃分的話，每354個Dojo核心組成一塊D1晶片，而每25顆晶片組成一個訓練模組。最後120個訓練模組組成一組ExaPOD運算集群，共3000顆D1晶片。

一個特斯拉Dojo晶片訓練模組可以達到6組GPU伺服器的效能，成本卻比單組GPU伺服器少。單一Dojo伺服器算力甚至達到了54PFLOPS。只用 4 個 Dojo 機櫃就能取代由 4000 顆 GPU 組成的 72 組 GPU 機架。 Dojo 將通常需要幾個月的AI計算（訓練）工作減少到了1 週。這樣的“大算力出奇蹟”，與特斯拉自動駕駛的風格一脈相承。顯然晶片也會大大加速特斯拉AI技術的進步速度。

###當然，這一晶片模組還沒有到達「完美」的程度，儘管採用了資料流近存運算的思路，其算力能效比並沒有超過GPU。單一伺服器的功耗巨大，電流達到了2000A，需要特殊客製化的電源供電。特斯拉D1晶片已經是近存運算架構的結構極限了。如果特斯拉採用「存內運算」或「存內邏輯」架構，或許晶片效能或能源效率比還會有大幅提升。 ######

特斯拉超算晶片，可超越GPGPU？

特斯拉Dojo晶片伺服器由12個Dojo訓練模組組成（2層，每層6個）

1.2 特斯拉的Dojo架構設計哲學

Dojo核心是一個8路譯碼的內核，具有較高吞吐量和4路矩陣計算單元（8x8）以及1.25 MB 的本地SRAM。但是Dojo核心的尺寸卻不大，相較之下，富士通的A64FX在同一製程節點上所佔的面積是其兩倍以上。

透過Dojo核心的結構，我們可以看出特斯拉在通用AI處理器上的設計哲學：

##面積精簡：特斯拉透過將大量運算核心整合到晶片中，以最大限度提高AI運算的吞吐量，因此需要在保障算力的情況下使單一核心的面積盡可能小，更好的折衷超算系統中算力堆疊和延遲的矛盾。
快取與延遲精簡：為了實現其區域運算效率最大化，Dojo核心以相對保守的2 GHz 運作（保守時脈電路往往佔用較少的面積），只使用基本的分支預測器和小的指令緩存，在如此精簡只保留必要部件的架構下。其餘面積盡可能留給向量計算和矩陣計算單元。當然，如果核心程式的程式碼佔用量很大，或當分支較多時，這種策略可能會犧牲一些效能。
功能精簡：透過削減對運行內部運算不是必須的處理器功能來進一步減少功耗和麵積使用。 Dojo核心不進行資料端緩存，不支援虛擬內存，也不支援精確異常。

對特斯拉和馬斯克而言，Dojo不僅僅形狀佈局像道場，其設計哲學也與道場的精神息息相關，充分體現了「少即是多”的處理器設計美學。

2 D1核心是RISC-V架構嗎？

我們先來看看每個Dojo的結構和特徵。

每個Dojo核心是具有向量運算/矩陣運算能力的處理器，具有完整的取指、譯碼、執行元件。 Dojo核心具有類似CPU的風格，似乎比GPU 更能適應不同的演算法和分支程式碼。 D1的指令集類似 RISC-V，處理器運作在2GHz，具有4組8x8矩陣乘法運算單元。同時具有一組自訂向量指令，專注於加速AI運算。

對RISC-V領域熟悉的大概能看出，特斯拉Dojo架構圖的配色方案像是在致敬伯克利的BOOM處理器架構圖，上黃中綠下紫。

特斯拉超算晶片，可超越GPGPU？

特斯拉Dojo核心與柏克萊BOOM/ IBM Cell核心對比

2.1 D1核心整體架構

特斯拉超算晶片，可超越GPGPU？

D1核心結構（藍色部分為新增/修改的細節）

#從目前的架構圖來看，Dojo核心由前端、執行單元、SRAM和NoC路由4部分組成，比CPU和GPU的控制部件都更少，具有類似CPU的AGU和思路類似GPU張量核心（Tensor core）的矩陣計算單元。

Dojo核心結構比BOOM更加精簡，沒有Rename這些改善執行部件利用率的元件，同時也難於支援虛擬記憶體。但這樣設計的好處是減少了控制部分所佔的面積，可以把晶片上更多的面積劃分給運算執行單元。每個Dojo核心提供了1.024TFLOPS的算力。可以看到，每個幾乎所有的算力都由矩陣計算單元提供。因而矩陣計算單元和SRAM共同決定了D1處理器的計算能效比。

Dojo核心的主要參數

特斯拉超算晶片，可超越GPGPU？

分支預測：相對GPU這類SIMT架構，Dojo核心也沒有SIMT堆疊核心來進行多執行緒分支任務的分配。但Dojo核心具有 BTB（分支目標緩衝區），因此D1可以透過簡單的分支預測來提升效能。
BTB將分支成功的分支指令的位址和它的分支目標位址都放到一個緩衝區中保存起來，緩衝區以分支指令的位址作為標識。可以透過預測分支的路徑和快取分支使用的資訊來減少管線處理器中分支的效能損失。
指令快取：較小的L1指令快取直接與核心中的SRAM連結取得運算指令。
取指：每個Dojo核心具有 32 B 的取指窗口，最多可容納 8 個指令。
譯碼：一個8路解碼器每個週期可以處理兩個執行緒。譯碼階段從取指緩衝獲取指令並譯碼，並根據每條指令的要求分配必要的執行資源。
線程調度：在較寬的8路譯碼之後，則是向量的調度器（Scheduler）和寄存器堆（Register File）。看起來這裡沒有分支聚合的遮罩判斷，實際的分支執行效率可能會比GPU略低。希望特斯拉有一個強大的編譯器吧。
執行單元：具有2路ALU和2路AGU，以及針對向量/矩陣計算的512位元SIMD和矩陣計算單元（分別執行512位元向量計算和4路8x8矩陣乘法）。其中矩陣運算單元是D1晶片的算力主體。（在下一節具體介紹）
ALU和AGU主要負責矩陣運算以外的少量邏輯計算。其中AGU是位址產生單元，主要用於產生操作SRAM所需的位址和存取其他核心的位址。透過由與 CPU 的其餘部分並行運行位址計算。
普通CPU 在執行各種操作時，需要計算從記憶體（或SRAM）中取資料所需的記憶體位址。例如，必須先計算數組元素的記憶體位置，然後 CPU核心才能從實際記憶體位置取得資料。這些位址產生計算涉及不同的整數算術運算，例如加法、減法、模運算或位移。計算記憶體位址可以編譯多個通用機器指令，也可以類似特斯拉Dojo這樣透過AGU的硬體電路直接執行。這樣各種位址產生運算可以從ALU卸載，減少執行AI運算所需等待的CPU 週期數，進而提升運算效能。
SIMD主要負責活化等特殊功能計算和資料的累加。
矩陣計算單元是Dojo的主要算力原件，負責二維矩陣計算，進而實現卷積、Transformer等計算。

特斯拉超算晶片，可超越GPGPU？

#Intel Nehalem架構中使用AGU來提升單週期位址存取效率

Intel Nehalem架構中使用AGU來提升單週期位址存取效率

D1或SPE 上運行的程式碼都不能直接存取系統內存，應用程式主要在本地SRAM 中工作；
如果需要來自主記憶體（DDR或HBM）的數據，須使用DMA 操作進行讀入

D1 和Cell 的SPE 都不支援虛擬記憶體。

以下將介紹計算與矩陣乘法模組與核心的儲存。

2.2 算力核心矩陣運算單元與片內儲存

Dojo架構算力增強的核心是矩陣運算單元。矩陣運算單元與核心SRAM的資料互動構成了主要的核心資料搬運功耗。

特斯拉矩陣計算單元對應的專利如下圖。此模組關鍵元件是一個8x8矩陣-矩陣乘法單元（圖中稱為矩陣計算器）。輸入為資料輸入陣列和權重輸入陣列，計算矩陣乘法後直接在輸出進行累加。每個Dojo核心包括4路8x8矩陣乘法單元。

特斯拉超算晶片，可超越GPGPU？

###特斯拉矩陣計算單元專利######

由於架構圖上只有一個L1 快取和SRAM，大膽猜測特斯拉精簡了RISC-V的快取結構，目的是節省快取面積並減少延遲。每個核心1.25MB的SRAM區塊可以為SIMD和矩陣運算單元提供2x512位元的讀取（對應AI計算的權重和資料）和512位元的寫頻寬，以及面向整數暫存器堆的64位元讀寫能力。計算的主要資料流是從SRAM到SIMD和矩陣乘法單元。

矩陣運算單元的主要處理流程為：

#透過多路選擇器（Mux）從SRAM載入權重到權重輸入陣列（Weight input array），同時SRAM中載入資料到資料輸入陣列（Data input array）。

輸入的資料與權重在矩陣計算器（Matrix computation Unit）中進行乘法計算（內積或外積？）

乘法計算結果輸出到輸出累加（Output accumulator）進行累加。這裡計算時可以用矩陣劃分拼接的方式來進行超過8x8的矩陣計算。

累加後的輸出傳入後處理器暫存器堆進行緩存，隨後進行後處理（可執行例如啟動、池化、Padding等操作）。

整個運算流程由控制單元（Control unit）直接控制，無需CPU幹預。

特斯拉超算晶片，可超越GPGPU？

執行單元與SRAM/NoC的資料互動

Dojo核心內的SRAM具有非常大的讀寫頻寬，可以以400 GB/秒的速度加載並以270 GB/秒的速度寫入。 Dojo核心指令集具有專用的網路傳輸指令，透過NoC路由，可以直接將資料移入或移出 D1 晶片中甚至Dojo訓練模組中其他核心的SRAM 記憶體。

與普通的SRAM不同，Dojo的SRAM包括列表解析引擎（list parser engine）和一個收集引擎（gather engine）。清單解析功能是 D1晶片的關鍵特性之一，透過清單解析引擎可將複雜的不同資料類型的傳輸序列進行打包，提升傳輸效率。

特斯拉超算晶片，可超越GPGPU？

列表解析功能

為了進一步減少操作延遲、面積和複雜度，D1 並不支援虛擬記憶體。在通常的處理器中，程式使用的記憶體位址不是直接存取實體記憶體位址，而是由 CPU 使用作業系統設定的分頁結構轉換為實體位址。

在D1核心中，4 路SMT 功能讓運算具備明確並行性，簡化AGU 和尋址運算方式，讓特斯拉以足夠低的延遲存取SRAM，其優勢是可避免中間L1 資料快取的延遲。

2.3 Dojo指令集

特斯拉超算晶片，可超越GPGPU？

#D1處理器指令集

D1參考了RISC-V 架構的指令，並且自訂了一些指令，特別是向量運算相關的指令。

D1指令集支援64 位元標量指令和64位元組SIMD 指令，網路傳輸與同步原語和機器學習/深度學習相關的專用原語（例如8x8矩陣計算）。

在網路資料傳輸和同步原語方面，支援從本機儲存（SRAM）到遠端儲存傳輸資料的指令原語（Primitives），以及訊號量（Semaphore）和屏障約束（ Barrier constraints）。這可以使D1支援多線程，其儲存操作指令可以在多個 D1 核心中運行。

針對機器學習和深度學習，特斯拉定義了包括 shuffle、transpose 和 convert 等數學操作的指令，以及隨機舍入（ stochastic rounding ），padding相關的指令。

2.4 資料格式

D1核心具備FP32和FP16這兩個標準的運算格式，同時也具備更適合Inference的BFP16格式。為了達到混合精度運算提升效能的目的， D1也採用了用於較低精度和更高吞吐量的 8 位元 CFP8 格式。

採用CFP8的優點在於可以節省更多的乘法器空間來實現幾乎相同的算力，這對提升D1的算力密度非常有幫助。

Dojo 編譯器可以在尾數精度附近滑動，以涵蓋更廣泛的範圍和精度。在任何給定時間，最多可以使用 16 種不同的向量格式，靈活提升算力。

特斯拉超算晶片，可超越GPGPU？

D1處理器的資料格式

根據特斯拉提供的訊息，在矩陣乘法單元內部可使用CFP8來進行計算（儲存為CFP16格式）。

3 Dojo架構處理器能否超過GPU？

D1處理器由台積電製造，採用7奈米製造工藝，擁有500億個晶體管，晶片面積為645mm²，小於英偉達的A100（826 mm²）和AMD Arcturus（750 mm²）。

3.1 Dojo資料流近存運算架構

特斯拉超算晶片，可超越GPGPU？

#D1處理器結構

每個D1處理器由18 x 20 的Dojo核心拼接構成。每個D1處理器中有354個Dojo核心可用。（之所以只使用360個核心中的354個是出於良率和每處理器核心穩定考慮）由台積電製造，採用7nm製造工藝，擁有500億個晶體管，晶片面積為645mm²。

每個Dojo核心都有一塊1.25MB的SRAM作為主要的權重和資料儲存。不同的Dojo核心透過片上網路路由（NoC路由）進行連接，不同的Dojo核心透過複雜的NoC網路進行資料同步，而不是共享資料快取。 NoC 可以處理跨節點邊界4個方向（東南西北）的8 個資料包，每個方向64 B/每個時脈週期，即在所有四個方向上一個資料包輸入和一個資料包輸出到網格中每個相鄰的Dojo核心。此NoC路由還可以在每個週期對核心內的 SRAM 進行一次 64 B 雙向讀寫。

特斯拉超算晶片，可超越GPGPU？

跨處理器傳輸與D1處理器內部的任務分割

#每個Dojo核心都是一個相對完整的帶矩陣運算能力的類CPU（由於每個核心具備單獨的矩陣計算單元，且前端相對較小，所以這裡稱為類CPU）其資料流架構則有點類似於SambaNova的二維資料流網格結構，資料直接在各個處理核心之間流轉，無需回到記憶體。

D1晶片運作在2GHz，擁有龐大的440MB SRAM。特斯拉將設計重心放在運算網格中的分散式SRAM，透過大量更快更近的片上儲存和片上儲存之間的流轉減少對記憶體的存取頻度，來提升整個系統的效能，具有明顯的資料流存算一體架構（資料流近存運算）特徵。

每顆D1 晶片有 576 個雙向 SerDes 通道，分佈在四周，可連接到其他 D1 晶片，單邊頻寬為 4 TB/秒。

D1處理器晶片主要參數

特斯拉超算晶片，可超越GPGPU？

#3.2 Dojo訓練模組的Chiplet封裝互連技術

每個D1訓練模組由5x5的D1晶片陣列排布而成，以二維Mesh結構互連。片上跨核心SRAM達到驚人的11GB，當然耗電量也達到了15kW的驚人指標。能源效率比為0.6TFLOPS/W@BF16/CFP8。（希望是我算錯了，否則這個能效比確實不是太理想）。外部32GB共享HBM記憶體。（HBM2e或HBM3）

特斯拉超算晶片，可超越GPGPU？