Untuk memenuhi permintaan yang semakin meningkat untuk model kecerdasan buatan dan pembelajaran mesin, Tesla telah mencipta teknologi kecerdasan buatannya sendiri untuk mengajar kereta Tesla memandu secara automatik.
Baru-baru ini, Tesla mendedahkan banyak butiran tentang seni bina pengkomputeran super Dojo pada persidangan Hot Chips 34.
Pada asasnya, Dojo ialah superkomputer boleh gubah gergasi yang dibina daripada seni bina tersuai sepenuhnya meliputi pengiraan, rangkaian, cip input/output (I/O) kepada seni bina set arahan (ISA), penghantaran kuasa, pembungkusan dan penyejukan. Semua ini dilakukan untuk menjalankan algoritma latihan pembelajaran mesin tersuai dan khusus pada skala.
Ganesh Venkataramanan ialah pengarah kanan perkakasan pemanduan autonomi Tesla dan bertanggungjawab untuk projek Dojo dan pasukan reka bentuk CPU AMD. Pada persidangan Hot Chips 34, beliau dan sekumpulan jurutera cip, sistem dan perisian mendedahkan banyak ciri seni bina mesin itu buat kali pertama.
" Secara umumnya, proses pembuatan cip kami adalah meletakkannya pada bungkusan dan meletakkan bungkusan itu pada papan litar bercetak , dan kemudian sistem itu masuk ke dalam rak," kata Venkataramanan.
Tetapi terdapat masalah dengan proses ini: setiap kali data berpindah dari cip ke pakej dan keluar dari pakej, terdapat kependaman dan kehilangan lebar jalur.
Untuk mengatasi batasan ini, Venkataramanan dan pasukannya memutuskan untuk bermula dari awal.
Oleh itu, jubin latihan Dojo dilahirkan.
Ini ialah kluster pengkomputeran serba lengkap yang mengambil masa setengah kaki padu dan berkemampuan 556TFLOPS prestasi FP32 dalam pakej penyejuk cecair 15kW.
Setiap jubin dilengkapi dengan 11GB SRAM dan disambungkan melalui fabrik 9TB/s menggunakan protokol pemindahan tersuai di seluruh tindanan.
Venkataramanan berkata: "Papan latihan ini mewakili tahap penyepaduan yang tiada tandingan daripada komputer ke memori, kepada penghantaran kuasa, kepada komunikasi, tanpa memerlukan sebarang suis tambahan." 🎜>
Inti jubin latihan ialah D1 Tesla, cip transistor 50 bilion berdasarkan proses 7nm TSMC. Tesla berkata setiap D1 mampu mencapai 22TFLOPS prestasi FP32 pada TDP 400W.Tesla kemudian menggunakan 25 D1, membahagikannya kepada acuan baik yang diketahui, dan kemudian menggunakan teknologi sistem atas wafer TSMC Bungkusnya untuk membolehkan besar-besaran penyepaduan pengkomputeran dengan kependaman yang sangat rendah dan lebar jalur yang sangat tinggi.
Walau bagaimanapun, reka bentuk sistem dan seni bina susun menegak pada cip membawa cabaran kepada penghantaran kuasa.
Menurut Venkataramanan, kebanyakan pemecut semasa meletakkan bekalan kuasa terus di sebelah wafer silikon. Beliau menjelaskan bahawa pendekatan ini, walaupun berkesan, bermakna sebahagian besar pemecut perlu dikhaskan untuk komponen ini, yang tidak praktikal untuk Dojo. Oleh itu, Tesla memilih untuk memberikan kuasa secara terus melalui bahagian bawah cip.
Selain itu, Tesla telah membangunkan Pemproses Antara Muka Dojo (DIP), yang merupakan jambatan antara CPU hos dan pemproses latihan.
Setiap DIP mempunyai 32GB HBM, dan sehingga lima daripada kad ini boleh disambungkan ke jubin latihan pada 900GB/s untuk jumlah 4.5TB/s, setiap jubin mempunyai sejumlah 160GB HBM.
Konfigurasi V1 Tesla memasangkan jubin ini – atau 150 D1 mati – dalam tatasusunan untuk menyokong empat CPU hos , dilengkapi dengan lima kad DIP bagi setiap CPU hos untuk mencapai exaflop prestasi BF16 atau CFP8 yang dituntut.
Perisian
Seni bina pengkomputeran khusus sebegini memerlukan tindanan perisian khusus. Walau bagaimanapun, Venkataramanan dan pasukannya menyedari bahawa kebolehprograman akan menentukan kejayaan atau kegagalan Dojo. “Apabila kami mereka bentuk sistem ini, kemudahan pengaturcaraan oleh rakan perisian adalah yang paling penting Penyelidik tidak menunggu orang perisian anda menulis kernel berkod tangan untuk menampung algoritma baharu yang ingin kami jalankan. Untuk melakukan ini, Tesla melepaskan idea menggunakan kernel dan mereka bentuk seni bina Dojo di sekeliling pengkompil. "Apa yang kami lakukan ialah kami menggunakan PiTorch. Kami mencipta lapisan tengah yang membantu kami selari untuk menskalakan perkakasan di bawahnya. Di bawahnya semuanya tersusun kod. "Untuk mencipta perisian timbunan yang boleh menyesuaikan diri dengan sebarang beban kerja masa hadapan, ini adalah satu-satunya cara. Walaupun menekankan fleksibiliti perisian, Venkataramanan menegaskan bahawa platform yang sedang berjalan di makmal mereka terhad kepada Tesla buat masa ini. Selepas membaca perkara di atas, mari kita lihat dengan lebih mendalam seni bina Dojo. Tesla mempunyai sistem kecerdasan buatan yang besar untuk pembelajaran mesin. Tesla mempunyai modal yang mencukupi untuk mengupah pekerja dan membina cip serta sistem khusus untuk aplikasinya, sama seperti sistem dalam kereta Tesla. Tesla bukan sahaja membina cip AInya sendiri, tetapi juga superkomputer. Analisis sistem teragih Setiap nod Dojo mempunyai CPU Sendiri, antara muka ingatan dan komunikasi. Nod Dojo Ini ialah saluran pemprosesan pemproses Dojo . Memproses saluran paip Setiap nod mempunyai 1.25MB SRAM. Dalam latihan AI dan cip inferens, teknik biasa adalah untuk mencari bersama memori dengan pengiraan untuk meminimumkan pemindahan data, yang sangat mahal dari perspektif kuasa dan prestasi. Memori Nod Kemudian setiap nod disambungkan ke Grid 2D . Antara Muka Rangkaian Ini ialah gambaran keseluruhan laluan data. Laluan Data Berikut ialah contoh perkara yang boleh cip lakukan penghuraian senarai. List Parsing Berikut adalah lebih lanjut mengenai set arahan, ialah asal Tesla, bukannya set arahan Intel, Arm, NVIDIA atau AMD CPU/GPU biasa. Set arahan Dalam kecerdasan buatan, format aritmetik adalah penting, terutamanya perkara yang disokong oleh cip Format . Menggunakan DOJO, Tesla boleh mengkaji format biasa seperti FP32, FP16 dan BFP16. Ini adalah format industri biasa. Format aritmetik Tesla juga sedang mengusahakan FP8 atau CFP8 yang boleh dikonfigurasikan . Ia datang dalam pilihan julat 4/3 dan 5/2. Ini serupa dengan konfigurasi NVIDIA H100 Hopper FP8. Kami juga melihat pemecut AI teras Untether.AI Boqueria 1458 RISC-V memfokus pada jenis FP8 yang berbeza. Dojo juga mempunyai format CFP16 yang berbeza, untuk mencapai ketepatan yang lebih tinggi dan menyokong FP32, BFP16, CFP8 dan CFP16. Format Aritmetik 3 Teras ini kemudiannya disepadukan ke dalam rekaan dalam acuan. Cip D1 Tesla dihasilkan oleh TSMC menggunakan proses 7nm. Setiap cip mempunyai 354 nod pemprosesan Dojo dan 440MB SRAM. Acuan D1 Kotak Integrasi Pertama Cip D1 ini dibungkus dalam Pada jubin latihan dojo. Cip D1 diuji dan kemudian dipasang ke dalam jubin 5×5. Jubin ini mempunyai lebar jalur 4.5TB/s setiap tepi. Mereka juga mempunyai sampul penghantaran kuasa sebanyak 15kW setiap modul, atau kira-kira 600W setiap cip D1 selepas menolak kuasa yang digunakan oleh 40 dies I/O. Perbandingan menunjukkan mengapa sesuatu seperti Lightmatter Passage akan menjadi lebih menarik jika syarikat tidak mahu mereka bentuk perkara sedemikian. Jubin latihan Dojo kotak integrasi kedua Antara muka Dojo Pemproses ialah terletak di tepi grid 2D. Setiap blok latihan mempunyai 11GB SRAM dan 160GB DRAM kongsi. Topologi sistem Dojo Berikut ialah pemprosesan penyambungan rangkaian 2D nod Data lebar jalur grid. Dojo sistem komunikasi logik 2D grid Setiap DIP Menyediakan 32GB /s pautan ke sistem hos. Dojo sistem komunikasi PCIe pautan DIP dan hos Tesla juga mempunyai pautan Z-plane untuk laluan yang lebih panjang. Dalam ucapan yang lain, Tesla bercakap tentang inovasi peringkat sistem. Mekanisme komunikasi Berikut ialah sempadan kelewatan antara die dan jubin , Itulah sebabnya mereka dikendalikan secara berbeza dalam Dojo. Sebab pautan Z-plane diperlukan kerana laluan yang panjang adalah mahal. Mekanisme komunikasi sistem Dojo Mana-mana nod pemprosesan boleh melintasi sistem Akses data. Setiap nod boleh menolak atau menarik data ke SRAM atau DRAM. Komunikasi kelompok sistem Dojo Dojo menggunakan komunikasi skema pengalamatan rata . Rangkaian Sistem 1 Cip ini boleh dipintas dalam perisian Salah nod pemprosesan. System Network 2 Ini bermakna perisian mesti memahami sistem topologi . Rangkaian Sistem 3 Dojo tidak menjamin hujung-ke- tamatkan pesanan trafik , jadi paket perlu dikira di destinasi. Rangkaian Sistem 4 Berikut ialah cara paket dikira ke dalam bahagian sistem penyegerakan. Penyegerakan sistem Pengkompil perlu mentakrifkan nod dengan Tree . System Sync 2 Tesla berkata bahawa satu exa-pod mempunyai lebih daripada 1 juta CPU ( atau nod pengiraan). Ini adalah sistem yang besar. Tesla membina Dojo khusus untuk bekerja pada skala. Biasanya, syarikat pemula ingin membina satu atau beberapa cip AI bagi setiap sistem. Jelas sekali, Tesla memberi tumpuan kepada skala yang lebih besar. Dalam banyak cara, masuk akal untuk Tesla mempunyai tempat latihan AI yang besar. Apa yang lebih menarik ialah ia bukan sahaja menggunakan sistem yang tersedia secara komersial, tetapi ia juga membina cip dan sistemnya sendiri. Sesetengah ISA pada bahagian skalar dipinjam daripada RISC-V, tetapi bahagian vektor dan banyak seni bina Tesla telah disesuaikan, jadi ini memerlukan banyak kerja. Gambaran Keseluruhan Seni Bina Dojo
Ringkasan
Atas ialah kandungan terperinci Butiran seni bina superkomputer Tesla Dojo didedahkan buat kali pertama! 'Fucked to pieces' untuk pemanduan autonomi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!