


Les détails de l'architecture du supercalculateur Tesla Dojo divulgués pour la première fois ! 'Fucked to Pieces' pour la conduite autonome
Pour répondre à la demande croissante de modèles d'intelligence artificielle et d'apprentissage automatique, Tesla a créé sa propre technologie d'intelligence artificielle pour apprendre aux voitures Tesla à conduire automatiquement.
Récemment, Tesla a divulgué de nombreux détails sur l'architecture de supercalcul Dojo lors de la conférence Hot Chips 34.
Essentiellement, Dojo est un superordinateur composable géant construit à partir d'une architecture entièrement personnalisée couvrant le calcul, la mise en réseau, les puces d'entrée/sortie (E/S) jusqu'à l'architecture du jeu d'instructions (ISA), la transmission de puissance, le conditionnement et le refroidissement. Tout cela est fait pour exécuter des algorithmes de formation d’apprentissage automatique personnalisés et spécifiques à grande échelle.
Ganesh Venkataramanan est le directeur principal du matériel de conduite autonome de Tesla, responsable du projet Dojo et de l'équipe de conception de processeurs d'AMD. Lors de la conférence Hot Chips 34, lui et un groupe d'ingénieurs en puces, systèmes et logiciels ont dévoilé pour la première fois de nombreuses caractéristiques architecturales de la machine.
Data Center "Sandwich"
"De manière générale, le processus que nous utilisons pour fabriquer des puces consiste à les mettre sur un emballage, à placer l'emballage sur le circuit imprimé, puis à entrer dans le système. Le système entre dans le support.", explique Venkataramanan.
Mais il y a un problème avec ce processus : chaque fois que les données passent de la puce au boîtier et hors du boîtier, il y a une latence et une perte de bande passante.
Pour contourner ces limitations, Venkataramanan et son équipe ont décidé de repartir de zéro.
Ainsi, les tuiles d’entraînement du Dojo sont nées.
Il s'agit d'un cluster informatique autonome qui occupe un demi-pied cube et est capable de 556 TFLOPS de performances FP32 dans un boîtier de 15 kW refroidi par liquide.
Chaque tuile est équipée de 11 Go de SRAM et connectée via une structure de 9 To/s à l'aide d'un protocole de transfert personnalisé dans toute la pile.
Venkataramanan a déclaré : "Cette carte de formation représente un niveau d'intégration inégalé de l'ordinateur à la mémoire, en passant par l'alimentation électrique et la communication, sans avoir besoin de commutateurs supplémentaires.
Le cœur de la tuile de formation est un." le D1 spécial de Tesla, qui est une puce de 50 milliards de transistors basée sur le processus 7 nm de TSMC. Tesla affirme que chaque D1 est capable d'atteindre 22TFLOPS de performances FP32 avec un TDP de 400W.
Tesla a ensuite pris 25 D1, les a divisés dans de bons moules connus, puis les a emballés à l'aide de la technologie système sur plaquette de TSMC avec une latence extrêmement faible et une bande passante extrêmement élevée permettant une intégration informatique massive.
Cependant, la conception du système et l'architecture d'empilement vertical sur la puce posent des défis en matière de fourniture d'énergie.
Selon Venkataramanan, la plupart des accélérateurs actuels placent l'alimentation directement à côté de la plaquette de silicium. Il a expliqué que cette approche, bien qu'efficace, signifiait qu'une grande partie de l'accélérateur devait être dédiée à ces composants, ce qui n'était pas pratique pour Dojo. Par conséquent, Tesla a choisi de fournir de l’énergie directement par le bas de la puce.
De plus, Tesla a développé le Dojo Interface Processor (DIP), qui est le pont entre le CPU hôte et le processeur de formation.
Chaque DIP dispose de 32 Go de HBM et jusqu'à cinq de ces cartes peuvent être connectées à une tuile de formation à 900 Go/s pour un total de 4,5 To/s pour un total de 160 Go par tuile HBM.
La configuration V1 de Tesla associe ces tuiles – ou 150 matrices D1 – dans un tableau pour prendre en charge quatre processeurs hôtes, chacun équipé de cinq cartes DIP, pour atteindre la revendication d'un exaflop de performances BF16 ou CFP8.
Logiciel
Une telle architecture informatique spécialisée nécessite une pile logicielle spécialisée. Cependant, Venkataramanan et son équipe ont reconnu que la programmabilité déterminerait le succès ou l'échec du Dojo.
"Lorsque nous concevons ces systèmes, la facilité de programmation par les pairs logiciels est primordiale. Les chercheurs n'attendent pas que vos développeurs écrivent un noyau écrit à la main pour s'adapter aux nouveaux algorithmes que nous voulons exécuter
." Pour ce faire, Tesla a abandonné l'idée d'utiliser un noyau et a conçu l'architecture de Dojo autour d'un compilateur.
"Ce que nous faisons, c'est utiliser PiTorch. Nous créons une couche intermédiaire qui nous aide à paralléliser pour faire évoluer le matériel en dessous. Sous tout se trouve du code compilé." Pour créer un cadre qui peut s'adapter à tout travail futur, une pile logicielle chargée, c'est le seul moyen.
Tout en soulignant la flexibilité du logiciel, Venkataramanan a souligné que la plateforme qui fonctionne actuellement dans son laboratoire est pour le moment limitée à Tesla.
Vue d'ensemble de l'architecture du Dojo
Après avoir lu ce qui précède, examinons de plus près l'architecture du Dojo.
Tesla dispose d'un système d'intelligence artificielle exascale pour l'apprentissage automatique. Tesla dispose de suffisamment de capital pour embaucher des employés et construire des puces et des systèmes spécifiquement pour ses applications, tout comme les systèmes embarqués de Tesla.
Tesla construit non seulement sa propre puce IA, mais aussi un supercalculateur.
Analyse du système distribué
Chaque nœud de Dojo possède son propre processeur, mémoire et interface de communication.
Dojo Node
Il s'agit du pipeline de traitement du processeur Dojo.
Pipeline de traitement
Chaque nœud dispose de 1,25 Mo de SRAM. Dans les puces de formation et d’inférence de l’IA, une technique courante consiste à colocaliser la mémoire avec le calcul afin de minimiser les transferts de données, qui sont très coûteux du point de vue de la puissance et des performances.
Node Memory
Ensuite, chaque nœud est connecté à une grille 2D.
Interface réseau
Ceci est un aperçu du chemin des données.
Chemin de données
Voici un exemple de compréhension de liste que la puce peut faire.
List Parsing
Voici plus sur le jeu d'instructions, original de Tesla, plutôt que sur le jeu d'instructions d'un CPU/GPU Intel, Arm, NVIDIA ou AMD typique.
Jeu d'instructions
Dans l'intelligence artificielle, les formats arithmétiques sont importants, en particulier les formats pris en charge par la puce. Grâce à DOJO, Tesla peut étudier des formats courants tels que FP32, FP16 et BFP16. Ce sont des formats courants dans l’industrie.
Format arithmétique
Tesla travaille également sur le FP8 ou CFP8 configurable. Il est disponible en options de gamme 4/3 et 5/2. Ceci est similaire à la configuration NVIDIA H100 Hopper du FP8. Nous voyons également l'accélérateur d'IA de base Untether.AI Boqueria 1458 RISC-V se concentrant sur différents types de FP8.
Format arithmétique 2
Dojo propose également différents formats CFP16 pour une plus grande précision et prend en charge FP32, BFP16, CFP8 et CFP16.
Format Arithmétique 3
Ces noyaux sont ensuite intégrés dans le moule fabriqué. La puce D1 de Tesla est fabriquée par TSMC selon un processus de 7 nm. Chaque puce dispose de 354 nœuds de traitement Dojo et de 440 Mo de SRAM.
Première boîte d'intégration D1 Mold
Ces puces D1 sont emballées sur une tuile d'entraînement dojo. Les puces D1 sont testées puis assemblées en une tuile 5×5. Ces tuiles ont une bande passante de 4,5 To/s par bord. Ils ont également une enveloppe de puissance de 15 kW par module, soit environ 600 W par puce D1 après soustraction de la puissance utilisée par les 40 matrices d'E/S. La comparaison montre pourquoi quelque chose comme Lightmatter Passage serait plus attrayant si une entreprise ne souhaitait pas concevoir une telle chose.
Boitier d'intégration secondaire Tuile de formation Dojo
Le processeur d'interface du Dojo est situé en bordure de la grille 2D. Chaque bloc de formation dispose de 11 Go de SRAM et de 160 Go de DRAM partagée.
Topologie du système Dojo
Ce qui suit sont les données de bande passante pour la grille 2D reliant les nœuds de traitement.
Grille 2D logique de communication du système Dojo
Chaque système DIP et hôte fournit une liaison de 32 Go/s.
Communication système Dojo Liaison PCIe DIP et hôte
Tesla propose également des liaisons Z-plane pour les itinéraires plus longs. Dans le reste du discours, Tesla a parlé d’innovation au niveau du système.
Mécanisme de communication
Voici les limites de latence pour les dés et les tuiles, c'est pourquoi elles sont traitées différemment dans Dojo. La raison pour laquelle les liaisons dans le plan Z sont nécessaires est que les longs chemins sont coûteux.
Mécanisme de communication du système Dojo
Tout nœud de traitement peut accéder aux données à travers le système. Chaque nœud peut transmettre ou extraire des données vers SRAM ou DRAM.
Communication par lots du système Dojo
Dojo utilise un schéma d'adressage plat pour la communication.
Réseau système 1
Ces puces peuvent contourner les nœuds de traitement défectueux dans le logiciel.
Réseau système 2
Cela signifie que le logiciel doit comprendre la topologie du système.
System Network 3
Dojo ne garantit pas l'ordre du trafic de bout en bout, les paquets doivent donc être comptés à destination.
Réseau système 4
Voici comment les paquets comptent dans le cadre de la synchronisation du système.
Synchronisation du système
Le compilateur doit définir un arbre avec des nœuds
.
System Sync 2
Tesla dit qu'un exa-pod possède plus d'un million de processeurs (ou nœuds de calcul). Ce sont de grands systèmes.
Résumé
Tesla a construit le Dojo spécifiquement pour fonctionner à grande échelle. En règle générale, les startups cherchent à créer une ou plusieurs puces IA par système. De toute évidence, Tesla se concentre sur une plus grande échelle.
À bien des égards, il est logique que Tesla dispose d’un immense terrain d’entraînement en IA. Ce qui est encore plus excitant, c'est qu'il utilise non seulement des systèmes disponibles dans le commerce, mais qu'il construit également ses propres puces et systèmes. Certains ISA du côté scalaire sont empruntés à RISC-V, mais le côté vectoriel et de nombreuses architectures personnalisées par Tesla, cela nécessite donc beaucoup de travail.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Selon les informations du 8 avril, le PDG de Tesla, Elon Musk, a récemment révélé que Tesla s'était engagé à développer pleinement la technologie des voitures autonomes. Le très attendu taxi autonome sans pilote Robotaxi sera lancé le 8 août. L'éditeur de données a appris que la déclaration de Musk sur Auparavant, Reuters avait rapporté que le projet de Tesla de conduire des voitures se concentrerait sur la production de Robotaxi. Cependant, Musk a réfuté cette affirmation, accusant Reuters d'avoir annulé les projets de développement de voitures à bas prix et de publier à nouveau de faux rapports, tout en précisant que les voitures à bas prix Model 2 et Robotax

Selon les informations de ce site du 24 juillet, le PDG de Tesla, Elon Musk, a déclaré aujourd'hui lors d'une conférence téléphonique sur les résultats que la société était sur le point d'achever le plus grand cluster de formation en intelligence artificielle à ce jour, qui sera équipé de 2 000 GPU NVIDIA H100. Musk a également déclaré aux investisseurs lors de la conférence téléphonique sur les résultats de la société que Tesla travaillerait au développement de son supercalculateur Dojo, car les GPU de Nvidia sont chers. Ce site traduit une partie du discours de Musk comme suit : Le chemin pour rivaliser avec NVIDIA via Dojo est difficile, mais je pense que nous n'avons pas le choix. Nous dépendons désormais trop de NVIDIA. Du point de vue de NVIDIA, ils augmenteront inévitablement le prix des GPU à un niveau que le marché peut supporter, mais

Selon les informations du 7 mars, une vidéo de Tesla Cybertruck défiant la « Road to Hell's Revenge » dans la petite ville de l'Utah, aux États-Unis, a récemment été exposée sur Internet. Cliff est situé à Salt Lake City, dans l'Utah, aux États-Unis, et est un endroit populaire pour les amateurs de plein air. Il y a plus de 30 routes tout-terrain ici, et les parois rocheuses accidentées et abruptes attirent de nombreux amateurs de tout-terrain extrême. La vidéo montre que lorsque le Tesla Cybertruck a défié un ravin en forme de V proche de 45 degrés, il s'est appuyé sur la forte puissance de ses trois moteurs pour grimper régulièrement et a finalement réussi à atteindre le sommet. Lors de la montée, le Cybertruck s'est bien comporté sans aucun glissement, malgré la surface rocheuse glissante. Selon la compréhension de l'éditeur, les modèles Tesla Cybertruck sont divisés en arrière à moteur unique

Selon les informations du 6 mars, les médias ont récemment révélé que la nouvelle version haute performance Model 3 de Tesla avait passé les certifications coréennes pertinentes et divulgué une série de paramètres de puissance accrocheurs. Il est rapporté que cette nouvelle voiture sera équipée d'un système avancé à double moteur, comprenant un moteur asynchrone à induction 3D3 monté à l'avant et un moteur synchrone à aimant permanent 4D2 monté à l'arrière. Les deux travaillent ensemble pour produire une puissance incroyable. Plus précisément, le moteur avant fournit 215 chevaux, tandis que le moteur arrière fournit jusqu'à 412 chevaux, ce qui porte la puissance totale du véhicule à un étonnant 461 kW. Le moteur arrière 4D2 a à lui seul une puissance d’environ 303 kW. La conception du moteur de cette nouvelle voiture peut atteindre une puissance maximale lorsque la vitesse atteint 110 km/h, ce qui rend le nouveau modèle 3 plus performant lors de la conduite à grande vitesse.

Selon des informations du 29 avril, Tesla a récemment présenté publiquement sa très attendue technologie FSD de conduite entièrement autonome pour la première fois en Allemagne, marquant ainsi l'entrée officielle de la technologie FSD sur le marché européen. Lors de la démonstration, Rikard Fredriksson, conseiller principal du ministère suédois des Transports, a eu l'occasion d'en faire l'expérience. Il a pris une Tesla Model Y et a personnellement expérimenté la commodité du FSD (conduite entièrement autonome). Performances sur les routes allemandes. Fredriksson a occupé des postes liés à la sécurité des produits dans les projets automobiles d'Apple et possède une compréhension approfondie de la technologie de conduite autonome. Après avoir expérimenté le système d'aide à la conduite de Fredriksson, la conduite du FSD+12 est douce et naturelle. Il a également spécifiquement mentionné que lors d'un voyage du centre-ville de Munich à l'aéroport

Selon l'actualité du 24 avril, Tesla a publié aujourd'hui son rapport financier pour le premier trimestre 2024. Les rapports montrent que Tesla a réalisé un chiffre d'affaires de 21,301 milliards de dollars au cours du trimestre, soit une baisse de 9 % par rapport à la même période de l'année dernière. Ce chiffre est légèrement inférieur aux 22,3 milliards de dollars prévus par les analystes du marché. Dans le même temps, le bénéfice net de l'entreprise s'est élevé à 1,129 milliard de dollars, soit une forte baisse de 55 % sur un an. Tesla a connu un énorme succès dans la vente de véhicules. Au premier trimestre, 386 800 véhicules ont été livrés dans le monde, ce qui est nettement inférieur aux attentes précédentes du marché d'environ 430 000 véhicules. Par rapport à la même période de l'année dernière, le volume des livraisons a diminué de 8,3 % et par rapport au trimestre précédent, il a fortement diminué de 20,1 %. Il s'agit de la première baisse des livraisons d'une année sur l'autre pour Tesla depuis 2020. pour ralentir

La construction de la zone pilote de l'industrie du futur de Shanghai célèbre son « premier anniversaire ». Lors d'une conférence de presse organisée par Lu Yu, directeur de la division haute technologie du comité de gestion de la nouvelle zone de Lingang, des informations importantes sur le très attendu stockage d'énergie Tesla. le projet a été révélé. Lu Yu a déclaré que le projet prévoyait d'achever la production d'essai au cours de cette année et que l'échelle de production devrait être proche de 40 GWh. Cette nouvelle a attiré une large attention. Le projet de stockage d'énergie de Tesla revêt une grande importance pour le développement de l'industrie locale et l'utilisation des énergies renouvelables. En tant que constructeur de véhicules électriques de renommée mondiale, la participation de Tesla dans le domaine du stockage d’énergie a suscité beaucoup d’attention. En coopérant avec Shanghai, la construction par Tesla de projets de stockage d'énergie dans la nouvelle zone de Lingang contribuera à améliorer le niveau industriel local et les capacités d'innovation technologique. Lu Yu a également présenté les autres progrès de Lingang dans le domaine des nouvelles énergies. il a mentionné

Les progrès de la production du dernier pick-up purement électrique de Tesla, le Cybertruck, ont attiré beaucoup d'attention. Bien que Tesla ait fait profil bas, une récente vidéo aérienne de la Texas Gigafactory prise par un observateur de Tesla nommé Jeff Roberts semble révéler au monde extérieur des signes positifs de la production de Cybertruck. Selon la vidéo, il y a déjà plus de 300 Cybertrucks dans la Gigafactory Tesla au Texas, répartis dans diverses zones. Il s'agit cette fois du plus grand nombre de Cybertrucks jamais découverts dans l'usine, ce qui indique que la production de masse du modèle se développe rapidement. Cela montre que Tesla a fait des progrès significatifs dans la production du Cybertruck. Bien que Tesla ait déjà exprimé ses inquiétudes concernant Cybertr
