Table des matières
Les propriétés émergentes de CRATE en boîte blanche
Maison Périphériques technologiques IA Les nouveaux travaux du professeur Ma Yi : le ViT en boîte blanche parvient à réaliser une « émergence partitionnée », l'ère de l'apprentissage profond empirique touche-t-elle à sa fin ?

Les nouveaux travaux du professeur Ma Yi : le ViT en boîte blanche parvient à réaliser une « émergence partitionnée », l'ère de l'apprentissage profond empirique touche-t-elle à sa fin ?

Sep 14, 2023 pm 02:45 PM
模型 监督

Le modèle visuel de base basé sur Transformer a montré des performances très puissantes dans diverses tâches en aval, telles que la segmentation et la détection, et des modèles tels que DINO ont émergé avec des attributs de segmentation sémantique après une formation auto-supervisée.

Il est étrange que le modèle visuel Transformer ne montre pas de capacités d'émergence similaires après avoir été entraîné à la classification supervisée

Récemment, l'équipe du professeur Ma Yi a étudié un modèle basé sur l'architecture Transformer pour explorer l'émergence. La capacité de segmentation est-elle simplement le résultat d'un mécanisme d'apprentissage auto-supervisé complexe, ou si la même émergence peut être obtenue dans des conditions plus générales en concevant de manière appropriée l'architecture du modèle

Les nouveaux travaux du professeur Ma Yi : le ViT en boîte blanche parvient à réaliser une « émergence partitionnée », lère de lapprentissage profond empirique touche-t-elle à sa fin ?

Lien du code : https://github .com/Ma-Lab -Berkeley/CRATE

Veuillez cliquer sur le lien suivant pour consulter l'article : https://arxiv.org/abs/2308.16271

Après des expériences approfondies, les chercheurs ont démontré CRATE en utilisant le modèle Transformer en boîte blanche. sa conception modélise et poursuit explicitement la structure de faible dimension dans la distribution des données, les propriétés de segmentation au niveau entier et partiel émergent avec des formulations d'entraînement peu supervisées

Grâce à une analyse hiérarchique à grain fin, nous tirons une conclusion importante : les propriétés émergentes confirment fortement les capacités mathématiques de conception des réseaux en boîte blanche. Sur la base de ce résultat, nous avons proposé une méthode pour concevoir un modèle de base en boîte blanche, non seulement performant, mais également totalement interprétable mathématiquement.

Le professeur Ma Yi a également déclaré que la recherche sur l'apprentissage profond évoluera progressivement de La conception empirique se tourne vers des conseils théoriques.

Les nouveaux travaux du professeur Ma Yi : le ViT en boîte blanche parvient à réaliser une « émergence partitionnée », lère de lapprentissage profond empirique touche-t-elle à sa fin ?

Les propriétés émergentes de CRATE en boîte blanche

La capacité émergente de segmentation de DINO fait référence à la capacité du modèle DINO à segmenter les phrases d'entrée en fragments plus petits lors du traitement des tâches linguistiques et à effectuer une analyse sur chaque fragment. Traitement indépendant . Cette capacité permet au modèle DINO de mieux comprendre les structures de phrases complexes et les informations sémantiques, améliorant ainsi ses performances dans le domaine du traitement du langage naturel.

L'apprentissage des représentations dans les systèmes intelligents vise à intégrer la nature multimodale et de grande dimension des le monde Transformez les données sensorielles (images, langage, parole) sous une forme plus compacte tout en conservant leur structure de base de faible dimension, permettant une reconnaissance (telle que la classification), un regroupement (telle que la segmentation) et un suivi efficaces.

Les nouveaux travaux du professeur Ma Yi : le ViT en boîte blanche parvient à réaliser une « émergence partitionnée », lère de lapprentissage profond empirique touche-t-elle à sa fin ?

La formation des modèles d'apprentissage profond adopte généralement une approche basée sur les données, en saisissant des données à grande échelle et en apprenant de manière auto-supervisée

Parmi les modèles visuels de base, le modèle DINO montre des résultats surprenants Capacité émergente, les ViT peuvent reconnaître des informations de segmentation sémantique explicites même sans formation supervisée à la segmentation. Le modèle DINO de l'architecture Transformer auto-supervisée a bien fonctionné à cet égard

Les travaux suivants ont étudié comment utiliser ces informations de segmentation dans le modèle DINO et atteint des performances de pointe dans les tâches en aval telles que la segmentation. et la détection. Il existe également des travaux qui prouvent que les caractéristiques de l'avant-dernière couche des ViT formés avec DINO sont fortement liées aux informations de saillance dans l'entrée visuelle, telles que la distinction des limites du premier plan, de l'arrière-plan et des objets, améliorant ainsi les performances de segmentation d'image et autres. tâches.

Afin de mettre en évidence les attributs de segmentation, DINO doit combiner habilement les méthodes d'apprentissage auto-supervisé, de distillation des connaissances et de moyenne de poids pendant le processus de formation

Il n'est pas clair si chaque composant introduit dans DINO est utile pour la segmentation. Bien que DINO utilise également l’architecture ViT comme épine dorsale, le comportement d’émergence de segmentation n’a pas été observé dans les modèles ViT supervisés ordinaires entraînés sur des tâches de classification.

Émergence de CRATE

Sur la base du succès de DINO, les chercheurs ont voulu explorer si des pipelines d'apprentissage auto-supervisés complexes sont nécessaires pour obtenir des propriétés émergentes dans des modèles visuels de type Transformer.

Les chercheurs pensent qu'un moyen prometteur de promouvoir les propriétés de segmentation dans les modèles Transformer consiste à concevoir l'architecture du modèle Transformer en tenant compte de la structure des données d'entrée, qui représente également la profondeur des méthodes classiques d'apprentissage de la représentation avec l'intégration moderne de l'apprentissage basée sur les données. cadres.

Les nouveaux travaux du professeur Ma Yi : le ViT en boîte blanche parvient à réaliser une « émergence partitionnée », lère de lapprentissage profond empirique touche-t-elle à sa fin ?

Par rapport au modèle actuel de Transformer, cette méthode de conception peut également être appelée modèle de Transformer en boîte blanche.

Sur la base des travaux antérieurs du groupe du professeur Ma Yi, les chercheurs ont mené des expériences approfondies sur le modèle CRATE d'architecture boîte blanche, prouvant que la conception en boîte blanche de CRATE est à l'origine de l'émergence d'attributs de segmentation dans les graphiques d'auto-attention.

Ce qui doit être reformulé est : Évaluation qualitative

Les chercheurs ont utilisé la méthode de carte d'attention basée sur les jetons [CLS] pour expliquer et visualiser le modèle et ont découvert que la matrice requête-clé-valeur dans CRATE c'est pareil

Les nouveaux travaux du professeur Ma Yi : le ViT en boîte blanche parvient à réaliser une « émergence partitionnée », lère de lapprentissage profond empirique touche-t-elle à sa fin ?

On peut observer que la carte d'auto-attention du modèle CRATE peut correspondre à la sémantique de l'image d'entrée. Le réseau interne du modèle effectue une segmentation sémantique claire sur chaque image. A obtenu un effet similaire au modèle DINO.

Le ViT ordinaire ne présente pas de propriétés de segmentation similaires lorsqu'il est formé sur des tâches de classification supervisées

Les nouveaux travaux du professeur Ma Yi : le ViT en boîte blanche parvient à réaliser une « émergence partitionnée », lère de lapprentissage profond empirique touche-t-elle à sa fin ?

Sur la base de recherches antérieures sur l'apprentissage d'images visuelles de fonctionnalités profondes par blocs, les chercheurs ont comparé CRATE et ViT. le modèle a été étudié à l'aide de l'analyse en composantes principales (ACP). On peut constater que CRATE peut toujours capturer les limites des objets dans les images sans formation supervisée par segmentation.

Les nouveaux travaux du professeur Ma Yi : le ViT en boîte blanche parvient à réaliser une « émergence partitionnée », lère de lapprentissage profond empirique touche-t-elle à sa fin ?De plus, les composants principaux indiquent également l'alignement des caractéristiques de pièces similaires entre les jetons et les objets, comme le canal rouge correspondant aux jambes du cheval

, tandis que la visualisation PCA du modèle ViT supervisé est assez mal structurée .

Évaluation quantitative

Les chercheurs ont utilisé des techniques de segmentation et de détection d'objets existantes pour évaluer les propriétés de segmentation émergentes de CRATEComme le montre le graphique d'auto-attention, CRATE utilise des limites claires pour capturer explicitement les objets. sémantique au niveau. Afin de mesurer quantitativement la qualité de la segmentation, les chercheurs utilisent des cartes d'auto-attention pour générer des masques de segmentation et les comparent au mIoU (rapport moyen d'intersection sur union) entre eux et les masques réels.

Les résultats expérimentaux montrent que CRATE surpasse considérablement ViT en termes de scores visuels et mIOU, ce qui montre que la représentation interne de CRATE est plus efficace pour la tâche de génération de masques de segmentation

Les nouveaux travaux du professeur Ma Yi : le ViT en boîte blanche parvient à réaliser une « émergence partitionnée », lère de lapprentissage profond empirique touche-t-elle à sa fin ?

Object détection et segmentation fine

Afin de vérifier et d'évaluer davantage les riches informations sémantiques capturées par CRATE, les chercheurs ont adopté MaskCut, une méthode efficace de détection et de segmentation d'objets, pour obtenir un modèle d'évaluation automatisé sans annotation manuelle, qui peut être basé sur les jetons appris par les représentations CRATE pour extraire des segmentations plus fines à partir d'images.

Comme on peut le voir dans les résultats de segmentation sur COCO val2017, la représentation interne avec CRATE est meilleure que la ViT supervisée dans les indicateurs de détection et de segmentation MaskCut avec des fonctionnalités ViT supervisées est meilleure dans certains cas. est même impossible de générer un masque divisé. Les nouveaux travaux du professeur Ma Yi : le ViT en boîte blanche parvient à réaliser une « émergence partitionnée », lère de lapprentissage profond empirique touche-t-elle à sa fin ?

Analyse en boîte blanche des capacités de segmentation de CRATELes nouveaux travaux du professeur Ma Yi : le ViT en boîte blanche parvient à réaliser une « émergence partitionnée », lère de lapprentissage profond empirique touche-t-elle à sa fin ?

Le rôle de la profondeur dans CRATE

La conception de chaque couche de CRATE suit le même objectif conceptuel : optimiser la réduction du taux clairsemé et convertir le distribution de jetons sous une forme compacte et structurée. Après réécriture : La conception de chaque niveau de CRATE suit le même concept : optimiser la réduction du taux clairsemé et transformer la distribution des tokens en une forme compacte et structurée En supposant que l'émergence des capacités de segmentation sémantique dans CRATE est similaire à "Représentant des groupes de jetons appartenant à des catégories sémantiques similaires dans Z", on s'attend à ce que les performances de segmentation de CRATE puissent s'améliorer à mesure que la profondeur augmente.

Pour tester cela, les chercheurs ont utilisé le pipeline MaskCut pour évaluer quantitativement les performances de segmentation dans les représentations internes sur différentes couches ; tout en appliquant la visualisation PCA pour comprendre comment les segmentations émergent avec la profondeur.

Les nouveaux travaux du professeur Ma Yi : le ViT en boîte blanche parvient à réaliser une « émergence partitionnée », lère de lapprentissage profond empirique touche-t-elle à sa fin ?

Les résultats expérimentaux montrent que le score de segmentation s'améliore lors de l'utilisation de représentations provenant de couches plus profondes, ce qui est très cohérent avec la conception d'optimisation incrémentielle de CRATE.

En revanche, même si les performances de ViT-B/8 s'améliorent légèrement dans les couches ultérieures, son score de segmentation est nettement inférieur à celui de CRATE, et les résultats PCA montrent que les représentations extraites des couches profondes de CRATE accordent progressivement plus d'attention au premier plan. objets et est capable de capturer des détails au niveau de la texture.

Expérience de fusion de CRATE

Le bloc d'attention (MSSA) et le bloc MLP (ISTA) dans CRATE sont différents du bloc d'attention dans ViT

Afin d'étudier chaque composant pour l'impact Parmi les propriétés de segmentation émergentes de CRATE, les chercheurs ont sélectionné trois variantes de CRATE : CRATE, CRATE-MHSA et CRATE-MLP. Ces variantes représentent respectivement le bloc d'attention (MHSA) et le bloc MLP dans ViT

Les chercheurs ont appliqué les mêmes paramètres de pré-entraînement sur l'ensemble de données ImageNet-21k, puis ont appliqué une évaluation de segmentation grossière et une évaluation de segmentation de masque pour comparer quantitativement les performances. de différents modèles.

Les nouveaux travaux du professeur Ma Yi : le ViT en boîte blanche parvient à réaliser une « émergence partitionnée », lère de lapprentissage profond empirique touche-t-elle à sa fin ?

Selon les résultats expérimentaux, CRATE surpasse considérablement les autres architectures de modèles dans toutes les tâches. Il convient de noter que bien que la différence architecturale entre MHSA et MSSA soit faible, le simple remplacement de MHSA dans ViT par MSSA dans CRATE peut améliorer considérablement les performances de ViT en segmentation grossière (c'est-à-dire les performances de VOC Seg). Cela prouve encore une fois l'efficacité de la conception de la boîte blanche

Le contenu qui doit être réécrit est : l'identification des attributs sémantiques de l'en-tête d'attention

[CLS] La carte d'auto-attention entre le le jeton et le jeton du bloc image sont visibles. Dans un masque de segmentation clair, selon l'intuition, chaque tête d'attention devrait être capable de capter une partie des caractéristiques des données.

Les chercheurs ont d'abord saisi des images dans le modèle CRATE, puis ont demandé à des humains d'inspecter et de sélectionner quatre têtes d'attention qui semblaient avoir une signification sémantique ; ils ont ensuite effectué une visualisation de la carte d'auto-attention sur ces têtes d'attention sur d'autres images d'entrée.

Les nouveaux travaux du professeur Ma Yi : le ViT en boîte blanche parvient à réaliser une « émergence partitionnée », lère de lapprentissage profond empirique touche-t-elle à sa fin ?

On peut constater que chaque tête d'attention peut capturer différentes parties de l'objet, et même différentes sémantiques. Par exemple, la tête d'attention de la première colonne peut capturer les pattes de différents animaux, tandis que la tête d'attention de la dernière colonne peut capturer les oreilles et la tête

Depuis le modèle de pièce déformable (modèle de pièce déformable) et cette capacité à analyser l'entrée visuelle dans des hiérarchies partie-tout est un objectif des architectures de reconnaissance depuis la sortie des réseaux de capsules, et le modèle CRATE conçu en boîte blanche a également cette capacité.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Commandes de chat et comment les utiliser
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Le modèle MoE open source le plus puissant au monde est ici, avec des capacités chinoises comparables à celles du GPT-4, et le prix ne représente que près d'un pour cent de celui du GPT-4-Turbo. Le modèle MoE open source le plus puissant au monde est ici, avec des capacités chinoises comparables à celles du GPT-4, et le prix ne représente que près d'un pour cent de celui du GPT-4-Turbo. May 07, 2024 pm 04:13 PM

Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

L'IA bouleverse la recherche mathématique ! Le lauréat de la médaille Fields et mathématicien sino-américain a dirigé 11 articles les mieux classés | Aimé par Terence Tao L'IA bouleverse la recherche mathématique ! Le lauréat de la médaille Fields et mathématicien sino-américain a dirigé 11 articles les mieux classés | Aimé par Terence Tao Apr 09, 2024 am 11:52 AM

L’IA change effectivement les mathématiques. Récemment, Tao Zhexuan, qui a prêté une attention particulière à cette question, a transmis le dernier numéro du « Bulletin de l'American Mathematical Society » (Bulletin de l'American Mathematical Society). En se concentrant sur le thème « Les machines changeront-elles les mathématiques ? », de nombreux mathématiciens ont exprimé leurs opinions. L'ensemble du processus a été plein d'étincelles, intense et passionnant. L'auteur dispose d'une équipe solide, comprenant Akshay Venkatesh, lauréat de la médaille Fields, le mathématicien chinois Zheng Lejun, l'informaticien de l'Université de New York Ernest Davis et de nombreux autres universitaires bien connus du secteur. Le monde de l’IA a radicalement changé. Vous savez, bon nombre de ces articles ont été soumis il y a un an.

Google est ravi : les performances de JAX surpassent Pytorch et TensorFlow ! Cela pourrait devenir le choix le plus rapide pour la formation à l'inférence GPU Google est ravi : les performances de JAX surpassent Pytorch et TensorFlow ! Cela pourrait devenir le choix le plus rapide pour la formation à l'inférence GPU Apr 01, 2024 pm 07:46 PM

Les performances de JAX, promu par Google, ont dépassé celles de Pytorch et TensorFlow lors de récents tests de référence, se classant au premier rang sur 7 indicateurs. Et le test n’a pas été fait sur le TPU présentant les meilleures performances JAX. Bien que parmi les développeurs, Pytorch soit toujours plus populaire que Tensorflow. Mais à l’avenir, des modèles plus volumineux seront peut-être formés et exécutés sur la base de la plate-forme JAX. Modèles Récemment, l'équipe Keras a comparé trois backends (TensorFlow, JAX, PyTorch) avec l'implémentation native de PyTorch et Keras2 avec TensorFlow. Premièrement, ils sélectionnent un ensemble de

KAN, qui remplace MLP, a été étendu à la convolution par des projets open source KAN, qui remplace MLP, a été étendu à la convolution par des projets open source Jun 01, 2024 pm 10:03 PM

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

Bonjour, Atlas électrique ! Le robot Boston Dynamics revient à la vie, des mouvements étranges à 180 degrés effraient Musk Bonjour, Atlas électrique ! Le robot Boston Dynamics revient à la vie, des mouvements étranges à 180 degrés effraient Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

Nouveaux travaux sur la prédiction de séries chronologiques + grand modèle NLP : générer automatiquement des invites implicites pour la prédiction de séries chronologiques Nouveaux travaux sur la prédiction de séries chronologiques + grand modèle NLP : générer automatiquement des invites implicites pour la prédiction de séries chronologiques Mar 18, 2024 am 09:20 AM

Aujourd'hui, j'aimerais partager un travail de recherche récent de l'Université du Connecticut qui propose une méthode pour aligner les données de séries chronologiques avec de grands modèles de traitement du langage naturel (NLP) sur l'espace latent afin d'améliorer les performances de prévision des séries chronologiques. La clé de cette méthode consiste à utiliser des indices spatiaux latents (invites) pour améliorer la précision des prévisions de séries chronologiques. Titre de l'article : S2IP-LLM : SemanticSpaceInformedPromptLearningwithLLMforTimeSeriesForecasting Adresse de téléchargement : https://arxiv.org/pdf/2403.05798v1.pdf 1. Modèle de fond de problème important

FisheyeDetNet : le premier algorithme de détection de cible basé sur une caméra fisheye FisheyeDetNet : le premier algorithme de détection de cible basé sur une caméra fisheye Apr 26, 2024 am 11:37 AM

La détection de cibles est un problème relativement mature dans les systèmes de conduite autonome, parmi lesquels la détection des piétons est l'un des premiers algorithmes à être déployés. Des recherches très complètes ont été menées dans la plupart des articles. Cependant, la perception de la distance à l’aide de caméras fisheye pour une vue panoramique est relativement moins étudiée. En raison de la distorsion radiale importante, la représentation standard du cadre de délimitation est difficile à mettre en œuvre dans les caméras fisheye. Pour alléger la description ci-dessus, nous explorons les conceptions étendues de boîtes englobantes, d'ellipses et de polygones généraux dans des représentations polaires/angulaires et définissons une métrique de segmentation d'instance mIOU pour analyser ces représentations. Le modèle fisheyeDetNet proposé avec une forme polygonale surpasse les autres modèles et atteint simultanément 49,5 % de mAP sur l'ensemble de données de la caméra fisheye Valeo pour la conduite autonome.

Les robots Tesla travaillent dans les usines, Musk : Le degré de liberté des mains atteindra 22 cette année ! Les robots Tesla travaillent dans les usines, Musk : Le degré de liberté des mains atteindra 22 cette année ! May 06, 2024 pm 04:13 PM

La dernière vidéo du robot Optimus de Tesla est sortie, et il peut déjà fonctionner en usine. À vitesse normale, il trie les batteries (les batteries 4680 de Tesla) comme ceci : Le responsable a également publié à quoi cela ressemble à une vitesse 20 fois supérieure - sur un petit "poste de travail", en sélectionnant et en sélectionnant et en sélectionnant : Cette fois, il est publié L'un des points forts de la vidéo est qu'Optimus réalise ce travail en usine, de manière totalement autonome, sans intervention humaine tout au long du processus. Et du point de vue d'Optimus, il peut également récupérer et placer la batterie tordue, en se concentrant sur la correction automatique des erreurs : concernant la main d'Optimus, le scientifique de NVIDIA Jim Fan a donné une évaluation élevée : la main d'Optimus est l'un des robots à cinq doigts du monde. le plus adroit. Ses mains ne sont pas seulement tactiles

See all articles