Revoir! Résumer de manière exhaustive le rôle important des modèles de base dans la promotion de la conduite autonome-IA-php.cn

Récemment, avec le développement et les percées de la technologie d'apprentissage en profondeur, les modèles de base à grande échelle ont obtenu des résultats significatifs dans les domaines du traitement du langage naturel et de la vision par ordinateur. L’application de modèles de base à la conduite autonome présente également de grandes perspectives de développement, susceptibles d’améliorer la compréhension et le raisonnement des scénarios.

Grâce à une pré-formation sur un langage riche et des données visuelles, le modèle de base peut comprendre et interpréter divers éléments des scénarios de conduite autonome et effectuer un raisonnement, fournissant un langage et des commandes d'action pour piloter la prise de décision et la planification.
Le modèle de base peut améliorer les données sur la base de la compréhension des scénarios de conduite et est utilisé pour fournir les rares scénarios réalisables dans des distributions à longue traîne qui sont peu susceptibles d'être rencontrés lors d'une conduite régulière et de la collecte de données afin d'améliorer la précision du système de conduite autonome. et à des fins de fiabilité.
Un autre scénario pour appliquer les modèles de base est le modèle mondial, qui démontre la capacité à comprendre les lois physiques et les choses dynamiques. En utilisant un paradigme d'apprentissage auto-supervisé pour apprendre à partir de données massives, le modèle mondial peut générer des scènes de conduite invisibles mais crédibles, promouvoir l'amélioration de la prédiction dynamique du comportement des objets et le processus de formation hors ligne des stratégies de conduite.

Cet article décrit principalement l'application du modèle de base dans le domaine de la conduite autonome, et sur la base de l'application du modèle de base dans le modèle de conduite autonome, l'application du modèle de base dans l'amélioration des données et l'application du modèle mondial dans le modèle de base en conduite autonome. Développer en termes d'aspects. En termes de modèles de conduite autonome, les modèles de base peuvent être utilisés pour mettre en œuvre diverses fonctions de conduite autonome, telles que la perception, la prise de décision et le contrôle du véhicule. Grâce au modèle de base, le véhicule peut obtenir des informations sur l'environnement et prendre les décisions et actions de contrôle correspondantes. En termes d'amélioration des données, le modèle de base peut être utilisé pour améliorer les données

Lien vers cet article : https://arxiv.org/pdf/2405.02288

Modèle de conduite autonome

Conduite de type humain basée sur le langage et modèles de base visuels

Dans la conduite autonome, les modèles de base du langage et de la vision ont montré un grand potentiel d'application en améliorant la compréhension et le raisonnement des modèles de conduite autonome dans des scénarios de conduite, il est possible d'obtenir une conduite autonome de type humain. La figure ci-dessous montre la compréhension de la scène de conduite par le modèle de base basé sur le langage et la vision et le raisonnement consistant à donner des instructions et un comportement de conduite guidés par le langage.

Revoir! Résumer de manière exhaustive le rôle important des modèles de base dans la promotion de la conduite autonome

Le modèle de base améliore le paradigme des modèles de conduite autonomes

De nombreux travaux ont prouvé que le langage et les caractéristiques visuelles peuvent améliorer efficacement la compréhension du modèle de la scène de conduite. Après avoir obtenu la compréhension perceptuelle globale de l'environnement actuel, le modèle de base. donnera une série de commandes linguistiques, telles que : "Il y a un feu rouge devant, ralentissez et conduisez lentement", "Il y a un carrefour devant, faites attention aux piétons" et d'autres commandes linguistiques associées, afin que la conduite autonome la voiture peut effectuer le comportement de conduite final selon les commandes linguistiques pertinentes.

Ces dernières années, le monde universitaire et l’industrie ont intégré les connaissances linguistiques de GPT dans le processus décisionnel en matière de conduite autonome. Améliorer les performances de la conduite autonome sous forme de commandes linguistiques pour promouvoir les applications dans la conduite autonome de grands modèles. Étant donné que le grand modèle devrait être véritablement déployé côté véhicule, il doit en fin de compte dépendre d'instructions de planification ou de contrôle, et le modèle de base devrait en fin de compte autoriser la conduite autonome à partir du niveau de l'état d'action. Certains chercheurs ont procédé à des explorations préliminaires, mais il reste encore beaucoup à faire. Plus important encore, certains chercheurs ont exploré la construction de modèles de conduite autonome grâce à une méthode similaire à GPT, qui génère directement des trajectoires basées sur des modèles de langage à grande échelle, puis les implémente via des commandes de contrôle. Les travaux connexes ont été résumés dans le tableau suivant.

Revoir! Résumer de manière exhaustive le rôle important des modèles de base dans la promotion de la conduite autonome

Utilisez un réseau fédérateur pré-entraîné pour la conduite autonome de bout en bout

L'idée principale du contenu connexe ci-dessus est d'améliorer l'interprétabilité des décisions de conduite autonome, d'améliorer la compréhension et l'analyse des scènes, et guider la planification ou le contrôle du système de conduite autonome. Au cours de la dernière période, de nombreux travaux ont été réalisés pour optimiser le réseau fédérateur du modèle pré-entraîné de diverses manières et ont obtenu de très bons résultats. Par conséquent, afin de résumer de manière plus complète l'application des modèles de base à la conduite autonome, nous résumons et examinons le réseau fédérateur pré-entraîné et les recherches qui ont obtenu de très bons résultats. La figure ci-dessous montre le processus global de conduite autonome de bout en bout.

Revoir! Résumer de manière exhaustive le rôle important des modèles de base dans la promotion de la conduite autonome

Organigramme d'un système de conduite autonome de bout en bout basé sur un réseau fédérateur pré-entraîné

Dans le processus global de conduite autonome de bout en bout, l'extraction d'informations de bas niveau à partir de données brutes détermine dans une certaine mesure le potentiel des performances ultérieures du modèle. Une excellente base de pré-entraînement peut donner au modèle des capacités d'apprentissage de fonctionnalités plus fortes. Les réseaux convolutifs pré-entraînés tels que ResNet et VGG sont les réseaux fédérateurs les plus largement utilisés pour l'extraction de caractéristiques visuelles de modèles de bout en bout. Ces réseaux pré-entraînés sont généralement formés en utilisant la détection ou la segmentation d'objets comme tâche d'extraction de caractéristiques généralisées, et les performances qu'ils atteignent ont été vérifiées dans de nombreux travaux.

De plus, les premiers modèles de conduite autonome de bout en bout étaient principalement basés sur divers types de réseaux neuronaux convolutifs et étaient complétés par un apprentissage par imitation ou un apprentissage par renforcement. Certains travaux récents ont tenté de construire un système de conduite autonome de bout en bout avec une structure de réseau Transformer et ont également obtenu des résultats relativement bons, comme Transfuser, FusionAD, UniAD et d'autres travaux.

Amélioration des données

Avec le développement ultérieur de la technologie d'apprentissage en profondeur et la poursuite de l'amélioration et de la mise à niveau de l'architecture réseau sous-jacente, le modèle de base avec pré-formation et réglage fin a montré des performances de plus en plus puissantes. Le modèle de base représenté par GPT a permis la transformation de grands modèles des règles du paradigme d'apprentissage vers une approche basée sur les données. L’importance des données en tant que maillon clé de l’apprentissage des modèles est irremplaçable. Lors de la formation et des tests des modèles de conduite autonome, une grande quantité de données de scène est utilisée pour permettre au modèle d'avoir de bonnes capacités de compréhension et de prise de décision pour divers scénarios de route et de trafic. Le problème à longue traîne auquel est confrontée la conduite autonome réside également dans le fait qu'il existe une infinité de scénarios de bord inconnus, ce qui donne l'impression que la capacité de généralisation du modèle n'est jamais suffisante, ce qui entraîne de mauvaises performances.

L'augmentation des données est cruciale pour améliorer la capacité de généralisation des modèles de conduite autonome. La mise en œuvre de l'augmentation des données doit considérer deux aspects

D'une part : comment obtenir des données à grande échelle afin que les données fournies au modèle de conduite autonome soient suffisamment diverses et étendues
D'autre part : comment obtenir autant de données que possible Les données de haute qualité, utilisées pour la formation et les tests de modèles de conduite autonome, sont précises et fiables

Par conséquent, les travaux de recherche connexes effectuent principalement des recherches techniques liées aux deux aspects ci-dessus. L'un consiste à enrichir le contenu des données. dans l'ensemble de données existant et améliore les caractéristiques des données dans les scénarios de conduite. La seconde consiste à générer des scénarios de conduite à plusieurs niveaux grâce à la simulation.

Extension des ensembles de données de conduite autonome

Les ensembles de données de conduite autonome existants sont principalement obtenus en enregistrant les données des capteurs, puis en étiquetant les données. Les caractéristiques des données obtenues de cette manière sont généralement de très bas niveau et l'ampleur de l'ensemble de données est également relativement faible, ce qui est totalement insuffisant pour l'espace des caractéristiques visuelles des scénarios de conduite autonome. Les capacités avancées de compréhension sémantique, de raisonnement et d'interprétation du modèle de base représenté par le modèle de langage fournissent de nouvelles idées et approches techniques pour l'enrichissement et l'expansion des ensembles de données de conduite autonome. L'élargissement de l'ensemble de données en tirant parti des capacités avancées de compréhension, de raisonnement et d'interprétation du modèle sous-jacent peut aider à mieux évaluer l'explicabilité et le contrôle des systèmes de conduite autonome, améliorant ainsi la sécurité et la fiabilité des systèmes de conduite autonome.

Générer des scènes de conduite

Les scènes de conduite sont d'une grande importance pour la conduite autonome. Afin d'obtenir différentes données de scène de conduite, s'appuyer uniquement sur les capteurs du véhicule pour la collecte en temps réel nécessite des coûts énormes, et il est difficile d'obtenir suffisamment de données de scène pour certaines scènes périphériques. La génération de scènes de conduite réalistes grâce à la simulation a attiré l'attention de nombreux chercheurs. La recherche sur la simulation du trafic est principalement divisée en deux catégories : basée sur des règles et basée sur des données.

Approche basée sur des règles : utilisez des règles prédéfinies, qui sont souvent insuffisantes pour décrire des scénarios de conduite complexes, et les scénarios de conduite simulés sont plus simples et plus généraux
Approche basée sur les données : utilisez les données de conduite pour entraîner le modèle, le modèle peut apprendre et s’adapter continuellement. Cependant, les méthodes basées sur les données nécessitent généralement une grande quantité de données étiquetées pour la formation, ce qui entrave le développement ultérieur de la simulation du trafic. Avec le développement de la technologie, la méthode actuelle de génération de données est progressivement passée d'une méthode basée sur des règles à une méthode basée sur les données. méthode pilotée. En simulant efficacement et précisément des scénarios de conduite, y compris diverses situations complexes et dangereuses, une grande quantité de données de formation est fournie pour l'apprentissage de modèles, ce qui peut améliorer efficacement la capacité de généralisation du système de conduite autonome. Dans le même temps, les scénarios de conduite générés peuvent également être utilisés pour évaluer différents systèmes et algorithmes de conduite autonome afin de tester et de vérifier les performances du système. Le tableau ci-dessous est un résumé des différentes stratégies d’augmentation des données.

Résumé des différentes stratégies d'augmentation des données Revoir! Résumer de manière exhaustive le rôle important des modèles de base dans la promotion de la conduite autonome

Modèle mondial

Un modèle mondial est considéré comme un modèle d'intelligence artificielle qui contient une compréhension ou une représentation globale de l'environnement dans lequel il opère. Le modèle est capable de simuler l’environnement pour faire des prédictions ou des décisions. Dans la littérature récente, le terme « modèle mondial » est évoqué dans le contexte de l’apprentissage par renforcement. Ce concept gagne également du terrain dans les applications de conduite autonome en raison de sa capacité à comprendre et à élucider la dynamique de l’environnement de conduite. Les modèles mondiaux sont étroitement liés à l’apprentissage par renforcement, à l’apprentissage par imitation et aux modèles génératifs profonds. Cependant, l'utilisation de modèles mondiaux dans l'apprentissage par renforcement et l'apprentissage par imitation nécessite généralement des données bien étiquetées, et des méthodes telles que SEM2 et MILE sont appliquées dans le paradigme supervisé. Dans le même temps, il existe également des tentatives pour combiner l’apprentissage par renforcement et l’apprentissage non supervisé en s’appuyant sur les limites des données étiquetées. En raison de leur association étroite avec l’apprentissage auto-supervisé, les modèles génératifs profonds sont devenus de plus en plus populaires et de nombreux travaux ont été proposés. La figure ci-dessous montre l'organigramme global de l'utilisation du modèle mondial pour améliorer le modèle de conduite autonome.

Revoir! Résumer de manière exhaustive le rôle important des modèles de base dans la promotion de la conduite autonome

Organigramme global pour l'amélioration du modèle de conduite autonome du modèle mondial

Modèle génératif profond

Les modèles génératifs profonds incluent généralement des auto-encodeurs variationnels, des réseaux antagonistes génératifs, des modèles de flux et des modèles autorégressifs.

Les auto-encodeurs variationnels combinent les idées des auto-encodeurs et des modèles graphiques probabilistes pour apprendre la structure sous-jacente des données et générer de nouveaux échantillons
Les réseaux contradictoires génératifs se composent de deux réseaux neuronaux, un générateur et un discriminateur, qui utilisent l'adversité. Les formations rivalisent et améliorent
Le modèle de flux convertit une distribution a priori simple en une distribution postérieure complexe grâce à une série de transformations réversibles pour générer des échantillons de données similaires
Un modèle autorégressif est un type de séquence L'analyse La méthode, basée sur l'autocorrélation entre les données de séquence, décrit la relation entre les observations actuelles et les observations passées. L'estimation des paramètres du modèle est généralement effectuée à l'aide de la méthode des moindres carrés et de l'estimation du maximum de vraisemblance. Le modèle de diffusion est un modèle autorégressif typique qui apprend un processus de débruitage par étapes à partir de données de bruit pur. En raison de ses puissantes performances génératives, le modèle de diffusion est un nouveau modèle SOTA parmi les modèles génératifs profonds actuels

Méthodes génératives

Basés sur la puissante capacité des modèles génératifs profonds, les modèles génératifs profonds sont utilisés comme modèles mondiaux pour apprendre à conduire des scénarios pour améliorer la conduite automatique sont progressivement devenus un point chaud de la recherche. Nous examinons ensuite l'utilisation de modèles génératifs profonds comme modèles mondiaux dans la conduite autonome. La vision est l’un des moyens les plus directs et les plus efficaces permettant aux humains d’obtenir des informations sur le monde, car les données d’image contiennent des informations extrêmement riches sur les caractéristiques. De nombreux travaux antérieurs ont complété la tâche de génération d'images à travers des modèles mondiaux, montrant que les modèles mondiaux ont de bonnes capacités de compréhension et de raisonnement pour les données d'image. Dans l’ensemble, les chercheurs espèrent apprendre les lois évolutives inhérentes au monde à partir de données d’images, puis prédire les états futurs. Combiné à l'apprentissage auto-supervisé, le modèle mondial est utilisé pour apprendre à partir des données d'image, libérant ainsi pleinement les capacités de raisonnement du modèle et fournissant une direction réalisable pour construire un modèle de base généralisé dans le domaine visuel. La figure ci-dessous montre un résumé de certains travaux connexes utilisant des modèles mondiaux.

Revoir! Résumer de manière exhaustive le rôle important des modèles de base dans la promotion de la conduite autonome

Un résumé des travaux utilisant des modèles mondiaux pour la prédiction

Méthodes non génératives

Par rapport aux modèles mondiaux génératifs, LeCun a développé ses différences dans les modèles mondiaux en proposant le concept Joint Extraction and Prediction Architecture (JEPA) . Il s'agit d'une architecture non générative et auto-supervisée car elle ne prédit pas la sortie directement sur la base des données d'entrée, mais code les données d'entrée dans un espace abstrait pour compléter la prédiction finale. L’avantage de cette méthode de prédiction est qu’elle ne nécessite pas de prédire toutes les informations sur le résultat et peut éliminer les détails non pertinents.

JEPA est une architecture d'apprentissage auto-supervisée basée sur des modèles énergétiques, qui observe et apprend le fonctionnement du monde et des lois hautement généralisées. JEPA présente également un grand potentiel en matière de conduite autonome et devrait générer des scénarios de conduite et des stratégies de conduite de haute qualité en apprenant comment fonctionne la conduite.

Conclusion

Cet article donne un aperçu complet du rôle important des modèles de base dans les applications de conduite autonome. À en juger par le résumé et les résultats des travaux de recherche pertinents examinés dans cet article, une autre direction méritant d'être explorée plus avant est la manière de concevoir une architecture de réseau efficace pour l'apprentissage auto-supervisé. L'apprentissage auto-supervisé peut efficacement dépasser les limites de l'annotation des données, permettant au modèle d'apprendre des données à grande échelle et de libérer pleinement les capacités de raisonnement du modèle. Si le modèle de base de la conduite autonome peut être formé à l’aide de différentes échelles de données de scènes de conduite dans le cadre d’un paradigme d’apprentissage auto-supervisé, sa capacité de généralisation devrait être considérablement améliorée. De telles avancées pourraient permettre un modèle de base plus général.

En bref, bien que l'application du modèle de base à la conduite autonome présente de nombreux défis, son espace d'application et ses perspectives de développement sont très larges. Dans le futur, nous continuerons d’observer les progrès des modèles de base appliqués à la conduite autonome.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Comment réparer KB5055612 ne parvient pas à s'installer dans Windows 10?

4 Il y a quelques semaines By DDD

<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

<🎜>: Grow A Garden - Guide de mutation complet

3 Il y a quelques semaines By DDD

Nordhold: Système de fusion, expliqué

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Tutoriel Java

1673

Tutoriel CakePHP

1428

Tutoriel Laravel

1333

Tutoriel PHP

1278

Tutoriel C#

1257

Afficher plus

Related knowledge

Comment résoudre le problème de la longue traîne dans les scénarios de conduite autonome ? Jun 02, 2024 pm 02:44 PM

Hier, lors de l'entretien, on m'a demandé si j'avais posé des questions à longue traîne, j'ai donc pensé faire un bref résumé. Le problème à longue traîne de la conduite autonome fait référence aux cas extrêmes dans les véhicules autonomes, c'est-à-dire à des scénarios possibles avec une faible probabilité d'occurrence. Le problème perçu de la longue traîne est l’une des principales raisons limitant actuellement le domaine de conception opérationnelle des véhicules autonomes intelligents à véhicule unique. L'architecture sous-jacente et la plupart des problèmes techniques de la conduite autonome ont été résolus, et les 5 % restants des problèmes à longue traîne sont progressivement devenus la clé pour restreindre le développement de la conduite autonome. Ces problèmes incluent une variété de scénarios fragmentés, de situations extrêmes et de comportements humains imprévisibles. La « longue traîne » des scénarios limites dans la conduite autonome fait référence aux cas limites dans les véhicules autonomes (VA). Les cas limites sont des scénarios possibles avec une faible probabilité d'occurrence. ces événements rares

Le modèle MoE open source le plus puissant au monde est ici, avec des capacités chinoises comparables à celles du GPT-4, et le prix ne représente que près d'un pour cent de celui du GPT-4-Turbo. May 07, 2024 pm 04:13 PM

Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

L'IA bouleverse la recherche mathématique ! Le lauréat de la médaille Fields et mathématicien sino-américain a dirigé 11 articles les mieux classés | Aimé par Terence Tao Apr 09, 2024 am 11:52 AM

L’IA change effectivement les mathématiques. Récemment, Tao Zhexuan, qui a prêté une attention particulière à cette question, a transmis le dernier numéro du « Bulletin de l'American Mathematical Society » (Bulletin de l'American Mathematical Society). En se concentrant sur le thème « Les machines changeront-elles les mathématiques ? », de nombreux mathématiciens ont exprimé leurs opinions. L'ensemble du processus a été plein d'étincelles, intense et passionnant. L'auteur dispose d'une équipe solide, comprenant Akshay Venkatesh, lauréat de la médaille Fields, le mathématicien chinois Zheng Lejun, l'informaticien de l'Université de New York Ernest Davis et de nombreux autres universitaires bien connus du secteur. Le monde de l’IA a radicalement changé. Vous savez, bon nombre de ces articles ont été soumis il y a un an.

KAN, qui remplace MLP, a été étendu à la convolution par des projets open source Jun 01, 2024 pm 10:03 PM

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

Bonjour, Atlas électrique ! Le robot Boston Dynamics revient à la vie, des mouvements étranges à 180 degrés effraient Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

Les robots Tesla travaillent dans les usines, Musk : Le degré de liberté des mains atteindra 22 cette année ! May 06, 2024 pm 04:13 PM

La dernière vidéo du robot Optimus de Tesla est sortie, et il peut déjà fonctionner en usine. À vitesse normale, il trie les batteries (les batteries 4680 de Tesla) comme ceci : Le responsable a également publié à quoi cela ressemble à une vitesse 20 fois supérieure - sur un petit "poste de travail", en sélectionnant et en sélectionnant et en sélectionnant : Cette fois, il est publié L'un des points forts de la vidéo est qu'Optimus réalise ce travail en usine, de manière totalement autonome, sans intervention humaine tout au long du processus. Et du point de vue d'Optimus, il peut également récupérer et placer la batterie tordue, en se concentrant sur la correction automatique des erreurs : concernant la main d'Optimus, le scientifique de NVIDIA Jim Fan a donné une évaluation élevée : la main d'Optimus est l'un des robots à cinq doigts du monde. le plus adroit. Ses mains ne sont pas seulement tactiles

$Les dernières nouvelles de l'Université d'Oxford ! Mickey : correspondance d'images 2D en 3D SOTA ! (CVPR\'24)$ Les dernières nouvelles de l'Université d'Oxford ! Mickey : correspondance d'images 2D en 3D SOTA ! (CVPR\'24) Apr 23, 2024 pm 01:20 PM

Lien du projet écrit devant : https://nianticlabs.github.io/mickey/ Étant donné deux images, la pose de la caméra entre elles peut être estimée en établissant la correspondance entre les images. En règle générale, ces correspondances sont 2D à 2D et nos poses estimées sont à échelle indéterminée. Certaines applications, telles que la réalité augmentée instantanée, à tout moment et en tout lieu, nécessitent une estimation de pose des métriques d'échelle, elles s'appuient donc sur des estimateurs de profondeur externes pour récupérer l'échelle. Cet article propose MicKey, un processus de correspondance de points clés capable de prédire les correspondances métriques dans l'espace d'une caméra 3D. En apprenant la correspondance des coordonnées 3D entre les images, nous sommes en mesure de déduire des métriques relatives.

FisheyeDetNet : le premier algorithme de détection de cible basé sur une caméra fisheye Apr 26, 2024 am 11:37 AM

La détection de cibles est un problème relativement mature dans les systèmes de conduite autonome, parmi lesquels la détection des piétons est l'un des premiers algorithmes à être déployés. Des recherches très complètes ont été menées dans la plupart des articles. Cependant, la perception de la distance à l’aide de caméras fisheye pour une vue panoramique est relativement moins étudiée. En raison de la distorsion radiale importante, la représentation standard du cadre de délimitation est difficile à mettre en œuvre dans les caméras fisheye. Pour alléger la description ci-dessus, nous explorons les conceptions étendues de boîtes englobantes, d'ellipses et de polygones généraux dans des représentations polaires/angulaires et définissons une métrique de segmentation d'instance mIOU pour analyser ces représentations. Le modèle fisheyeDetNet proposé avec une forme polygonale surpasse les autres modèles et atteint simultanément 49,5 % de mAP sur l'ensemble de données de la caméra fisheye Valeo pour la conduite autonome.

See all articles