


Parlons de plusieurs grands modèles et concepts de conduite autonome devenus populaires récemment.
Diverses applications de grands modèles sont encore populaires récemment. Une série d'articles fantaisistes est apparue début octobre, essayant d'appliquer les grands modèles à la conduite autonome. J'ai récemment parlé de nombreux sujets connexes avec de nombreux amis. En écrivant cet article, d'une part, j'ai découvert que, y compris moi-même, dans le passé, nous avions en fait confondu des concepts très liés mais en réalité différents. D’un autre côté, il s’agit d’une extension de ces concepts. Il y a quelques réflexions intéressantes qui méritent d’être partagées et discutées avec tout le monde.
Grand modèle (langue)
C'est sans aucun doute la direction la plus populaire à l'heure actuelle, et elle fait également l'objet des journaux les plus concentrés. Comment les grands modèles linguistiques peuvent-ils contribuer à la conduite autonome ? D'une part, comme GPT-4V, il offre des capacités de compréhension sémantique extrêmement puissantes grâce à l'alignement avec des images, qui ne seront pas évoquées ici pour l'instant, d'autre part, il utilise LLM comme agent pour implémenter directement le comportement de conduite ; Cette dernière est en fait la direction de recherche la plus sexy à l’heure actuelle et est inextricablement liée à la série de travaux sur l’IA embarquée.
La plupart des derniers types de travaux vus jusqu'à présent utilisent le LLM : 1) directement utilisé 2) affiné grâce à l'apprentissage supervisé 3) affiné grâce à l'apprentissage par renforcement pour les tâches de conduite. En substance, il n’y a pas d’échappatoire au cadre paradigmatique précédent de la conduite basée sur des méthodes d’apprentissage. En fait, une question très directe est la suivante : pourquoi serait-il préférable d’utiliser le LLM pour ce faire ? Intuitivement parlant, utiliser des mots pour conduire est une chose inefficace et verbeuse. Puis un jour, j'ai soudain compris LLM implémente en fait un pré-entraînement pour l'agent via le langage ! L'une des raisons importantes pour lesquelles il était difficile pour RL de généraliser était qu'il était difficile d'unifier diverses tâches et d'utiliser diverses données communes pour le pré-entraînement. Chaque tâche ne pouvait être entraînée qu'à partir de zéro, mais LLM l'a très bien résolu. question. Mais en fait, il y a plusieurs problèmes qui ne sont pas bien résolus : 1) Après avoir terminé le pré-entraînement, le langage doit-il être conservé comme interface de sortie ? Cela apporte en fait beaucoup de désagréments à de nombreuses tâches et entraîne également dans une certaine mesure des calculs redondants. 2) L'approche du LLM en tant qu'agent ne résout toujours pas les problèmes essentiels de la méthode sans modèle RL existante, et tous les problèmes des méthodes sans modèle existent toujours. Récemment, nous avons également vu quelques tentatives basées sur un modèle + LLM en tant qu'agent, ce qui peut être une direction intéressante.
La dernière chose dont je veux me plaindre dans chaque article est la suivante : Il ne s'agit pas simplement de se connecter à LLM et de laisser LLM produire une raison pour rendre votre modèle interprétable. Cette raison peut encore être absurde. . . Des choses qui n'étaient pas garanties auparavant ne le deviendront pas simplement parce qu'une phrase est émise.
Grand modèle (visuel)
Le modèle visuel purement grand n'a en fait toujours pas vu ce moment magique «d'émergence». Lorsqu'on parle de grands modèles visuels, il existe généralement deux références possibles : l'une est un extracteur de fonctionnalités d'informations visuelles super puissant basé sur un pré-entraînement de données Web massives tel que CLIP ou DINO ou SAM, qui améliore considérablement la capacité de compréhension sémantique du modèle. L'autre fait référence au modèle conjoint de couples (image, action, etc...) mis en œuvre par le modèle mondial représenté par GAIA.
En fait, je pense que le premier n’est que le résultat d’une expansion linéaire continue selon les lignes traditionnelles. À l’heure actuelle, il est difficile d’entrevoir la possibilité de changements quantitatifs dans la conduite autonome. En fait, ce dernier est entré continuellement dans le champ de vision des chercheurs grâce à la publicité continue de Wayve et Tesla cette année. Lorsque les gens parlent de modèles mondiaux, ils incluent souvent le fait que le modèle est de bout en bout (produit directement des actions) et est lié au LLM. En fait, cette hypothèse est unilatérale. Ma compréhension du modèle mondial est également très limitée. Je voudrais recommander l'interview de Lecun et l'enquête RL basée sur un modèle de @Yu Yang, dans laquelle je n'entrerai pas plus en détail :
Yu Yang : En savoir plus sur le modèle environnemental (modèle mondial)
https://www.php.cn/link/a2cdd86a458242d42a17c2bf4feff069
Conduite autonome visuelle pure
C'est en fait facile à comprendre et fait référence à un système de conduite autonome qui repose uniquement sur des capteurs visuels. C’est en fait le meilleur et ultime souhait de la conduite autonome : conduire avec une paire d’yeux comme un être humain. De tels concepts sont généralement associés aux deux grands modèles ci-dessus, car la sémantique complexe des images nécessite de fortes capacités d'abstraction pour extraire des informations utiles. Dans le cadre de la récente offensive publicitaire continue de Tesla, ce concept recoupe également le concept de bout en bout mentionné ci-dessous. Mais en fait, il existe de nombreuses façons d'obtenir une conduite purement visuelle, et de bout en bout en fait naturellement partie, mais ce n'est pas la seule. Le problème le plus difficile dans la réalisation d’une conduite autonome purement visuelle est que la vision est intrinsèquement insensible aux informations 3D, et les grands modèles n’ont pas fondamentalement changé cela. Cela se reflète spécifiquement dans : 1) La manière de recevoir passivement les ondes électromagnétiques rend la vision contrairement aux autres capteurs capables de mesurer des informations géométriques dans l'espace 3D. 2) La perspective rend les objets distants extrêmement sensibles aux erreurs ; Ceci est très peu convivial pour la planification et le contrôle en aval, qui sont implémentés par défaut dans un espace 3D à erreur égale. Cependant, conduire par la vision équivaut-il à être capable d’estimer avec précision la distance et la vitesse en 3D ? Je pense qu'il s'agit d'une question de représentation qui mérite une étude approfondie dans le cadre de la conduite autonome purement visuelle en plus de la compréhension sémantique.
Conduite autonome de bout en bout
Ce concept fait référence au signal de contrôle du capteur jusqu'à la sortie finale (en fait, je pense qu'il peut également inclure largement les informations de points de cheminement vers la planification des couches plus en amont) en utilisant une optimisation conjointe modèle. Il peut s'agir soit d'une méthode directe de bout en bout qui saisit les données de capteurs comme ALVINN dès les années 1980 et émet des signaux de contrôle directement via un réseau neuronal, soit d'une méthode de bout en bout par étapes comme le meilleur CVPR de cette année. papier UniAD. Cependant, un point commun de ces méthodes est que le signal de supervision aval peut être directement transmis à l'amont, au lieu que chaque module ait ses propres objectifs d'optimisation auto-définis. Dans l’ensemble, c’est une bonne idée. Après tout, le deep learning repose sur une telle optimisation conjointe pour faire fortune. Cependant, pour les systèmes tels que la conduite autonome ou les robots à usage général, qui sont souvent extrêmement complexes et traitent du monde physique, de nombreux problèmes doivent être surmontés en termes de mise en œuvre technique, d'organisation des données et d'efficacité d'utilisation.
Conduite autonome de bout en bout Feed-Forward
Ce concept semble être rarement évoqué, mais en fait je trouve que l'existence de bout en bout en elle-même est précieuse, mais le problème réside dans l'observation de l'utilisation de cette méthode Feed-Forward. Moi y compris, en fait, j'ai toujours pensé par défaut que la conduite de bout en bout doit être sous la forme de Feed-Forward, car 99 % des méthodes actuelles basées sur l'apprentissage profond supposent une telle structure, ce qui signifie que le résultat final préoccupant (tels que les signaux de commande)u = f(x), x correspond aux différentes observations du capteur. Ici f peut être une fonction très complexe. Mais en fait, dans certains problèmes, nous espérons que le résultat final satisfasse ou soit proche de certaines propriétés, il est donc difficile pour le formulaire Feed-Forward de donner une telle garantie. Il existe donc une autre façon d'écrire u* = argmin g(u, x) s.t. h(u, x)
Avec le développement des grands modèles, cette solution de conduite autonome de bout en bout à Feed-Forward direct a marqué le début d'une vague de renouveau. Bien sûr, les grands modèles sont très puissants, mais je soulève une question et j'espère que tout le monde y réfléchira : si le grand modèle est tout-puissant de bout en bout, cela signifie-t-il qu'il devrait être capable de jouer au Go/Gobang de bout en bout ? -jusqu'à la fin ? Des paradigmes comme AlphaGo ne devraient-ils pas avoir de sens ? Je crois que tout le monde sait que la réponse est non. Bien entendu, cette méthode Feed-Forward peut être utilisée comme solveur approximatif rapide et obtenir de bons résultats dans la plupart des scénarios.
À en juger par les différentes solutions qui ont révélé leur utilisation de Neural Planner, la partie neuronale ne fournit qu'un certain nombre de propositions d'initialisation pour des solutions d'optimisation ultérieures afin d'atténuer le problème de l'optimisation hautement non convexe dans les optimisations ultérieures. C'est essentiellement la même chose qu'un déploiement rapide dans AlphaGo. Mais AlphaGo ne qualifiera pas la recherche MCTS ultérieure de solution de « dissimulation ». . . Enfin, j'espère que cela pourra aider tout le monde à clarifier les différences et les liens entre ces concepts, et que chacun pourra clairement comprendre de quoi il parle lorsqu'il discute de problèmes. . .Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Hier, lors de l'entretien, on m'a demandé si j'avais posé des questions à longue traîne, j'ai donc pensé faire un bref résumé. Le problème à longue traîne de la conduite autonome fait référence aux cas extrêmes dans les véhicules autonomes, c'est-à-dire à des scénarios possibles avec une faible probabilité d'occurrence. Le problème perçu de la longue traîne est l’une des principales raisons limitant actuellement le domaine de conception opérationnelle des véhicules autonomes intelligents à véhicule unique. L'architecture sous-jacente et la plupart des problèmes techniques de la conduite autonome ont été résolus, et les 5 % restants des problèmes à longue traîne sont progressivement devenus la clé pour restreindre le développement de la conduite autonome. Ces problèmes incluent une variété de scénarios fragmentés, de situations extrêmes et de comportements humains imprévisibles. La « longue traîne » des scénarios limites dans la conduite autonome fait référence aux cas limites dans les véhicules autonomes (VA). Les cas limites sont des scénarios possibles avec une faible probabilité d'occurrence. ces événements rares

Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

Les performances de JAX, promu par Google, ont dépassé celles de Pytorch et TensorFlow lors de récents tests de référence, se classant au premier rang sur 7 indicateurs. Et le test n’a pas été fait sur le TPU présentant les meilleures performances JAX. Bien que parmi les développeurs, Pytorch soit toujours plus populaire que Tensorflow. Mais à l’avenir, des modèles plus volumineux seront peut-être formés et exécutés sur la base de la plate-forme JAX. Modèles Récemment, l'équipe Keras a comparé trois backends (TensorFlow, JAX, PyTorch) avec l'implémentation native de PyTorch et Keras2 avec TensorFlow. Premièrement, ils sélectionnent un ensemble de

L’IA change effectivement les mathématiques. Récemment, Tao Zhexuan, qui a prêté une attention particulière à cette question, a transmis le dernier numéro du « Bulletin de l'American Mathematical Society » (Bulletin de l'American Mathematical Society). En se concentrant sur le thème « Les machines changeront-elles les mathématiques ? », de nombreux mathématiciens ont exprimé leurs opinions. L'ensemble du processus a été plein d'étincelles, intense et passionnant. L'auteur dispose d'une équipe solide, comprenant Akshay Venkatesh, lauréat de la médaille Fields, le mathématicien chinois Zheng Lejun, l'informaticien de l'Université de New York Ernest Davis et de nombreux autres universitaires bien connus du secteur. Le monde de l’IA a radicalement changé. Vous savez, bon nombre de ces articles ont été soumis il y a un an.

Écrit à l'avant et point de départ Le paradigme de bout en bout utilise un cadre unifié pour réaliser plusieurs tâches dans les systèmes de conduite autonome. Malgré la simplicité et la clarté de ce paradigme, les performances des méthodes de conduite autonome de bout en bout sur les sous-tâches sont encore loin derrière les méthodes à tâche unique. Dans le même temps, les fonctionnalités de vue à vol d'oiseau (BEV) denses, largement utilisées dans les méthodes de bout en bout précédentes, rendent difficile l'adaptation à davantage de modalités ou de tâches. Un paradigme de conduite autonome de bout en bout (SparseAD) centré sur la recherche clairsemée est proposé ici, dans lequel la recherche clairsemée représente entièrement l'ensemble du scénario de conduite, y compris l'espace, le temps et les tâches, sans aucune représentation BEV dense. Plus précisément, une architecture clairsemée unifiée est conçue pour la connaissance des tâches, notamment la détection, le suivi et la cartographie en ligne. De plus, lourd

Au cours du mois dernier, pour des raisons bien connues, j'ai eu des échanges très intensifs avec divers professeurs et camarades de classe du secteur. Un sujet inévitable dans l'échange est naturellement le populaire Tesla FSDV12 de bout en bout. Je voudrais profiter de cette occasion pour trier certaines de mes pensées et opinions en ce moment pour votre référence et votre discussion. Comment définir un système de conduite autonome de bout en bout et quels problèmes devraient être résolus de bout en bout ? Selon la définition la plus traditionnelle, un système de bout en bout fait référence à un système qui saisit les informations brutes des capteurs et génère directement les variables pertinentes pour la tâche. Par exemple, en reconnaissance d'images, CNN peut être appelé de bout en bout par rapport à la méthode traditionnelle d'extraction de caractéristiques + classificateur. Dans les tâches de conduite autonome, saisir les données de divers capteurs (caméra/LiDAR
