Ces dernières années, la popularité des modèles mondiaux semble jouer un rôle essentiel dans le fonctionnement des robots. Pour l’intelligence incarnée, la manipulation est le point le plus important à franchir à ce stade. En particulier pour les tâches à long terme suivantes, comment construire un « cervelet » robot pour répondre à diverses exigences opérationnelles complexes est le problème le plus urgent à résoudre à l'heure actuelle.
Lors de l'utilisation de LM pour appliquer sur des robots, une approche courante consiste à fournir diverses API dans le contexte, puis à laisser LLM écrire automatiquement le code de planification en fonction de l'invite de tâche. Veuillez vous référer à l'article :
L'avantage de cette méthode. c'est que c'est très intuitif, vous pouvez saisir plus clairement la logique de démontage de la tâche, comme passer à A, saisir B, passer à C et poser B. Mais le principe de cette opération est de pouvoir diviser l'ensemble de la tâche en opérations atomiques (déplacer, saisir, placer, etc.). Mais s'il s'agit d'une tâche plus complexe, comme plier des vêtements, il est naturellement difficile de diviser la tâche, alors que devons-nous faire à ce moment-là ? En fait, pour la manipulation, nous devons faire face à de nombreuses tâches à long terme et difficiles à diviser.
tâches de manipulation à long terme qui sont difficiles à diviser, une meilleure approche consiste à étudier l'apprentissage par imitation, comme la politique de diffusion ou AGIR, modéliser et adapter l’ensemble de la trajectoire opérationnelle. Cependant, cette méthode rencontrera un problème, c'est-à-dire qu'il n'y a aucun moyen de bien gérer l'erreur cumulée - et l'essence de ce problème est l'absence d'un mécanisme de rétroaction efficace.
Prenons l'exemple du pliage des vêtements. Lorsque les gens plient des vêtements, ils ajustent constamment leurs stratégies de fonctionnement en fonction des changements dans les vêtements qu'ils voient visuellement, et finalement plient les vêtements pour obtenir le look souhaité. Il y a en fait un point relativement implicite mais très important là-dedans : les gens savent à peu près quel type d'opérations provoquera quel type de changements vestimentaires. Ensuite, en allant plus loin, les gens ont en fait un modèlesur la déformation des vêtements, et peuvent savoir approximativement quel type d'entrée entraînera des changements dans l'état (placement des vêtements) (le niveau visuel est le niveau des pixels, plus précisément). peut être exprimé comme suit :
SORA m'a en fait donné un coup de pouce, c'est-à-dire que tant qu'il y a suffisamment de données, je peux utiliser transformateur + couche de diffusion pour entraîner durement un modèle f capable de comprendre et de prédire les changements . En supposant que nous disposons déjà d'un modèle f très puissant qui prédit les changements de vêtements avec les opérations, alors lors du pliage des vêtements, nous pouvons construire un servo visuel (Visual Servo) grâce à un retour d'information sur l'état des vêtements au niveau des pixels et à l'idée de
Model Predictive ControlStratégies pour plier les vêtements dans l'état souhaité. Cela a en fait été vérifié par certaines des récentes « discussions violentes » de LeCun :
Comment construire un modèle mondial pour le fonctionnement des robotsCe qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!