La plupart des données synthétiques précédentes ont été utilisées pour la formation de grands modèles d'IA. Cette fois, NVIDIA a construit un « grenier de données » pour la formation des robots. L'une des principales raisons pour lesquelles le rythme de développement de la technologie robotique est loin derrière d'autres domaines de l'IA. manque de données. Avec seulement 200 données sources de démonstration humaine, le système peut générer directement 50 000 données de formation.
Face à l'énorme demande de données de l'IA, les ressources de données sont presque épuisées. Par conséquent, diverses entreprises ont commencé à explorer une « nouvelle façon » d'obtenir des données : « créer » leurs propres données. Cependant, la plupart des données synthétiques précédentes étaient utilisées pour la formation de grands modèles d'IA. Cette fois, NVIDIA a créé un « grenier de données » pour la formation des robots.
Un dernier document de recherche de NVIDIA et de l'Université du Texas à Austin présente un système appelé « MimicGen » qui peut générer automatiquement des ensembles de données d'entraînement de robots à grande échelle avec seulement un petit nombre de démonstrations humaines. Jim Fan, scientifique principal chez Nvidia, a déclaré que la société ouvrirait tout en open source, y compris les ensembles de données générés.
Quelle est la taille des données générées ? En utilisant 10 démos humaines, MimicGen peut générer 1 000 exemples synthétiques ; avec 200 démos humaines, MimicGen peut générer directement 50 000 données de formation, impliquant 18 tâches et plusieurs environnements de simulation.
Comment est l'ensemble de données généré ?
MimicGen peut "faire évoluer" la même scène en différentes étapes en fonction des données existantes :
Il peut également générer différents ensembles de données sur un large éventail de distributions de réinitialisation de tâches, notamment l'assemblage d'articles, le versement de café, le nettoyage de tasses, etc. :
Peut générer différentes nouvelles démos de bras robotisés :
De plus, il existe également des données de tâches qui nécessitent une formation à long terme :
Les données de scènes du monde réel ne posent aucun problème non plus :
Il convient de noter que les chercheurs ont comparé les données générées par différents ensembles de données sources. Cependant, ils ont constaté que les deux ensembles de résultats étaient comparables, ce qui suggère que « la qualité des données (source) n'est peut-être pas aussi importante dans les mécanismes de données à grande échelle » .
De plus, les chercheurs ont également comparé les données générées par 10 démonstrations humaines et 200 démonstrations humaines, et les résultats n'étaient pas non plus très différents. Par conséquent, l’article admet également que des recherches supplémentaires sont nécessaires pour déterminer si davantage de données de démonstration humaine entraîneront une redondance et des coûts d’annotation de données inutiles et inutiles.Pourquoi êtes-vous si obsédé par les données synthétiques ? En plus des ressources de données sources limitées mentionnées au début de l'article, la collecte de données est également extrêmement coûteuse et prend du temps. Avec des systèmes comme MimicGen,
peut générer automatiquement des ensembles de données riches à grande échelle avec seulement une petite quantité de données. et ces données Il intègre plusieurs scènes, capacités d'objets et bras robotiques, et peut également être utilisé pour des tâches à long terme ou de haute précision Il peut être qualifié de « moyen puissant et économique d'étendre l'apprentissage des robots ».
"Les données synthétiques fourniront la prochaine vague de données terascale pour nos modèles affamés. " Jim Fan, scientifique principal de NVIDIA, a déclaré lors de la présentation de MimicGen, "Le développement de la technologie robotique est loin derrière les autres IA. L'une des principales raisons dans ce domaine est la manque de données - vous ne pouvez pas obtenir de signaux de contrôle (des robots) depuis Internet ».
« Nous manquons rapidement de données réelles de haute qualité provenant d'Internet, et l'IA née de données synthétiques sera l'orientation future du développement.
Source : Conseil quotidien de l'innovation scientifique et technologiqueCe qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!