Lorsque vous donnez des instructions à l'IA, avez-vous toujours l'impression que communiquer avec les gens est différent ?
Oui, l'IA peut comprendre certaines instructions humaines spécifiques, telles que :
Aidez à déplacer une chaise du restaurant.
Mais s'il était remplacé par des instructions vagues avec uniquement des pronoms (il/elle/ce/cela/chose...) et des verbes, l'IA serait confuse :
Aidez à trouver quelque chose qui puisse tenir sur votre pieds.
Maintenant, les chercheurs ont enfin trouvé une nouvelle façon de résoudre ce problème : ne suffirait-il pas de permettre à l’IA d’apprendre à comprendre les verbes ?
Le verbe lui-même est lié à certains noms spécifiques. Par exemple, l'action de « étaler du beurre » est définitivement indissociable de noms tels que « couteau » et « fourchette ».
Il vous suffit de les faire correspondre. Aucune instruction nominale telle que "couteau et fourchette" n'est nécessaire. L'IA peut également trouver avec précision l'objet cible :
À l'heure actuelle, cet article a été officiellement inclus dans NeurIPS 2022, et le modèle associé a également été open source :
Alors, comment entraîne-t-il exactement l'IA à comprendre les verbes ?
L'article propose un cadre appelé TOIST.
TOIST est "Task Oriented Instance Segmentation Transformer" (Task Oriented Instance Segmentation Transformer), qui est une nouvelle solution de segmentation d'instance basée sur Transformer.
La segmentation d'instance est différente de la « découpe d'image complète » de la segmentation sémantique. Elle présente également les caractéristiques de la détection de cible. Par exemple, l'image suivante utilise le nom « voiture à hayon » pour trouver directement l'objet correspondant :
.
Auparavant, les modèles de segmentation d'instances étaient généralement divisés en « deux étapes ». La première étape consistait à détecter les cibles possibles, et la deuxième étape consistait à trier les cibles possibles et à prédire les résultats les plus probables.
Mais contrairement à cette approche, le framework TOIST adopte directement une architecture Transformer entière, dans laquelle le mécanisme d'auto-attention du décodeur peut établir la relation de préférence entre les cibles candidates.
Le cadre TOIST est divisé en trois parties.
Parmi eux, l'encodeur multimodal (partie marron) est responsable de l'extraction des marqueurs de caractéristiques, et l'encodeur Transformer (partie verte) est responsable de l'agrégation des caractéristiques des deux modalités et en fonction de l'attention dans le décodeur Transformer (bleu partie) Mécanisme permettant de prédire la cible la plus appropriée.
Par la suite, le journal a proposé une nouvelle méthode de distillation nom-pronom (distillation nom-pronom) pour entraîner le modèle.
Plus précisément, sur la base du cadre de distillation des connaissances (modèle enseignant-élève dans l'image ci-dessus), l'IA est entraînée à « deviner » des prototypes de noms en fonction du contexte, de manière non supervisée.
Par exemple, la tâche de segmentation d'instance originale est "creuser des trous avec un skateboard", mais lors de l'entraînement du modèle, le nom "skateboard" sera remplacé par le pronom "quelque chose":
Une telle IA Même lorsque vous Si vous ne connaissez pas le nom, vous pouvez deviner le nom correct à partir de rien et segmenter la bonne cible dans l'image :
Comment cet effet de segmentation fonctionne-t-il dans des cas réels ?
L'article a testé TOIST sur l'ensemble de données de tâches à grande échelle COCO-Tasks.
La méthode d'évaluation utilise le mAP (mean Average Precision), qui est courant dans les tâches visuelles telles que la détection de cibles.
En termes simples, TOIST fonctionne mieux que le modèle SOTA de segmentation d'instance et de détection de cible précédent, et avec la "version améliorée" de TOIST ajoutée avec la méthode de distillation nom-pronom, les performances sont encore meilleures que TOIST.
Parmi eux, dans la tâche de détection de cible, par rapport au meilleur Yolo+GGNN actuel, la précision de la boîte de décision mAP de la « version améliorée » de TOIST est augmentée de 10,9 %. Dans la tâche de segmentation d'instance, la précision du masque est meilleure que celle de Mask-. RCNN+GGNN 6,6% plus élevé.
Quant à la méthode de distillation nom-pronom proposée, par rapport à la version originale de TOIST, la précision de la tâche de segmentation des instances a été améliorée de 2,8 % et 3,8 % respectivement.
En termes de performances du boîtier, l'effet du modèle est également très proche de la vraie valeur réelle de la segmentation.
Par exemple, dans la figure (d), l'algorithme a même reconnu que le bouchon de la bouteille de bière peut être ouvert à l'aide d'une table, ce qui peut être considéré comme un score parfait pour comprendre :
Concernant l'intention initiale de faire cela recherche, l'auteur a répondu :
Notre laboratoire est en fait responsable de la recherche sur les robots, mais lors d'enquêtes quotidiennes, nous avons constaté que les utilisateurs préfèrent parfois décrire leurs « besoins » au robot plutôt que de lui dire directement quoi faire.
En d'autres termes, les algorithmes d'IA sont utilisés pour faire "réfléchir un pas de plus" au robot au lieu d'être simplement un assistant qui suit les ordres.
Les auteurs de cet article viennent de l'Institut de recherche sur l'industrie intelligente (AIR) de l'Université de Tsinghua, de l'Université de Pékin et du doyen de l'AIR, Zhang Yaqin, est également l'un des auteurs.
Li Pengfei, le premier auteur de l'article, est doctorant à l'Institut de l'industrie intelligente de l'Université Tsinghua. Il est diplômé de l'Université de l'Académie chinoise des sciences avec un baccalauréat. Ses intérêts de recherche incluent la conduite autonome. et la vision par ordinateur.
L'auteur correspondant Zhao Hao est un nouveau professeur adjoint à l'Institut de recherche sur l'industrie intelligente de l'Université Tsinghua, un chercheur scientifique à l'Institut de recherche Intel China et un chercheur postdoctoral conjoint à l'Université de Pékin. Il est diplômé du Département d'ingénierie électronique. à l'Université Tsinghua. Ses intérêts de recherche sont la robotique et la direction visuelle.
Adresse papier : https://arxiv.org/abs/2210.10775
Adresse du projet : https://github.com/AIR-DISCOVER/TOIST
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!