Où est passée « l'intelligence incarnée » sur laquelle Li Feifei s'est concentré ?-IA-php.cn

Table des matières

Comparaison avec les réseaux de neurones

La nouvelle frontière de la recherche en robotique

Maison

Périphériques technologiques

Où est passée « l'intelligence incarnée » sur laquelle Li Feifei s'est concentré ?

王林

Apr 17, 2023 pm 09:34 PM

智能计算机视觉

En 2009, Li Feifei, un informaticien travaillant à l'époque à l'Université de Princeton, a dirigé la construction d'un ensemble de données qui a changé l'histoire de l'intelligence artificielle : ImageNet. Il contient des millions d'images étiquetées qui peuvent être utilisées pour entraîner des modèles complexes d'apprentissage automatique afin d'identifier des objets dans les images.

En 2015, les capacités de reconnaissance des machines ont dépassé celles des humains. Li Feifei s'est rapidement tournée vers un nouvel objectif, à la recherche de ce qu'elle a appelé une autre « étoile du Nord » (le « Polaris » fait ici référence au problème scientifique clé que les chercheurs se concentrent sur la résolution, ce qui peut inspirer leur enthousiasme pour la recherche et réaliser des progrès décisifs).

Où est passée « l'intelligence incarnée » sur laquelle Li Feifei s'est concentré ?

Elle a trouvé l'inspiration en revenant 530 millions d'années en arrière, jusqu'à l'explosion de la vie cambrienne, lorsque de nombreuses espèces d'animaux terrestres sont apparues pour la première fois. Une théorie influente suggère que l’explosion de nouvelles espèces était en partie due à l’émergence des yeux, qui permettaient aux créatures de voir le monde qui les entourait pour la première fois. Li Feifei estime que la vision animale ne surgit pas de manière isolée, mais est « profondément ancrée dans un tout qui doit se déplacer, naviguer, survivre, manipuler et changer dans un environnement en évolution rapide », a-t-elle déclaré, « il est donc naturel de se tourner vers un domaine plus actif de l'IA. Aujourd'hui, les travaux de Li Feifei se concentrent sur les agents d'IA qui peuvent non seulement recevoir des images statiques à partir d'ensembles de données, mais également effectuer une virtualisation tridimensionnelle se déplacer dans le monde simulé et interagir avec votre environnement.

C’est l’objectif général d’un nouveau domaine appelé « IA incarnée ». Cela recoupe la robotique dans la mesure où les robots peuvent être considérés comme l’équivalent physique des agents d’IA incarnés et de l’apprentissage par renforcement dans le monde réel. Où est passée « l'intelligence incarnée » sur laquelle Li Feifei s'est concentré ? Li Feifei et d'autres pensent que l'IA incarnée peut nous apporter une transformation majeure, de la simple capacité d'apprentissage automatique, comme la reconnaissance d'images, à l'apprentissage de la réalisation de tâches complexes de type humain en plusieurs étapes, comme préparer une omelette.

Aujourd'hui, le travail de l'IA incarnée inclut tout agent capable de détecter et de modifier son propre environnement. En robotique, les agents IA vivent toujours dans des corps de robots, tandis que les agents dans les simulations réelles peuvent avoir un corps virtuel ou percevoir le monde à travers une position de caméra en mouvement et interagir avec l'environnement qui les entoure. "Le sens de l'incarnation n'est pas le corps lui-même, mais les besoins et fonctions globaux d'interaction avec l'environnement et d'action dans l'environnement", a expliqué Li Feifei.

Cette interactivité offre aux agents une nouvelle – et dans de nombreux cas meilleure – façon de comprendre le monde. Cela équivaut au fait qu'avant, vous vous contentiez d'observer la relation possible entre deux objets, mais que vous pouvez désormais expérimenter et réaliser cette relation vous-même. Avec cette nouvelle compréhension, les idées sont mises en pratique et une plus grande sagesse s’ensuit. Avec un nouvel ensemble de mondes virtuels opérationnels, les agents d’IA incarnés ont commencé à réaliser ce potentiel, réalisant des progrès significatifs dans leurs nouveaux environnements.

« À l’heure actuelle, nous n’avons aucune preuve de l’existence d’une intelligence qui n’apprend pas en interagissant avec le monde », a déclaré Viviane Clay, chercheuse en IA incarnée à l’Université d’Osnebruck en Allemagne.

Vers une simulation parfaite

Bien que les chercheurs souhaitent depuis longtemps créer de véritables mondes virtuels que les agents d'IA pourraient explorer, ils n'ont été créés que depuis environ cinq ans. Cette capacité provient des améliorations graphiques apportées aux industries du cinéma et du jeu vidéo. En 2017, les agents IA peuvent représenter les espaces intérieurs de manière aussi réaliste que s’ils se trouvaient dans une maison – une « maison » virtuelle mais littérale. Les informaticiens de l'Allen Institute for Artificial Intelligence ont construit un simulateur appelé AI2-Thor qui permet aux agents de se déplacer dans les cuisines naturelles, les salles de bains, les salons et les chambres. Les agents peuvent apprendre des vues tridimensionnelles qui changent à mesure qu’ils se déplacent, le simulateur affichant de nouveaux angles lorsqu’ils décident d’y regarder de plus près.

Ce nouveau monde donne également aux agents intelligents l'opportunité de réfléchir aux changements dans une nouvelle dimension « temporelle ». "C'est un grand changement", a déclaré Manolis Savva, chercheur en infographie à l'Université Simon Fraser. "Dans un environnement d'IA incarnée, vous disposez de ces flux d'informations temporellement cohérents que vous pouvez contrôler. " suffisamment bon pour que les agents puissent être formés pour accomplir des tâches complètement nouvelles. Non seulement ils peuvent reconnaître un objet, mais ils peuvent également interagir avec lui, le ramasser et naviguer autour de lui. Ces étapes apparemment petites sont nécessaires à tout agent pour comprendre son environnement. En 2020, les agents virtuels ont la capacité d’aller au-delà de la vision et d’entendre les sons émis par les objets virtuels, offrant ainsi une nouvelle perspective sur la compréhension des objets et de leur fonctionnement dans le monde.

Les agents d'IA incarnés qui peuvent s'exécuter dans un monde virtuel (environnement ManipulaTHOR) apprennent de différentes manières et peuvent être plus adaptés à des tâches plus complexes, de type humain.

Cependant, le simulateur a aussi ses propres limites. "Même les meilleurs simulateurs sont bien moins réalistes que le monde réel", explique Daniel Yamins, informaticien à l'Université de Stanford. Yamins a co-développé ThreeDWorld avec des collègues du MIT et d'IBM, un projet axé sur la simulation de la physique réelle dans des mondes virtuels, comme le comportement des liquides et la façon dont certains objets sont rigides dans une zone et rigides dans une autre. .

Il s’agit d’une tâche très difficile qui nécessite que l’IA apprenne de nouvelles manières.

Comparaison avec les réseaux de neurones

Un moyen simple de mesurer les progrès de l'IA incarnée jusqu'à présent consiste à comparer les performances des agents incarnés à des algorithmes formés sur des tâches d'image statique plus simples. Les comparaisons ne sont pas parfaites, notent les chercheurs, mais les premiers résultats suggèrent que l’IA incarnée apprend différemment et parfois mieux que ses prédécesseurs.

Dans un article récent (« Interactron : Embodied Adaptive Object Detection »), les chercheurs ont découvert qu'un agent d'IA incarné était plus précis dans la détection d'objets spécifiques, soit près de 12 % de mieux que les méthodes traditionnelles. "Il a fallu plus de trois ans pour que le domaine de la détection d'objets atteigne ce niveau d'amélioration", a déclaré Roozbeh Mottaghi, co-auteur de l'étude et informaticien à l'Institut Allen pour l'intelligence artificielle. "Et nous avons accompli beaucoup de choses simplement en interagissant. avec le monde. "D'autres articles ont montré que les algorithmes de détection d'objets progressent lorsque vous prenez la forme d'une IA incarnée et que vous leur demandez d'explorer un espace virtuel une fois ou de se promener en collectant plusieurs vues d'un objet.

Les chercheurs ont également découvert que les algorithmes incarnés et les algorithmes traditionnels apprennent de manière complètement différente. Pour le démontrer, considérons les réseaux de neurones, l’ingrédient fondamental derrière les capacités d’apprentissage de chaque algorithme incarné et de nombreux algorithmes désincarnés. Les réseaux de neurones sont constitués de nombreuses couches de nœuds neuronaux artificiels connectés et sont vaguement modelés sur les réseaux du cerveau humain. Dans deux articles distincts, les chercheurs ont découvert que moins de neurones réagissent aux informations visuelles dans les réseaux neuronaux d'agents incarnés, ce qui signifie que chaque neurone individuel est plus sélectif dans sa façon de réagir. Les réseaux désincarnés sont beaucoup moins efficaces et nécessitent davantage de neurones pour rester actifs la plupart du temps. Une équipe de recherche (dirigée par Grace Lindsay, nouvelle professeure à NYU) a même comparé les réseaux de neurones incarnés et non incarnés avec l'activité neuronale d'un cerveau vivant (le cortex visuel des souris) et a découvert que les réseaux de neurones incarnés. Internet est ce qui se rapproche le plus d'un cerveau vivant. corps.

Lindsay s'empresse de souligner que cela ne signifie pas nécessairement que les versions incarnées sont meilleures, elles sont simplement différentes. Contrairement à l'article sur la détection d'objets, l'étude de Lindsay et al. compare les différences potentielles du même réseau neuronal, permettant aux agents d'accomplir des tâches complètement différentes. Ils peuvent donc avoir besoin de réseaux neuronaux fonctionnant différemment pour atteindre leurs objectifs.

Bien que comparer les réseaux de neurones incarnés aux réseaux de neurones non incarnés soit une façon de mesurer l'amélioration, ce que les chercheurs veulent vraiment faire n'est pas d'améliorer les performances des agents incarnés sur les tâches existantes, ce qu'ils veulent vraiment faire, c'est améliorer les performances des agents incarnés. agents sur des tâches existantes. L’objectif est d’apprendre des tâches plus complexes, de type humain. C’est ce qui passionne le plus les chercheurs, qui constatent des progrès impressionnants, notamment sur les tâches de navigation. Dans ces tâches, l'agent doit se souvenir des objectifs à long terme de sa destination tout en formulant un plan pour y arriver sans se perdre ni se cogner contre des objets.

En quelques années seulement, une équipe dirigée par Dhruv Batra, informaticien de Georgia Tech et directeur de recherche chez Meta AI, a fait de grands progrès sur une tâche de navigation spécifique appelée « navigation point-objectif ». Dans cette tâche, l'agent est placé dans un environnement complètement nouvel et doit se rendre à une certaine coordonnée (telle que "Aller au point qui se trouve à 5 mètres au nord et 10 mètres à l'est") sans carte.

Batra a déclaré avoir formé l'agent dans un monde virtuel Meta appelé "AI Habitat" et lui avoir donné un GPS et une boussole. Ils ont constaté qu'il pouvait atteindre une précision de plus de 99,9 % sur des ensembles de données standard. Plus récemment, ils ont réussi à étendre leurs résultats à un scénario plus difficile et plus réaliste – sans boussole ni GPS. En conséquence, l’agent a atteint une précision de 94 % dans l’estimation de sa position en utilisant uniquement le flux de pixels qu’il a vu lors de son déplacement.

Où est passée « l'intelligence incarnée » sur laquelle Li Feifei s'est concentré ?

Le monde virtuel "AI Habitat" créé par l'équipe Meta AI Dhruv Batra. Ils espèrent augmenter la vitesse des simulations jusqu’à ce que l’IA incarnée puisse atteindre 20 ans d’expérience en simulation en seulement 20 minutes de temps d’horloge.

Mottaghi a déclaré : « C'est une grande amélioration, mais cela ne signifie pas que le problème de navigation a été complètement résolu. Parce que de nombreux autres types de tâches de navigation nécessitent l'utilisation d'instructions linguistiques plus complexes, telles que « Passer par la cuisine ». pour récupérer les objets sur la table de chevet dans la chambre", sa précision n'est encore que d'environ 30 à 40 %.

Mais la navigation reste l’une des tâches les plus simples de l’IA incarnée, puisque l’agent n’a pas besoin de manipuler quoi que ce soit lorsqu’il se déplace dans l’environnement. Jusqu’à présent, les agents d’IA incarnés sont loin de maîtriser les tâches liées aux objets. Une partie du défi réside dans le fait que lorsqu’un agent interagit avec de nouveaux objets, il peut commettre de nombreuses erreurs, et celles-ci peuvent s’accumuler. Actuellement, la plupart des chercheurs abordent ce problème en choisissant des tâches comportant seulement quelques étapes, mais la plupart des activités de type humain, comme cuisiner ou faire la vaisselle, nécessitent de longues séquences d'actions sur plusieurs objets. Pour atteindre cet objectif, les agents de l’IA devront faire des progrès encore plus importants.

Fei-Fei Li pourrait être à nouveau à l'avant-garde à cet égard, puisque son équipe a développé un ensemble de données simulées - COMPORTEMENT - dans l'espoir de contribuer à l'IA incarnée ce que son projet ImageNet a fait pour la reconnaissance d'objets.

Où est passée « l'intelligence incarnée » sur laquelle Li Feifei s'est concentré ?

Cet ensemble de données contient plus de 100 activités humaines que les agents doivent réaliser, et le test peut être effectué dans n'importe quel environnement virtuel. Le nouvel ensemble de données de l'équipe de Fei-Fei Li permettra à la communauté de mieux évaluer les progrès des agents virtuels d'IA en créant des mesures qui comparent les agents effectuant ces tâches à de vraies vidéos d'humains effectuant les mêmes tâches.

Une fois que l'agent a accompli avec succès ces tâches complexes, Li Feifei estime que le but de la simulation est de s'entraîner pour l'espace opérationnel final, le monde réel.

"À mon avis, la simulation est l'un des domaines les plus importants et les plus passionnants de la recherche en robotique", a déclaré Li Feifei.

La nouvelle frontière de la recherche en robotique

Les robots sont essentiellement une intelligence incarnée. Ils habitent une sorte de corps physique dans le monde réel et représentent la forme la plus extrême d’agent d’IA incarné. Mais de nombreux chercheurs ont découvert que même ces agents peuvent bénéficier d’une formation dans des mondes virtuels.

Mottaghi a déclaré que les algorithmes les plus avancés en robotique, tels que l'apprentissage par renforcement, nécessitent souvent des millions d'itérations pour apprendre quelque chose de significatif. Par conséquent, entraîner de vrais robots à effectuer des tâches difficiles peut prendre des années.

Où est passée « l'intelligence incarnée » sur laquelle Li Feifei s'est concentré ?

Les robots peuvent naviguer sur des terrains incertains dans le monde réel. De nouvelles recherches montrent que la formation dans des environnements virtuels peut aider les robots à maîtriser ces compétences, ainsi que d’autres.

Mais si vous les formez d'abord dans le monde virtuel, ce sera beaucoup plus rapide. Des milliers d’agents peuvent être formés simultanément dans des milliers de salles différentes. De plus, la formation virtuelle est plus sûre pour les robots et les humains.

En 2018, les chercheurs d'OpenAI ont démontré que les compétences acquises par un agent dans le monde virtuel peuvent être transférées dans le monde réel, c'est pourquoi de nombreux experts en robotique ont commencé à s'intéresser davantage aux simulateurs. Ils ont formé une main robotique pour manipuler un cube qui n’avait été vu que dans des simulations. Des recherches récentes consistent également à permettre aux drones d'apprendre à éviter les collisions aériennes, à déployer des voitures autonomes dans des environnements urbains sur deux continents différents et à permettre à un chien robot à quatre pattes d'effectuer une randonnée d'une heure dans les Alpes suisses (et il prend le même temps que les humains).

À l'avenir, les chercheurs pourraient également envoyer des humains dans l'espace virtuel grâce à des casques de réalité virtuelle, comblant ainsi le fossé entre la simulation et le monde réel. Dieter Fox, directeur principal de la recherche en robotique chez Nvidia et professeur à l'Université de Washington, a souligné que l'un des objectifs clés de la recherche en robotique est de construire des robots utiles aux humains dans le monde réel. Mais pour ce faire, ils doivent d’abord être exposés aux humains et apprendre à interagir avec eux.

Fox dit que ce serait une approche très puissante d'utiliser la technologie de réalité virtuelle pour placer des humains dans ces environnements simulés, puis leur faire faire des présentations et interagir avec des robots.

Qu'ils soient dans une simulation ou dans le monde réel, les agents d'IA incarnés apprennent à ressembler davantage à des humains et à accomplir des tâches qui ressemblent davantage à des tâches humaines. Le domaine progresse sous tous les aspects, y compris de nouveaux mondes, de nouvelles tâches et de nouveaux algorithmes d’apprentissage.

« Je vois la fusion de l'apprentissage profond, de l'apprentissage robotique, de la vision et même du langage », a déclaré Li Feifei. « Maintenant, je pense que grâce à ce « moonshot » ou « North Star » pour l'IA incarnée, nous apprendrons les bases de l'intelligence. . La technologie, cela peut vraiment apporter des avancées majeures"

Où est passée « l'intelligence incarnée » sur laquelle Li Feifei s'est concentré ?

Article de Li Feifei sur le problème "North Star" de la vision par ordinateur. Lien : https://www.amacad.org/publication/searching-computer-vision-north-stars

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7514

Tutoriel CakePHP

1378

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Les traits du visage volent, ouvrent la bouche, regardent fixement et lèvent les sourcils. L'IA peut les imiter parfaitement, ce qui rend impossible la prévention des escroqueries vidéo. Dec 14, 2023 pm 11:30 PM

Avec une capacité d'imitation de l'IA aussi puissante, il est vraiment impossible de l'empêcher. Le développement de l’IA a-t-il atteint ce niveau aujourd’hui ? Votre pied avant fait voler les traits de votre visage, et sur votre pied arrière, la même expression est reproduite. Regarder fixement, lever les sourcils, faire la moue, aussi exagérée que soit l'expression, tout est parfaitement imité. Augmentez la difficulté, haussez les sourcils, ouvrez plus grand les yeux, et même la forme de la bouche est tordue, et l'avatar du personnage virtuel peut parfaitement reproduire l'expression. Lorsque vous ajustez les paramètres à gauche, l'avatar virtuel à droite modifiera également ses mouvements en conséquence pour donner un gros plan de la bouche et des yeux. On ne peut pas dire que l'imitation soit exactement la même, seule l'expression est exactement la même. idem (extrême droite). La recherche provient d'institutions telles que l'Université technique de Munich, qui propose GaussianAvatars, qui

La différence entre les algorithmes de détection de cible à une étape et à deux étapes Jan 23, 2024 pm 01:48 PM

La détection d'objets est une tâche importante dans le domaine de la vision par ordinateur, utilisée pour identifier des objets dans des images ou des vidéos et localiser leur emplacement. Cette tâche est généralement divisée en deux catégories d'algorithmes, à une étape et à deux étapes, qui diffèrent en termes de précision et de robustesse. Algorithme de détection de cible en une seule étape L'algorithme de détection de cible en une seule étape convertit la détection de cible en un problème de classification. Son avantage est qu'il est rapide et peut terminer la détection en une seule étape. Cependant, en raison d'une simplification excessive, la précision n'est généralement pas aussi bonne que celle de l'algorithme de détection d'objets en deux étapes. Les algorithmes courants de détection d'objets en une seule étape incluent YOLO, SSD et FasterR-CNN. Ces algorithmes prennent généralement l’image entière en entrée et exécutent un classificateur pour identifier l’objet cible. Contrairement aux algorithmes traditionnels de détection de cibles en deux étapes, ils n'ont pas besoin de définir des zones à l'avance, mais de prédire directement

Application de la technologie de l'IA à la reconstruction d'images en super-résolution Jan 23, 2024 am 08:06 AM

La reconstruction d'images en super-résolution est le processus de génération d'images haute résolution à partir d'images basse résolution à l'aide de techniques d'apprentissage en profondeur, telles que les réseaux neuronaux convolutifs (CNN) et les réseaux contradictoires génératifs (GAN). Le but de cette méthode est d'améliorer la qualité et les détails des images en convertissant des images basse résolution en images haute résolution. Cette technologie trouve de nombreuses applications dans de nombreux domaines, comme l’imagerie médicale, les caméras de surveillance, les images satellites, etc. Grâce à la reconstruction d’images en super-résolution, nous pouvons obtenir des images plus claires et plus détaillées, ce qui permet d’analyser et d’identifier plus précisément les cibles et les caractéristiques des images. Méthodes de reconstruction Les méthodes de reconstruction d'images en super-résolution peuvent généralement être divisées en deux catégories : les méthodes basées sur l'interpolation et les méthodes basées sur l'apprentissage profond. 1) Méthode basée sur l'interpolation Reconstruction d'images en super-résolution basée sur l'interpolation

Comment utiliser la technologie IA pour restaurer d'anciennes photos (avec exemples et analyse de code) Jan 24, 2024 pm 09:57 PM

La restauration de photos anciennes est une méthode d'utilisation de la technologie de l'intelligence artificielle pour réparer, améliorer et améliorer de vieilles photos. Grâce à des algorithmes de vision par ordinateur et d’apprentissage automatique, la technologie peut identifier et réparer automatiquement les dommages et les imperfections des anciennes photos, les rendant ainsi plus claires, plus naturelles et plus réalistes. Les principes techniques de la restauration de photos anciennes incluent principalement les aspects suivants : 1. Débruitage et amélioration de l'image Lors de la restauration de photos anciennes, elles doivent d'abord être débruitées et améliorées. Des algorithmes et des filtres de traitement d'image, tels que le filtrage moyen, le filtrage gaussien, le filtrage bilatéral, etc., peuvent être utilisés pour résoudre les problèmes de bruit et de taches de couleur, améliorant ainsi la qualité des photos. 2. Restauration et réparation d'images Les anciennes photos peuvent présenter certains défauts et dommages, tels que des rayures, des fissures, une décoloration, etc. Ces problèmes peuvent être résolus par des algorithmes de restauration et de réparation d’images

Algorithme SIFT (Scale Invariant Features) Jan 22, 2024 pm 05:09 PM

L'algorithme SIFT (Scale Invariant Feature Transform) est un algorithme d'extraction de caractéristiques utilisé dans les domaines du traitement d'images et de la vision par ordinateur. Cet algorithme a été proposé en 1999 pour améliorer les performances de reconnaissance et de correspondance d'objets dans les systèmes de vision par ordinateur. L'algorithme SIFT est robuste et précis et est largement utilisé dans la reconnaissance d'images, la reconstruction tridimensionnelle, la détection de cibles, le suivi vidéo et d'autres domaines. Il obtient l'invariance d'échelle en détectant les points clés dans plusieurs espaces d'échelle et en extrayant des descripteurs de caractéristiques locales autour des points clés. Les principales étapes de l'algorithme SIFT comprennent la construction d'un espace d'échelle, la détection des points clés, le positionnement des points clés, l'attribution de directions et la génération de descripteurs de caractéristiques. Grâce à ces étapes, l’algorithme SIFT peut extraire des fonctionnalités robustes et uniques, permettant ainsi un traitement d’image efficace.

MotionLM : technologie de modélisation de langage pour la prédiction de mouvement multi-agents Oct 13, 2023 pm 12:09 PM

Cet article est reproduit avec la permission du compte public Autonomous Driving Heart. Veuillez contacter la source pour la réimpression. Titre original : MotionLM : Multi-Agent Motion Forecasting as Language Modeling Lien vers l'article : https://arxiv.org/pdf/2309.16534.pdf Affiliation de l'auteur : Conférence Waymo : ICCV2023 Idée d'article : Pour la planification de la sécurité des véhicules autonomes, prédisez de manière fiable le comportement futur des agents routiers est cruciale. Cette étude représente les trajectoires continues sous forme de séquences de jetons de mouvement discrets et traite la prédiction de mouvement multi-agents comme une tâche de modélisation du langage. Le modèle que nous proposons, MotionLM, présente les avantages suivants :

Une introduction aux méthodes d'annotation d'images et aux scénarios d'application courants Jan 22, 2024 pm 07:57 PM

Dans les domaines de l'apprentissage automatique et de la vision par ordinateur, l'annotation d'images est le processus d'application d'annotations humaines à des ensembles de données d'images. Les méthodes d’annotation d’images peuvent être principalement divisées en deux catégories : l’annotation manuelle et l’annotation automatique. L'annotation manuelle signifie que les annotateurs humains annotent les images via des opérations manuelles. Cette méthode nécessite que les annotateurs humains possèdent des connaissances et une expérience professionnelles et soient capables d'identifier et d'annoter avec précision les objets, scènes ou caractéristiques cibles dans les images. L’avantage de l’annotation manuelle est que les résultats de l’annotation sont fiables et précis, mais l’inconvénient est qu’elle prend du temps et est coûteuse. L'annotation automatique fait référence à la méthode d'utilisation de programmes informatiques pour annoter automatiquement les images. Cette méthode utilise la technologie d'apprentissage automatique et de vision par ordinateur pour réaliser une annotation automatique par des modèles de formation. Les avantages de l’étiquetage automatique sont la rapidité et le faible coût, mais l’inconvénient est que les résultats de l’étiquetage peuvent ne pas être précis.

Interprétation du concept de suivi de cible en vision par ordinateur Jan 24, 2024 pm 03:18 PM

Le suivi d'objets est une tâche importante en vision par ordinateur et est largement utilisé dans la surveillance du trafic, la robotique, l'imagerie médicale, le suivi automatique des véhicules et d'autres domaines. Il utilise des méthodes d'apprentissage profond pour prédire ou estimer la position de l'objet cible dans chaque image consécutive de la vidéo après avoir déterminé la position initiale de l'objet cible. Le suivi d'objets a un large éventail d'applications dans la vie réelle et revêt une grande importance dans le domaine de la vision par ordinateur. Le suivi d'objets implique généralement le processus de détection d'objets. Voici un bref aperçu des étapes de suivi des objets : 1. Détection d'objets, où l'algorithme classe et détecte les objets en créant des cadres de délimitation autour d'eux. 2. Attribuez une identification (ID) unique à chaque objet. 3. Suivez le mouvement des objets détectés dans des images tout en stockant les informations pertinentes. Types de cibles de suivi de cible

See all articles