Table des matières
1. Méthode basée sur un modèle de langage
2. La méthode basée sur la récupération
3. Méthode basée sur l'encodeur-décodeur
Maison Périphériques technologiques IA Description vidéo des points de connaissance des algorithmes que les programmeurs doivent maîtriser

Description vidéo des points de connaissance des algorithmes que les programmeurs doivent maîtriser

May 07, 2023 pm 05:37 PM
程序员 视频 算法

Avec la popularité de ChatGPT, les gens sont devenus extrêmement intéressés par le développement du domaine de l'intelligence artificielle. De nombreux experts estiment qu’une ère de l’intelligence artificielle s’annonce avec le développement rapide de la technologie logicielle et matérielle. Puis, en tant que pionnier dans le domaine des technologies de l’information, l’apprentissage des technologies de l’intelligence artificielle est devenu un sujet incontournable pour les programmeurs.

De manière générale, l'intelligence artificielle peut être divisée en trois directions de recherche : l'intelligence computationnelle, l'intelligence perceptuelle et l'intelligence cognitive.

L'intelligence informatique désigne les opérations de routine des ordinateurs que les gens connaissent, telles que les opérations numériques, la décomposition matricielle, les calculs, etc.

L'intelligence perceptuelle fait référence à la cartographie des signaux du monde physique vers le monde numérique via des caméras, des microphones ou d'autres dispositifs matériels de capteurs, en utilisant des technologies de pointe telles que la reconnaissance vocale et la reconnaissance d'images, puis en améliorant encore cela informations numériques. au niveau cognitif, comme la mémoire, la compréhension, la planification, la prise de décision, etc.

L'intelligence cognitive s'apparente davantage à la compréhension de la pensée humaine, au partage de connaissances, à l'action collaborative ou au jeu, etc., c'est-à-dire à la réflexion et à la prise de décision basées sur les informations acquises. Cette étape nécessite l’utilisation de l’intelligence informatique, de l’intelligence perceptuelle, du nettoyage des données, de la reconnaissance d’images et d’autres capacités. En outre, vous devez également comprendre les besoins de l'entreprise et être capable de coordonner et de gérer des données et des connaissances dispersées, afin de pouvoir élaborer des stratégies et prendre des décisions basées sur des scénarios commerciaux.

Actuellement, une grande partie des travaux en matière d'intelligence artificielle se concentre au stade de l'intelligence perceptuelle, tandis que pour l'intelligence cognitive, les progrès sont relativement lents.

Dans le domaine de l’intelligence cognitive, la technologie la plus proche de la vie des gens est la technologie de description vidéo. Grâce à la classification vidéo, à la détection d'objets et à d'autres technologies d'intelligence perceptuelle, nous pouvons identifier les objets qui apparaissent dans la vidéo. Mais cela ne permet pas aux gens de comprendre ce que décrit la vidéo. Elle ne peut décrire que mécaniquement un homme au visage rouge, un couteau et un cheval rouge.

La description de la vidéo doit identifier les objets dans la vidéo et comprendre la relation entre les objets. En même temps, elle comprend également les différences dans les scènes, les mouvements et les comportements des objets, et combine les connaissances stockées correspondantes. pour faire une description cohérente de la mise en œuvre. Tout cela pose de grands défis techniques. Il s’agit d’une technologie complète qui intègre la vision par ordinateur et le traitement du langage naturel, un peu comme la traduction d’une vidéo en phrase. Il est non seulement nécessaire de comprendre correctement le contenu vidéo, mais également d'utiliser un langage naturel pour exprimer la relation entre les objets de la vidéo.

Les algorithmes actuels de description de contenu vidéo sont principalement divisés en méthodes basées sur des modèles de langage, en méthodes basées sur la récupération et en méthodes d'encodeur-décodeur de base. Présentons-les séparément ci-dessous.

1. Méthode basée sur un modèle de langage

La méthode basée sur un modèle de langage détecte d'abord les cibles, les attributs, les actions et les relations entre les cibles dans la vidéo via la classification vidéo ou la détection de cible méthodes, relations, etc., puis remplissez les objets détectés dans le modèle de langage prédéterminé selon certaines règles pour former une phrase de description complète.

La méthode basée sur des modèles de langage est simple et intuitive, mais en raison des limitations des modèles fixes, les phrases générées ont une structure grammaticale unique et manquent de flexibilité dans les formes d'expression. Dans le même temps, cette méthode doit effectuer un travail d'annotation détaillé dès le début et formuler des étiquettes de catégorie unifiées pour chaque objet, action, attribut, etc. contenu dans la vidéo. De plus, cette méthode donnera des résultats très différents pour les vidéos en dehors de la plage des modèles.

Description vidéo des points de connaissance des algorithmes que les programmeurs doivent maîtriser

2. La méthode basée sur la récupération

La méthode basée sur la récupération doit d'abord être établi Une base de données, chaque vidéo de la base de données a une balise de description de phrase correspondante. Saisissez la vidéo à décrire, puis recherchez les vidéos les plus similaires dans la base de données. Après avoir résumé et réinitialisé, les phrases de description correspondant aux vidéos similaires sont migrées vers la vidéo à décrire.

De manière générale, les phrases de description générées par la méthode de récupération sont plus proches de la forme d'expression du langage naturel humain et la structure des phrases est plus flexible. Cependant, cette méthode dépend fortement de la taille de la base de données. Lorsqu'il y a un manque de vidéos similaires à la vidéo à décrire dans la base de données, la phrase de description générée comportera une erreur importante avec le contenu vidéo. Les deux méthodes ci-dessus s'appuient fortement sur un traitement visuel complexe au début, et il existe un problème d'optimisation insuffisante du modèle de langage pour les phrases générées ultérieurement. Pour les problèmes de description vidéo, les deux types de méthodes sont difficiles à générer des phrases de haute qualité avec des descriptions précises et des expressions diverses.

3. Méthode basée sur l'encodeur-décodeur

La méthode basée sur le codec est actuellement la méthode dominante dans le domaine de la description vidéo. Cela bénéficie principalement des progrès révolutionnaires réalisés dans le domaine de la traduction automatique grâce à des modèles d’encodage et de décodage basés sur des réseaux de neurones profonds.

L'idée de base de la traduction automatique est la suivante : représentez la phrase source d'entrée et la phrase cible dans le même espace vectoriel, utilisez d'abord l'encodeur pour encoder la phrase source dans un vecteur intermédiaire, puis utilisez le décodeur pour décoder le vecteur intermédiaire dans la phrase cible.

Le problème de description vidéo peut essentiellement être considéré comme un problème de « traduction », c'est-à-dire traduire la vidéo en langage naturel. Cette méthode ne nécessite pas de traitement complexe des vidéos au début. Elle peut apprendre directement la relation de mappage entre les vidéos et les langages de description à partir d'une grande quantité de données de formation, réaliser une formation de bout en bout et produire des vidéos avec plus de précision. contenu, grammaire flexible et formes diverses décrire.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Commandes de chat et comment les utiliser
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Est-ce une infraction de publier des vidéos d'autres personnes sur Douyin ? Comment éditer des vidéos sans infraction ? Est-ce une infraction de publier des vidéos d'autres personnes sur Douyin ? Comment éditer des vidéos sans infraction ? Mar 21, 2024 pm 05:57 PM

Avec l'essor des plateformes de vidéos courtes, Douyin est devenu un élément indispensable de la vie quotidienne de chacun. Sur TikTok, nous pouvons voir des vidéos intéressantes du monde entier. Certaines personnes aiment publier les vidéos d’autres personnes, ce qui soulève une question : Douyin enfreint-il la publication de vidéos d’autres personnes ? Cet article abordera ce problème et vous expliquera comment éditer des vidéos sans infraction et comment éviter les problèmes d'infraction. 1. Cela porte-t-il atteinte à la publication par Douyin de vidéos d'autres personnes ? Selon les dispositions de la loi sur le droit d'auteur de mon pays, l'utilisation non autorisée des œuvres du titulaire du droit d'auteur sans l'autorisation du titulaire du droit d'auteur constitue une infraction. Par conséquent, publier des vidéos d’autres personnes sur Douyin sans l’autorisation de l’auteur original ou du titulaire des droits d’auteur constitue une infraction. 2. Comment monter une vidéo sans contrefaçon ? 1. Utilisation de contenu du domaine public ou sous licence : Public

Comment gagner de l'argent en publiant des vidéos sur Douyin ? Comment un débutant peut-il gagner de l'argent sur Douyin ? Comment gagner de l'argent en publiant des vidéos sur Douyin ? Comment un débutant peut-il gagner de l'argent sur Douyin ? Mar 21, 2024 pm 08:17 PM

Douyin, la plateforme nationale de courtes vidéos, nous permet non seulement de profiter d'une variété de courtes vidéos intéressantes et originales pendant notre temps libre, mais nous donne également une scène pour nous montrer et réaliser nos valeurs. Alors, comment gagner de l’argent en postant des vidéos sur Douyin ? Cet article répondra à cette question en détail et vous aidera à gagner plus d’argent sur TikTok. 1. Comment gagner de l’argent en publiant des vidéos sur Douyin ? Après avoir posté une vidéo et obtenu un certain nombre de vues sur Douyin, vous aurez la possibilité de participer au plan de partage publicitaire. Cette méthode de revenus est l’une des plus connues des utilisateurs de Douyin et constitue également la principale source de revenus pour de nombreux créateurs. Douyin décide d'offrir ou non des opportunités de partage de publicités en fonction de divers facteurs tels que le poids du compte, le contenu vidéo et les commentaires du public. La plateforme TikTok permet aux téléspectateurs de soutenir leurs créateurs préférés en envoyant des cadeaux,

Comment publier les œuvres vidéo de Xiaohongshu ? À quoi dois-je faire attention lorsque je publie des vidéos ? Comment publier les œuvres vidéo de Xiaohongshu ? À quoi dois-je faire attention lorsque je publie des vidéos ? Mar 23, 2024 pm 08:50 PM

Avec l'essor des plateformes de vidéos courtes, Xiaohongshu est devenue une plateforme permettant à de nombreuses personnes de partager leur vie, de s'exprimer et de gagner du trafic. Sur cette plateforme, la publication d’œuvres vidéo est un moyen d’interaction très prisé. Alors, comment publier les œuvres vidéo de Xiaohongshu ? 1. Comment publier les œuvres vidéo de Xiaohongshu ? Tout d’abord, assurez-vous d’avoir un contenu vidéo prêt à partager. Vous pouvez utiliser votre téléphone portable ou un autre équipement photo pour prendre des photos, mais vous devez faire attention à la qualité de l'image et à la clarté du son. 2. Editer la vidéo : Afin de rendre le travail plus attrayant, vous pouvez éditer la vidéo. Vous pouvez utiliser un logiciel de montage vidéo professionnel, tel que Douyin, Kuaishou, etc., pour ajouter des filtres, de la musique, des sous-titres et d'autres éléments. 3. Choisissez une couverture : La couverture est la clé pour inciter les utilisateurs à cliquer. Choisissez une image claire et intéressante comme couverture pour inciter les utilisateurs à cliquer dessus.

CLIP-BEVFormer : superviser explicitement la structure BEVFormer pour améliorer les performances de détection à longue traîne CLIP-BEVFormer : superviser explicitement la structure BEVFormer pour améliorer les performances de détection à longue traîne Mar 26, 2024 pm 12:41 PM

Écrit ci-dessus et compréhension personnelle de l'auteur : À l'heure actuelle, dans l'ensemble du système de conduite autonome, le module de perception joue un rôle essentiel. Le véhicule autonome roulant sur la route ne peut obtenir des résultats de perception précis que via le module de perception en aval. dans le système de conduite autonome, prend des jugements et des décisions comportementales opportuns et corrects. Actuellement, les voitures dotées de fonctions de conduite autonome sont généralement équipées d'une variété de capteurs d'informations de données, notamment des capteurs de caméra à vision panoramique, des capteurs lidar et des capteurs radar à ondes millimétriques pour collecter des informations selon différentes modalités afin d'accomplir des tâches de perception précises. L'algorithme de perception BEV basé sur la vision pure est privilégié par l'industrie en raison de son faible coût matériel et de sa facilité de déploiement, et ses résultats peuvent être facilement appliqués à diverses tâches en aval.

Comment publier des vidéos sur Weibo sans compresser la qualité de l'image_Comment publier des vidéos sur Weibo sans compresser la qualité de l'image Comment publier des vidéos sur Weibo sans compresser la qualité de l'image_Comment publier des vidéos sur Weibo sans compresser la qualité de l'image Mar 30, 2024 pm 12:26 PM

1. Ouvrez d'abord Weibo sur votre téléphone mobile et cliquez sur [Moi] dans le coin inférieur droit (comme indiqué sur l'image). 2. Cliquez ensuite sur [Gear] dans le coin supérieur droit pour ouvrir les paramètres (comme indiqué sur l'image). 3. Ensuite, recherchez et ouvrez [Paramètres généraux] (comme indiqué sur l'image). 4. Entrez ensuite l'option [Video Follow] (comme indiqué sur l'image). 5. Ensuite, ouvrez le paramètre [Résolution de téléchargement vidéo] (comme indiqué sur l'image). 6. Enfin, sélectionnez [Qualité d'image originale] pour éviter la compression (comme indiqué sur l'image).

Implémentation d'algorithmes d'apprentissage automatique en C++ : défis et solutions courants Implémentation d'algorithmes d'apprentissage automatique en C++ : défis et solutions courants Jun 03, 2024 pm 01:25 PM

Les défis courants rencontrés par les algorithmes d'apprentissage automatique en C++ incluent la gestion de la mémoire, le multithread, l'optimisation des performances et la maintenabilité. Les solutions incluent l'utilisation de pointeurs intelligents, de bibliothèques de threads modernes, d'instructions SIMD et de bibliothèques tierces, ainsi que le respect des directives de style de codage et l'utilisation d'outils d'automatisation. Des cas pratiques montrent comment utiliser la bibliothèque Eigen pour implémenter des algorithmes de régression linéaire, gérer efficacement la mémoire et utiliser des opérations matricielles hautes performances.

Explorez les principes sous-jacents et la sélection d'algorithmes de la fonction de tri C++ Explorez les principes sous-jacents et la sélection d'algorithmes de la fonction de tri C++ Apr 02, 2024 pm 05:36 PM

La couche inférieure de la fonction de tri C++ utilise le tri par fusion, sa complexité est O(nlogn) et propose différents choix d'algorithmes de tri, notamment le tri rapide, le tri par tas et le tri stable.

Quel programmeur IA est le meilleur ? Explorez le potentiel de Devin, Tongyi Lingma et de l'agent SWE Quel programmeur IA est le meilleur ? Explorez le potentiel de Devin, Tongyi Lingma et de l'agent SWE Apr 07, 2024 am 09:10 AM

Le 3 mars 2022, moins d'un mois après la naissance de Devin, le premier programmeur d'IA au monde, l'équipe NLP de l'Université de Princeton a développé un agent SWE pour programmeur d'IA open source. Il exploite le modèle GPT-4 pour résoudre automatiquement les problèmes dans les référentiels GitHub. Les performances de l'agent SWE sur l'ensemble de tests du banc SWE sont similaires à celles de Devin, prenant en moyenne 93 secondes et résolvant 12,29 % des problèmes. En interagissant avec un terminal dédié, SWE-agent peut ouvrir et rechercher le contenu des fichiers, utiliser la vérification automatique de la syntaxe, modifier des lignes spécifiques et écrire et exécuter des tests. (Remarque : le contenu ci-dessus est un léger ajustement du contenu original, mais les informations clés du texte original sont conservées et ne dépassent pas la limite de mots spécifiée.) SWE-A

See all articles