Qu'ont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation d'une œuvre-IA-php.cn

Cet article explique notre travail "EPro-PnP : Perspective-n-Points probabilistes généralisés de bout en bout pour l'estimation de la pose d'objets monoculaires" qui a remporté le prix du meilleur article étudiant CVPR 2022. Le problème étudié dans cet article est d'estimer la pose d'un objet dans l'espace 3D à partir d'une seule image. Parmi les méthodes existantes, les méthodes d'estimation de pose basées sur l'optimisation géométrique PnP extraient souvent des points de corrélation 2D-3D à travers des réseaux profonds. Cependant, comme la solution optimale de pose n'est pas différentiable lors de la rétro-propagation, il est difficile d'utiliser l'erreur de pose car la perte s'effectue. un entraînement stable de bout en bout du réseau, lorsque les points de corrélation 2D-3D reposent sur la supervision des pertes d'autres agents, ce qui n'est pas un objectif d'entraînement optimal pour l'estimation de pose.

Afin de résoudre ce problème, nous nous sommes basés sur la théorie et avons proposé le module EPro-PnP, qui génère la distribution de densité de probabilité de la pose au lieu d'une seule solution optimale de la pose, remplaçant ainsi la pose optimale indifférenciable par différentiable. densité de probabilité, une formation stable de bout en bout est obtenue. EPro-PnP est très polyvalent et adapté à diverses tâches et données spécifiques. Il peut être utilisé pour améliorer les méthodes d'estimation de pose basées sur PnP existantes, ou il peut également utiliser sa flexibilité pour former de nouveaux réseaux. Dans un sens plus général, EPro-PnP introduit essentiellement la classification commune softmax dans le domaine continu et peut théoriquement être étendu pour former des modèles généraux avec des couches d'optimisation imbriquées.

Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre

Lien papier : https://arxiv.org/abs/2203.13254

Lien code : https://github.com/tjiiv-cprg/EPro-PnP

1. Introduction

Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre

Nous étudions un problème classique en vision 3D : la localisation d'objets 3D à partir d'une seule image RVB. Plus précisément, étant donné une image contenant une projection d'un objet 3D, notre objectif est de déterminer la transformation d'un corps rigide du système de coordonnées de l'objet au système de coordonnées de la caméra. Cette transformation de corps rigide est appelée la pose de l'objet, notée y, qui contient deux parties : 1) la composante de position, qui peut être représentée par un vecteur de déplacement 3x1 t, 2) la composante d'orientation, qui peut être représentée par une rotation 3x3. la matrice R signifie.

Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre

Pour résoudre ce problème, les méthodes existantes peuvent être divisées en deux catégories : explicites et implicites. La méthode explicite peut également être appelée prédiction directe de la pose, c'est-à-dire qu'elle utilise un réseau neuronal à action directe (FFN) pour générer directement chaque composant de la pose de l'objet, généralement : 1) prédire la profondeur de l'objet, 2) trouver le centre de l'objet La position de projection 2D du point sur l'image, 3) prédire l'orientation de l'objet (la méthode de traitement spécifique de l'orientation peut être plus compliquée). À l'aide de données d'image marquées avec la pose réelle de l'objet, une fonction de perte peut être conçue pour superviser directement les résultats de prédiction de pose, réalisant ainsi facilement une formation de bout en bout du réseau. Cependant, ces réseaux manquent d’interprétabilité et ont tendance à être surajustés sur des ensembles de données plus petits. Dans les tâches de détection d'objets 3D, les méthodes explicites dominent, en particulier pour les ensembles de données plus volumineux (tels que nuScenes).

Qu'ont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation d'une œuvre Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre

La méthode implicite est une méthode d'estimation de pose basée sur l'optimisation géométrique. Le représentant le plus typique est la Méthode d'estimation de pose basée sur PnP. Dans ce type de méthode, il faut d'abord trouver N points 2D dans le système de coordonnées de l'image (les coordonnées 2D du i-ième point sont notées Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre ), et en même temps trouver les N points 3D qui leur sont associés dans le système de coordonnées de l'objet (le i-ème point). Les coordonnées 3D du point i sont marquées comme Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre ), et parfois il est nécessaire d'obtenir le poids d'association de chaque paire de points (le poids d'association du i- la paire de points est marquée par ). Selon la contrainte de projection perspective, ces N paires de points associés pondérés 2D-3D définissent implicitement la pose optimale de l'objet. Plus précisément, on peut trouver la pose d'objet Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre qui minimise l'erreur de reprojection :

Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre

où Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre , représente l'erreur de reprojection pondérée, qui est la fonction de la pose. représente la fonction de projection de la caméra contenant les paramètres internes, et représente l'élément produit. La méthode PnP est couramment utilisée dans les tâches d'estimation de pose 6-DOF où la géométrie de l'objet est connue.

Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre

La méthode basée sur PnP nécessite également un réseau feedforward pour prédire l'ensemble de points associé 2D-3D Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre . Comparé à la prédiction directe de pose, ce modèle d'apprentissage profond combiné aux algorithmes de vision géométrique traditionnels a une très bonne interprétabilité et ses performances de généralisation sont relativement stables. Cependant, il existe des défauts dans les méthodes de formation de modèles dans les travaux antérieurs. De nombreuses méthodes construisent une fonction de perte proxy pour superviser le résultat intermédiaire X, ce qui n'est pas un objectif optimal pour la pose. Par exemple, si la forme de l'objet est connue, les points clés 3D de l'objet peuvent être sélectionnés à l'avance, puis le réseau est entraîné pour trouver la position du point de projection 2D correspondante. Cela signifie également que la perte de substitution ne peut apprendre que certaines variables de X et n'est donc pas assez flexible. Que se passe-t-il si nous ne connaissons pas les formes des objets dans l’ensemble d’apprentissage et devons tout apprendre dans X à partir de zéro ?

Les avantages des méthodes explicites et implicites sont complémentaires. Si le réseau peut être entraîné de bout en bout pour apprendre l'ensemble de points associé X en supervisant les résultats de pose produits par PnP, les avantages des deux peuvent être combinés. Pour atteindre cet objectif, certaines études récentes ont mis en œuvre la rétropropagation des couches PnP en utilisant la dérivation de fonctions implicites. Cependant, la fonction argmin dans PnP est discontinue et non différenciable à certains points, ce qui rend la rétropropagation instable et la formation directe difficile à converger.

2. Introduction à la méthode EPro-PnP

1. Module EPro-PnP

Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre Qu'ont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation d'une œuvre

Afin d'obtenir une formation stable de bout en bout, nous avons proposé PnP probabiliste de bout en bout), à savoir EPro-PnP. L'idée de base est de considérer la pose implicite comme une distribution de probabilité, alors sa densité de probabilité Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre est différentiable pour X. Premièrement, la fonction de vraisemblance de la pose est définie en fonction de l'erreur de reprojection :

Si un a priori non informatif est utilisé, la densité de probabilité a posteriori de la pose est le résultat normalisé de la fonction de vraisemblance :

On peut remarquer que la formule ci-dessus est très proche de la formule de classification softmax couramment utilisée Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre En fait, l'essence d'EPro-PnP est de déplacer le softmax d'un seuil discret à un seuil continu, et de le remplacer. la somme avec une intégrale .

2. Perte de divergence KL

Dans le processus d'entraînement du modèle, si la vraie pose de l'objet est connue Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre , alors la distribution de pose cible peut être définie. À l'heure actuelle, la divergence KL peut être calculée comme la fonction de perte utilisée pour entraîner le réseau (parce que Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre est fixe, elle peut également être comprise comme la fonction de perte d'entropie croisée). Lorsque la cible s'approche de la fonction Dirac, la fonction de perte basée sur la divergence KL peut être simplifiée sous la forme suivante :

Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre

Si sa dérivée est dérivée :

Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre

On peut voir que la fonction de perte se compose de deux éléments. Le premier terme (noté Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre ) tente de réduire l'erreur de reprojection de la vraie valeur de la pose , et le deuxième terme (noté ). ) tente d'augmenter la prédiction Erreurs de reprojection partout dans la pose Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre . Les deux directions sont opposées et l’effet est illustré dans la figure ci-dessous (à gauche). Par analogie, le côté droit est la perte d'entropie croisée catégorique que nous utilisons couramment lors de la formation des réseaux de classification.

Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre

3. Perte de Monte Carlo

Il convient de noter que le deuxième terme de la perte KL Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre contient une intégrale. Cette intégrale n'a pas de solution analytique, elle doit donc être approximée par des méthodes numériques. Compte tenu de la polyvalence, de la précision et de l’efficacité des calculs, nous utilisons la méthode de Monte Carlo pour simuler la distribution des poses par échantillonnage.

Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre

Plus précisément, nous utilisons un algorithme d'échantillonnage par importance - Adaptive Multiple Importance Sampling (AMIS) pour calculer des échantillons de pose K Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre avec des poids , nous allons Ce processus s'appelle Monte Carlo PnP :

Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre

Selon cela, le deuxième terme Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre peut être approximé en fonction du poids , et peut être rétropropagé :

Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre

L'effet de visualisation de l'échantillonnage de pose est le suivant ci-dessous :

Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre

4. Régularisation dérivée pour le solveur PnP

Bien que la perte PnP de Monte Carlo puisse être utilisée pour entraîner le réseau afin d'obtenir une distribution de pose de haute qualité, dans la phase d'inférence, il est toujours nécessaire d'obtenir la position optimale via le solveur d'optimisation PnP Posture. solution Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre . L'algorithme de Gauss-Newton couramment utilisé et ses dérivées résolvent grâce à une optimisation itérative, et son incrément itératif est déterminé par les dérivées première et seconde de la fonction de coût Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre . Afin de rendre la solution de PnP plus proche de la vraie valeur , la dérivée de la fonction de coût peut être régularisée. La fonction de perte de régularisation est conçue comme suit :

Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre

où, Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre est l'incrément d'itération de Gauss-Newton, qui est lié aux dérivées du premier et du second ordre de la fonction de coût et peut être rétropropagé , représente la métrique de distance, utilisez L1 lisse pour la position et la similarité cosinus pour l'orientation. Lorsque Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre est incohérent, cette fonction de perte force l'incrément d'itération à pointer vers la vraie valeur réelle.

3. Réseau d'estimation de pose basé sur EPro-PnP

Nous utilisons différents réseaux pour les deux sous-tâches d'estimation de pose à 6 degrés de liberté et de détection de cible 3D. Parmi eux, pour l'estimation de pose à 6 degrés de liberté, il est légèrement modifié sur la base du réseau CDPN de l'ICCV 2019 et formé avec EPro-PnP pour mener des études d'ablation pour la détection de cibles 3D, un tout nouveau réseau est conçu sur la base ; sur FCOS3D de l'ICCVW 2021 Tête de détection de correspondance déformable pour prouver qu'EPro-PnP peut entraîner le réseau à apprendre directement tous les points 2D-3D et poids d'association sans connaissance de la forme de l'objet, démontrant ainsi la flexibilité d'EPro-PnP dans les applications.

1. Réseau de corrélation dense pour l'estimation de pose 6-DOF

Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre

La structure du réseau est celle indiquée dans la figure ci-dessus, sauf que la couche de sortie est modifiée en fonction du CDPN d'origine. Le CDPN d'origine utilise la boîte 2D de l'objet détecté pour recadrer l'image régionale et l'entre dans le réseau fédérateur ResNet34. Le CDPN original découple la position et l'orientation en deux branches. La branche de position utilise la méthode explicite de prédiction directe, tandis que la branche d'orientation utilise la méthode implicite d'association dense et PnP. Afin d'étudier EPro-PnP, le réseau modifié conserve uniquement la branche de corrélation dense, dont la sortie est une carte de coordonnées 3D à 3 canaux, et un poids de corrélation à 2 canaux, où le poids de corrélation a subi un softmax spatial et une mise à l'échelle du poids global. Le but de l'ajout de softmax spatial est de normaliser le poids Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre afin qu'il ait des propriétés similaires à la carte d'attention et puisse se concentrer sur des domaines relativement importants. Des expériences ont prouvé que la normalisation du poids est également la clé d'une convergence stable. La mise à l'échelle globale du poids reflète la concentration de la distribution des poses Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre . Le réseau peut être entraîné avec uniquement la perte de pose Monte Carlo d'EPro-PnP, en plus de l'ajout d'une régularisation dérivée et d'une perte de régression de coordonnées 3D supplémentaire lorsque la forme de l'objet est connue.

2. Réseau de corrélation de déformation pour la détection de cibles 3D

Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre

La structure du réseau est illustrée dans la figure ci-dessus. D'une manière générale, il est basé sur le détecteur FCOS3D et fait référence à la structure de réseau conçue par DETR déformable. Sur la base de FCOS3D, ses couches de centrage et de classification sont conservées, et sa couche de prédiction de pose d'origine est remplacée par des couches d'incorporation d'objets et de points de référence pour générer une requête d'objet. En se référant au DETR déformable, on obtient la position d'échantillonnage 2D en prédisant le décalage par rapport au point de référence (on obtient donc Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre ). Les caractéristiques échantillonnées sont regroupées en caractéristiques d'objet via des opérations d'attention, qui sont utilisées pour prédire les résultats au niveau de l'objet (score 3D, échelle de poids, taille de la boîte 3D, etc.). De plus, après échantillonnage, les caractéristiques de chaque point sont ajoutées avec l'incorporation d'objets et traitées par auto-attention pour générer les coordonnées 3D Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre et les poids associés correspondant à chaque point. Tous les prédits peuvent être entraînés par la perte de pose de Monte Carlo d'EPro-PnP, qui peut converger et atteindre une grande précision sans régularisation supplémentaire. Sur cette base, une perte de régularisation dérivée et une perte auxiliaire peuvent être ajoutées pour améliorer encore la précision.

IV.Résultats expérimentaux

1. Tâche d'estimation de pose à 6 degrés de liberté

Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre

Utilisez l'expérience de l'ensemble de données LineMOD et comparez-la strictement avec la ligne de base du CDPN. On peut voir qu'en ajoutant la perte EPro-PnP pour la formation de bout en bout, la précision est considérablement améliorée (+12,70). Continuez à augmenter la perte de régularisation dérivée et la précision est encore améliorée. Sur cette base, l'utilisation des résultats de formation du CDPN d'origine pour initialiser et augmenter les époques (en gardant le nombre total d'époques cohérent avec la formation complète en trois étapes du CDPN d'origine) peut encore améliorer la précision. la formation CDPN est issue de la formation complémentaire de supervision des masques CDPN.

Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre

L'image ci-dessus est une comparaison d'EPro-PnP avec diverses méthodes de pointe. EPro-PnP, qui est amélioré par rapport au CDPN arrière, est proche de SOTA en termes de précision, et l'architecture d'EPro-PnP est simple. Elle est entièrement basée sur PnP pour l'estimation de la pose et ne nécessite pas d'estimation de profondeur explicite supplémentaire ni d'affinement de la pose. Par conséquent, il existe également des avantages en termes d'efficacité.

2. Tâche de détection de cible 3D

Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre

À l'aide de l'expérience de l'ensemble de données nuScenes, les résultats comparés à d'autres méthodes sont présentés dans la figure ci-dessus. EPro-PnP présente non seulement une amélioration significative par rapport à FCOS3D, mais surpasse également PGD, une autre version améliorée de SOTA et FCOS3D à l'époque. Plus important encore, EPro-PnP est actuellement le seul à utiliser des méthodes d'optimisation géométrique pour estimer la pose sur l'ensemble de données nuScenes. En raison de la grande échelle de l'ensemble de données nuScenes, le réseau d'estimation de pose directe entraîné de bout en bout présente déjà de bonnes performances, et nos résultats illustrent que l'entraînement de bout en bout d'un modèle basé sur l'optimisation géométrique peut obtenir de meilleures performances sur grands ensembles de données. Excellentes performances.

3. Analyse visuelle

Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre

La figure ci-dessus montre les résultats de prédiction du réseau d'associations dense formé avec EPro-PnP. Parmi eux, le poids de corrélation map Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre met en évidence des zones importantes de l'image, similaires au mécanisme d'attention. L'analyse de la fonction de perte montre que la zone de surbrillance correspond à la zone avec une faible incertitude de reprojection et qui est plus sensible aux changements de pose.

Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre

Les résultats de la détection de cible 3D sont présentés dans la figure ci-dessus. La vue supérieure gauche montre les positions des points 2D échantillonnés par le réseau de corrélation de déformation. Le rouge indique les points avec une composante X horizontale plus élevée et le vert indique les points avec une composante Y verticale plus élevée. Les points verts sont généralement situés aux extrémités supérieure et inférieure de l'objet. Leur fonction principale est de calculer la distance de l'objet en fonction de la hauteur de l'objet. Cette fonctionnalité n'est pas artificiellement spécifiée et est entièrement le résultat d'un entraînement gratuit. L'image de droite montre les résultats de la détection dans une vue de dessus, dans laquelle l'image du nuage bleu représente la densité de distribution du point central de l'objet, reflétant l'incertitude du positionnement de l'objet. Généralement, l’incertitude de positionnement des objets distants est supérieure à celle des objets proches. Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre Un autre avantage important d'EPro-PnP est la capacité de représenter les ambiguïtés d'orientation en prédisant des distributions multimodales complexes. Comme le montre la figure ci-dessus, la barrière a souvent deux pics avec une différence de 180° en raison de la symétrie de rotation de l'objet lui-même ; le cône lui-même n'a pas d'orientation spécifique, donc les résultats de la prédiction sont distribués dans toutes les directions ; symétrique, mais à cause de l'image, ce n'est pas clair, c'est difficile de distinguer l'avant et l'arrière, et parfois il y a deux pics. Cette caractéristique probabiliste fait qu'EPro-PnP ne nécessite aucun traitement spécial sur la fonction de perte pour les objets symétriques.

Quont étudié les CVPR 2022 Best Student Paper Awards de Tongji et Alibaba ? Ceci est une interprétation dune œuvre 5. Résumé

EPro-PnP transforme la pose optimale indifférenciable d'origine en une densité de probabilité de pose différentiable, de sorte que le réseau d'estimation de pose basé sur l'optimisation géométrique PnP puisse obtenir un train de bout en bout stable et flexible. EPro-PnP peut être appliqué aux problèmes généraux d'estimation de la pose d'objets 3D Même lorsque la géométrie de l'objet 3D est inconnue, les points associés 2D-3D de l'objet peuvent être appris grâce à une formation de bout en bout. Par conséquent, EPro-PnP élargit les possibilités de conception de réseaux, comme notre réseau de corrélation de déformation proposé, qui était auparavant impossible à former.

De plus, EPro-PnP peut également être directement utilisé pour améliorer les méthodes d'estimation de pose basées sur PnP existantes, libérant ainsi le potentiel des réseaux existants grâce à une formation de bout en bout et améliorant la précision de l'estimation de pose. Dans un sens plus général, EPro-PnP introduit essentiellement la classification commune softmax dans le domaine continu. Elle peut non seulement être utilisée pour d'autres problèmes de vision 3D basés sur l'optimisation géométrique, mais peut également être théoriquement étendue pour former un modèle d'optimisation général imbriqué. .

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Assassin's Creed Shadows: Solution d'énigmes de coquille

4 Il y a quelques semaines By DDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

3 Il y a quelques semaines By DDD

Où trouver la courte de la grue à atomide atomique

4 Il y a quelques semaines By DDD

<🎜>: Dead Rails - Comment relever chaque défi

1 Il y a quelques mois By DDD

Guide de l'atomfall: emplacements des articles, guides de quête et conseils

1 Il y a quelques mois By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7696

Tutoriel Java

1640

Tutoriel CakePHP

1393

Tutoriel Laravel

1287

Tutoriel PHP

1229

Afficher plus

Related knowledge

Le modèle MoE open source le plus puissant au monde est ici, avec des capacités chinoises comparables à celles du GPT-4, et le prix ne représente que près d'un pour cent de celui du GPT-4-Turbo. May 07, 2024 pm 04:13 PM

Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

L'IA bouleverse la recherche mathématique ! Le lauréat de la médaille Fields et mathématicien sino-américain a dirigé 11 articles les mieux classés | Aimé par Terence Tao Apr 09, 2024 am 11:52 AM

L’IA change effectivement les mathématiques. Récemment, Tao Zhexuan, qui a prêté une attention particulière à cette question, a transmis le dernier numéro du « Bulletin de l'American Mathematical Society » (Bulletin de l'American Mathematical Society). En se concentrant sur le thème « Les machines changeront-elles les mathématiques ? », de nombreux mathématiciens ont exprimé leurs opinions. L'ensemble du processus a été plein d'étincelles, intense et passionnant. L'auteur dispose d'une équipe solide, comprenant Akshay Venkatesh, lauréat de la médaille Fields, le mathématicien chinois Zheng Lejun, l'informaticien de l'Université de New York Ernest Davis et de nombreux autres universitaires bien connus du secteur. Le monde de l’IA a radicalement changé. Vous savez, bon nombre de ces articles ont été soumis il y a un an.

Google est ravi : les performances de JAX surpassent Pytorch et TensorFlow ! Cela pourrait devenir le choix le plus rapide pour la formation à l'inférence GPU Apr 01, 2024 pm 07:46 PM

Les performances de JAX, promu par Google, ont dépassé celles de Pytorch et TensorFlow lors de récents tests de référence, se classant au premier rang sur 7 indicateurs. Et le test n’a pas été fait sur le TPU présentant les meilleures performances JAX. Bien que parmi les développeurs, Pytorch soit toujours plus populaire que Tensorflow. Mais à l’avenir, des modèles plus volumineux seront peut-être formés et exécutés sur la base de la plate-forme JAX. Modèles Récemment, l'équipe Keras a comparé trois backends (TensorFlow, JAX, PyTorch) avec l'implémentation native de PyTorch et Keras2 avec TensorFlow. Premièrement, ils sélectionnent un ensemble de

Bonjour, Atlas électrique ! Le robot Boston Dynamics revient à la vie, des mouvements étranges à 180 degrés effraient Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

KAN, qui remplace MLP, a été étendu à la convolution par des projets open source Jun 01, 2024 pm 10:03 PM

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

FisheyeDetNet : le premier algorithme de détection de cible basé sur une caméra fisheye Apr 26, 2024 am 11:37 AM

La détection de cibles est un problème relativement mature dans les systèmes de conduite autonome, parmi lesquels la détection des piétons est l'un des premiers algorithmes à être déployés. Des recherches très complètes ont été menées dans la plupart des articles. Cependant, la perception de la distance à l’aide de caméras fisheye pour une vue panoramique est relativement moins étudiée. En raison de la distorsion radiale importante, la représentation standard du cadre de délimitation est difficile à mettre en œuvre dans les caméras fisheye. Pour alléger la description ci-dessus, nous explorons les conceptions étendues de boîtes englobantes, d'ellipses et de polygones généraux dans des représentations polaires/angulaires et définissons une métrique de segmentation d'instance mIOU pour analyser ces représentations. Le modèle fisheyeDetNet proposé avec une forme polygonale surpasse les autres modèles et atteint simultanément 49,5 % de mAP sur l'ensemble de données de la caméra fisheye Valeo pour la conduite autonome.

Les robots Tesla travaillent dans les usines, Musk : Le degré de liberté des mains atteindra 22 cette année ! May 06, 2024 pm 04:13 PM

La dernière vidéo du robot Optimus de Tesla est sortie, et il peut déjà fonctionner en usine. À vitesse normale, il trie les batteries (les batteries 4680 de Tesla) comme ceci : Le responsable a également publié à quoi cela ressemble à une vitesse 20 fois supérieure - sur un petit "poste de travail", en sélectionnant et en sélectionnant et en sélectionnant : Cette fois, il est publié L'un des points forts de la vidéo est qu'Optimus réalise ce travail en usine, de manière totalement autonome, sans intervention humaine tout au long du processus. Et du point de vue d'Optimus, il peut également récupérer et placer la batterie tordue, en se concentrant sur la correction automatique des erreurs : concernant la main d'Optimus, le scientifique de NVIDIA Jim Fan a donné une évaluation élevée : la main d'Optimus est l'un des robots à cinq doigts du monde. le plus adroit. Ses mains ne sont pas seulement tactiles

DualBEV : dépassant largement BEVFormer et BEVDet4D, ouvrez le livre ! Mar 21, 2024 pm 05:21 PM

Cet article explore le problème de la détection précise d'objets sous différents angles de vue (tels que la perspective et la vue à vol d'oiseau) dans la conduite autonome, en particulier comment transformer efficacement les caractéristiques de l'espace en perspective (PV) en vue à vol d'oiseau (BEV). implémenté via le module Visual Transformation (VT). Les méthodes existantes sont globalement divisées en deux stratégies : la conversion 2D en 3D et la conversion 3D en 2D. Les méthodes 2D vers 3D améliorent les caractéristiques 2D denses en prédisant les probabilités de profondeur, mais l'incertitude inhérente aux prévisions de profondeur, en particulier dans les régions éloignées, peut introduire des inexactitudes. Alors que les méthodes 3D vers 2D utilisent généralement des requêtes 3D pour échantillonner des fonctionnalités 2D et apprendre les poids d'attention de la correspondance entre les fonctionnalités 3D et 2D via un transformateur, ce qui augmente le temps de calcul et de déploiement.

See all articles