Table des matières
Modèle proposé
Expériences et résultats
Processus de recherche
Maison Périphériques technologiques IA Pour utiliser efficacement les intentions des utilisateurs à plusieurs niveaux, l'Université des sciences et technologies de Hong Kong, l'Université de Pékin, etc. ont proposé un nouveau modèle de recommandation de session Atten-Mixer

Pour utiliser efficacement les intentions des utilisateurs à plusieurs niveaux, l'Université des sciences et technologies de Hong Kong, l'Université de Pékin, etc. ont proposé un nouveau modèle de recommandation de session Atten-Mixer

Apr 15, 2023 am 08:28 AM
模型 论文

En tant que technologie intelligente de filtrage des informations, le système de recommandation a été largement utilisé dans des scénarios réels. Cependant, le succès des systèmes de recommandation repose souvent sur une grande quantité de données sur les utilisateurs, qui peuvent impliquer des informations privées et sensibles sur les utilisateurs. Dans les scénarios où les informations sur les utilisateurs sont limitées par la protection de la vie privée ou ne peuvent pas être obtenues, les systèmes de recommandation traditionnels ne fonctionnent souvent pas correctement. Par conséquent, comment construire un système de recommandation fiable tout en garantissant la confidentialité et la sécurité est un problème urgent à résoudre.


Ces dernières années, alors que les utilisateurs accordent de plus en plus d'attention à leur propre vie privée, de plus en plus d'utilisateurs ont tendance à utiliser les plateformes en ligne sans se connecter, ce qui fait également des recommandations anonymes basées sur des sessions une direction de recherche importante. Récemment, des chercheurs de l'Université des sciences et technologies de Hong Kong, de l'Université de Pékin, de Microsoft Asia Research et d'autres institutions ont proposé un nouveau modèle Atten-Mixer qui utilise efficacement les intentions des utilisateurs à plusieurs niveaux. Le document de recherche a reçu une mention honorable pour le meilleur article au WSDM2023.


Pour utiliser efficacement les intentions des utilisateurs à plusieurs niveaux, lUniversité des sciences et technologies de Hong Kong, lUniversité de Pékin, etc. ont proposé un nouveau modèle de recommandation de session Atten-Mixer


Lien papier : https://dl.acm.org/doi/abs/10.1145/3539597.3570445


Contexte de recherche


La recommandation basée sur la session (SBR) est une méthode de recommandation basée sur la session courte et dynamique de l'utilisateur (c'est-à-dire la séquence de comportement de l'utilisateur).


Par rapport aux systèmes traditionnels de recommandation basés sur des utilisateurs ou des éléments, SBR se concentre davantage sur la capture des besoins immédiats de l'utilisateur dans la session en cours et peut s'adapter plus efficacement aux défis de l'évolution rapide des intérêts des utilisateurs et des besoins à long terme. effets.


Dans l'évolution du modèle SBR, des modèles basés sur le réseau neuronal récurrent (RNN) aux modèles basés sur le réseau neuronal convolutif (CNN), puis aux récents modèles basés sur le réseau neuronal graphique (GNN) sont largement utilisés dans la recherche SBR pour mieux exploiter les relations de transfert complexes entre les éléments.


Pour utiliser efficacement les intentions des utilisateurs à plusieurs niveaux, lUniversité des sciences et technologies de Hong Kong, lUniversité de Pékin, etc. ont proposé un nouveau modèle de recommandation de session Atten-Mixer


Cependant, l'amélioration des performances de ces modèles sur des ensembles de données de référence est très limitée par rapport à l'augmentation exponentielle de la complexité de leurs modèles. Face à ce phénomène, cet article soulève les questions suivantes : ces modèles basés sur GNN sont-ils trop simples ou trop complexes pour le SBR ?


Analyse préliminaire


Pour répondre à cette question, l'auteur a tenté de déconstruire les modèles SBR basés sur GNN existants et d'analyser leur rôle sur les tâches SBR.


De manière générale, un modèle SBR typique basé sur GNN peut être décomposé en deux parties :


(1) Module GNN. Les paramètres peuvent être divisés en poids de propagation pour la convolution graphique et en poids GRU pour fusionner l'intégration d'origine et la sortie de convolution graphique.

(2) Module de lecture. Les paramètres comprennent des poids de regroupement d'attention pour générer des représentations à long terme et des poids de transformation pour générer des représentations de session à des fins de prédiction.




Ensuite, l'auteur utilise Sparse Variational Dropout (SparseVD), une technologie de sparsification de réseau neuronal couramment utilisée, sur ces deux parties respectivement, et calcule les paramètres lors de l'entraînement du rapport de densité. .


Le rapport de densité d'un paramètre fait référence au rapport du nombre d'éléments supérieur à un certain seuil au nombre total d'éléments dans le poids du paramètre. Sa valeur peut être utilisée pour mesurer l'importance du paramètre.


Pour utiliser efficacement les intentions des utilisateurs à plusieurs niveaux, lUniversité des sciences et technologies de Hong Kong, lUniversité de Pékin, etc. ont proposé un nouveau modèle de recommandation de session Atten-Mixer


Module GNN.


Étant donné que GNN a de nombreux paramètres, avec une initialisation aléatoire, il y aura beaucoup de connaissances à mettre à jour au début. Par conséquent, nous pouvons voir que le rapport de densité du poids de propagation de convolution du graphique fluctuera dans les premiers lots de données. Au fur et à mesure que l'entraînement se stabilise, le rapport de densité tendra vers 0.


Pour utiliser efficacement les intentions des utilisateurs à plusieurs niveaux, lUniversité des sciences et technologies de Hong Kong, lUniversité de Pékin, etc. ont proposé un nouveau modèle de recommandation de session Atten-Mixer

Module de lecture.


Nous pouvons constater qu'au fur et à mesure que l'entraînement progresse, le rapport de densité des poids de attention regroupés peut être maintenu à un niveau élevé. Nous pouvons également observer la même tendance sur d'autres ensembles de données et d'autres modèles SBR basés sur GNN.


Par conséquent, les auteurs ont constaté que de nombreux paramètres du module GNN sont redondants pendant le processus de formation. Sur cette base, l'auteur propose les lignes directrices suivantes pour la conception de modèles plus simples et plus efficaces pour SBR :


(1) Sans trop poursuivre la conception de GNN complexe, l'auteur a tendance à supprimer la partie propagation du GNN et à ne conserver que la couche d'intégration initiale  ;

(2) Les concepteurs de modèles devraient accorder plus d'attention au module de lecture basé sur l'attention .


Étant donné que les paramètres de poids de mise en commun de l'attention maintiennent un rapport de densité élevé, l'auteur suppose qu'il sera plus bénéfique de mener une conception architecturale plus avancée sur la méthode de lecture basée sur l'attention.


Étant donné que cet article abandonne la dépendance à l'égard de la partie propagation de GNN, le module Readout devrait assumer davantage de responsabilité dans le raisonnement du modèle.


Considérant que le module de lecture existant basé sur la vue d'instance a des capacités de raisonnement limitées, cet article doit concevoir un module de lecture avec des capacités de raisonnement plus fortes.


Comment concevoir un module de lecture avec des capacités de raisonnement plus fortes


Selon les recherches en psychopathologie, le raisonnement humain est essentiellement un processus de traitement de l'information à plusieurs niveaux.


Par exemple, en considérant de manière globale les produits sous-jacents avec lesquels Alice interagit, les humains peuvent obtenir des concepts de niveau supérieur, par exemple si Alice envisage de planifier un mariage ou de décorer une nouvelle maison. Après avoir déterminé qu'Alice planifie probablement un mariage, l'humain considère alors les objets de mariage liés au bouquet, tels que les ballons de mariage, plutôt que les objets décoratifs liés au bouquet, comme une fresque murale.


L'adoption de cette stratégie de raisonnement à plusieurs niveaux dans un système de recommandation peut aider à élaguer une grande quantité d'espace de recherche, à éviter les solutions optimales locales et à converger vers une solution plus satisfaisante en considérant la tendance globale du comportement des utilisateurs.


Par conséquent, cet article espère introduire ce mécanisme de raisonnement multicouche dans la conception du module de lecture.

Pour utiliser efficacement les intentions des utilisateurs à plusieurs niveaux, lUniversité des sciences et technologies de Hong Kong, lUniversité de Pékin, etc. ont proposé un nouveau modèle de recommandation de session Atten-Mixer

Cependant, obtenir ces concepts de haut niveau n'est pas une tâche facile, car le simple fait d'énumérer ces concepts de haut niveau n'est pas réaliste et est susceptible d'introduire des concepts non pertinents et d'interférer avec les performances du modèle.

Afin de relever ce défi, cet article adopte deux biais inductifs liés au SBR : l'invariance locale et la priorité inhérente à la réduction de l'espace de recherche .

  • La priorité inhérente signifie que les derniers éléments de la session peuvent mieux refléter les intérêts actuels de l'utilisateur ;
  • L'invariance locale signifie que l'ordre relatif des derniers éléments de la session n'affecte pas l'intérêt de l'utilisateur ; ainsi, en pratique, les groupes peuvent être formés par un nombre différent d'éléments de queue, et des concepts de haut niveau associés peuvent être construits à travers ces groupes.

Ici, l'élément de queue correspond à la priorité inhérente, le groupe correspond à l'invariance locale et les différents nombres représentent les concepts multicouches de haut niveau que cet article considère.

Pour utiliser efficacement les intentions des utilisateurs à plusieurs niveaux, lUniversité des sciences et technologies de Hong Kong, lUniversité de Pékin, etc. ont proposé un nouveau modèle de recommandation de session Atten-Mixer

Modèle proposé

Par conséquent, cet article propose un modèle appelé Atten-Mixer. Le modèle peut être intégré à différents encodeurs. Pour la session d'entrée, le modèle obtient l'intégration de chaque élément à partir de la couche d'intégration. Le modèle applique ensuite une transformation linéaire à la représentation de groupe résultante pour générer des requêtes d'intention utilisateur à plusieurs niveaux.

Pour utiliser efficacement les intentions des utilisateurs à plusieurs niveaux, lUniversité des sciences et technologies de Hong Kong, lUniversité de Pékin, etc. ont proposé un nouveau modèle de recommandation de session Atten-Mixer

où Q1 est la requête d'attention de vue d'instance, tandis que les autres sont des requêtes d'attention de niveau supérieur avec différents champs de réception et informations invariantes locales. Ensuite, le modèle utilise les requêtes d'attention générées pour s'occuper de l'état caché de chaque élément de la session et obtenir la représentation finale de la session.

Pour utiliser efficacement les intentions des utilisateurs à plusieurs niveaux, lUniversité des sciences et technologies de Hong Kong, lUniversité de Pékin, etc. ont proposé un nouveau modèle de recommandation de session Atten-Mixer

Expériences et résultats

Dans l'expérience hors ligne, cet article utilise des ensembles de données de trois domaines différents : Digitalica est un ensemble de données pour les transactions de commerce électronique, Gowalla est un ensemble de données pour les réseaux sociaux et Last.fm Il s'agit d'un ensemble de données pour la recommandation musicale.

Pour utiliser efficacement les intentions des utilisateurs à plusieurs niveaux, lUniversité des sciences et technologies de Hong Kong, lUniversité de Pékin, etc. ont proposé un nouveau modèle de recommandation de session Atten-Mixer

Résultats expérimentaux hors ligne

(1) Comparaison globale

L'auteur a comparé Atten-Mixer avec quatre méthodes de base basées sur CNN, basées sur RNN, basées sur GNN et basées sur la lecture .

Les résultats expérimentaux montrent qu'Atten-Mixer surpasse les méthodes de base en termes de précision et d'efficacité sur trois ensembles de données.

Pour utiliser efficacement les intentions des utilisateurs à plusieurs niveaux, lUniversité des sciences et technologies de Hong Kong, lUniversité de Pékin, etc. ont proposé un nouveau modèle de recommandation de session Atten-Mixer

(2) Analyse de l'amélioration des performances

De plus, l'auteur a également intégré le module Atten-Mixer dans SR-GNN et SGNN-HN pour vérifier l'effet d'amélioration des performances de cette méthode sur le modèle original .

Les résultats expérimentaux hors ligne montrent qu'Atten-Mixer améliore considérablement les performances du modèle sur tous les ensembles de données, en particulier lorsque la valeur K dans l'indice d'évaluation est faible, indiquant qu'Atten-Mixer peut aider le modèle d'origine à être plus précis et plus utilisateur. recommandation amicale.

Pour utiliser efficacement les intentions des utilisateurs à plusieurs niveaux, lUniversité des sciences et technologies de Hong Kong, lUniversité de Pékin, etc. ont proposé un nouveau modèle de recommandation de session Atten-Mixer

Résultats des expériences en ligne

L'auteur a également déployé Atten-Mixer dans des services de commerce électronique en ligne à grande échelle en avril 2021. Les expériences en ligne montrent que le réseau de mélange d'attention à plusieurs niveaux (Atten-Mixer) a obtenu des résultats significatifs dans divers indicateurs commerciaux en ligne pour s'améliorer. .

Pour utiliser efficacement les intentions des utilisateurs à plusieurs niveaux, lUniversité des sciences et technologies de Hong Kong, lUniversité de Pékin, etc. ont proposé un nouveau modèle de recommandation de session Atten-Mixer

Conclusion expérimentale

Pour résumer, Atten-Mixer possède des capacités de raisonnement à plusieurs niveaux et démontre d'excellentes performances en ligne et hors ligne en termes de précision et d'efficacité. Voici quelques-unes des principales contributions :

  • Une architecture de modèle complexe n'est pas une condition nécessaire pour le SBR, et la conception architecturale innovante de la méthode de lecture basée sur l'attention est une solution efficace.
  • La corrélation de concepts à plusieurs niveaux aide à capter les intérêts des utilisateurs, et l'utilisation du biais inductif est un moyen efficace de découvrir des concepts d'ordre élevé riches en informations.

Processus de recherche

Enfin, il convient de mentionner que cet article a une expérience de développement tortueuse derrière sa nomination honoraire pour le meilleur article du WSDM2023, comme l'a présenté Haohan Wang de l'UIUC, l'un des auteurs de l'article In Dans ce cas, cet article a en fait été rejeté à plusieurs reprises au cours du processus de soumission parce qu'il était trop simple. Heureusement, l'auteur de l'article n'a pas répondu aux goûts des évaluateurs dans le but de mettre l'article de côté, mais a insisté. sa propre simplicité, et a finalement conduit à l'honneur de cet article.

Pour utiliser efficacement les intentions des utilisateurs à plusieurs niveaux, lUniversité des sciences et technologies de Hong Kong, lUniversité de Pékin, etc. ont proposé un nouveau modèle de recommandation de session Atten-Mixer

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Comment déverrouiller tout dans Myrise
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Le modèle MoE open source le plus puissant au monde est ici, avec des capacités chinoises comparables à celles du GPT-4, et le prix ne représente que près d'un pour cent de celui du GPT-4-Turbo. Le modèle MoE open source le plus puissant au monde est ici, avec des capacités chinoises comparables à celles du GPT-4, et le prix ne représente que près d'un pour cent de celui du GPT-4-Turbo. May 07, 2024 pm 04:13 PM

Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

L'IA bouleverse la recherche mathématique ! Le lauréat de la médaille Fields et mathématicien sino-américain a dirigé 11 articles les mieux classés | Aimé par Terence Tao L'IA bouleverse la recherche mathématique ! Le lauréat de la médaille Fields et mathématicien sino-américain a dirigé 11 articles les mieux classés | Aimé par Terence Tao Apr 09, 2024 am 11:52 AM

L’IA change effectivement les mathématiques. Récemment, Tao Zhexuan, qui a prêté une attention particulière à cette question, a transmis le dernier numéro du « Bulletin de l'American Mathematical Society » (Bulletin de l'American Mathematical Society). En se concentrant sur le thème « Les machines changeront-elles les mathématiques ? », de nombreux mathématiciens ont exprimé leurs opinions. L'ensemble du processus a été plein d'étincelles, intense et passionnant. L'auteur dispose d'une équipe solide, comprenant Akshay Venkatesh, lauréat de la médaille Fields, le mathématicien chinois Zheng Lejun, l'informaticien de l'Université de New York Ernest Davis et de nombreux autres universitaires bien connus du secteur. Le monde de l’IA a radicalement changé. Vous savez, bon nombre de ces articles ont été soumis il y a un an.

KAN, qui remplace MLP, a été étendu à la convolution par des projets open source KAN, qui remplace MLP, a été étendu à la convolution par des projets open source Jun 01, 2024 pm 10:03 PM

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

Bonjour, Atlas électrique ! Le robot Boston Dynamics revient à la vie, des mouvements étranges à 180 degrés effraient Musk Bonjour, Atlas électrique ! Le robot Boston Dynamics revient à la vie, des mouvements étranges à 180 degrés effraient Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

Google est ravi : les performances de JAX surpassent Pytorch et TensorFlow ! Cela pourrait devenir le choix le plus rapide pour la formation à l'inférence GPU Google est ravi : les performances de JAX surpassent Pytorch et TensorFlow ! Cela pourrait devenir le choix le plus rapide pour la formation à l'inférence GPU Apr 01, 2024 pm 07:46 PM

Les performances de JAX, promu par Google, ont dépassé celles de Pytorch et TensorFlow lors de récents tests de référence, se classant au premier rang sur 7 indicateurs. Et le test n’a pas été fait sur le TPU présentant les meilleures performances JAX. Bien que parmi les développeurs, Pytorch soit toujours plus populaire que Tensorflow. Mais à l’avenir, des modèles plus volumineux seront peut-être formés et exécutés sur la base de la plate-forme JAX. Modèles Récemment, l'équipe Keras a comparé trois backends (TensorFlow, JAX, PyTorch) avec l'implémentation native de PyTorch et Keras2 avec TensorFlow. Premièrement, ils sélectionnent un ensemble de

Les robots Tesla travaillent dans les usines, Musk : Le degré de liberté des mains atteindra 22 cette année ! Les robots Tesla travaillent dans les usines, Musk : Le degré de liberté des mains atteindra 22 cette année ! May 06, 2024 pm 04:13 PM

La dernière vidéo du robot Optimus de Tesla est sortie, et il peut déjà fonctionner en usine. À vitesse normale, il trie les batteries (les batteries 4680 de Tesla) comme ceci : Le responsable a également publié à quoi cela ressemble à une vitesse 20 fois supérieure - sur un petit "poste de travail", en sélectionnant et en sélectionnant et en sélectionnant : Cette fois, il est publié L'un des points forts de la vidéo est qu'Optimus réalise ce travail en usine, de manière totalement autonome, sans intervention humaine tout au long du processus. Et du point de vue d'Optimus, il peut également récupérer et placer la batterie tordue, en se concentrant sur la correction automatique des erreurs : concernant la main d'Optimus, le scientifique de NVIDIA Jim Fan a donné une évaluation élevée : la main d'Optimus est l'un des robots à cinq doigts du monde. le plus adroit. Ses mains ne sont pas seulement tactiles

FisheyeDetNet : le premier algorithme de détection de cible basé sur une caméra fisheye FisheyeDetNet : le premier algorithme de détection de cible basé sur une caméra fisheye Apr 26, 2024 am 11:37 AM

La détection de cibles est un problème relativement mature dans les systèmes de conduite autonome, parmi lesquels la détection des piétons est l'un des premiers algorithmes à être déployés. Des recherches très complètes ont été menées dans la plupart des articles. Cependant, la perception de la distance à l’aide de caméras fisheye pour une vue panoramique est relativement moins étudiée. En raison de la distorsion radiale importante, la représentation standard du cadre de délimitation est difficile à mettre en œuvre dans les caméras fisheye. Pour alléger la description ci-dessus, nous explorons les conceptions étendues de boîtes englobantes, d'ellipses et de polygones généraux dans des représentations polaires/angulaires et définissons une métrique de segmentation d'instance mIOU pour analyser ces représentations. Le modèle fisheyeDetNet proposé avec une forme polygonale surpasse les autres modèles et atteint simultanément 49,5 % de mAP sur l'ensemble de données de la caméra fisheye Valeo pour la conduite autonome.

DualBEV : dépassant largement BEVFormer et BEVDet4D, ouvrez le livre ! DualBEV : dépassant largement BEVFormer et BEVDet4D, ouvrez le livre ! Mar 21, 2024 pm 05:21 PM

Cet article explore le problème de la détection précise d'objets sous différents angles de vue (tels que la perspective et la vue à vol d'oiseau) dans la conduite autonome, en particulier comment transformer efficacement les caractéristiques de l'espace en perspective (PV) en vue à vol d'oiseau (BEV). implémenté via le module Visual Transformation (VT). Les méthodes existantes sont globalement divisées en deux stratégies : la conversion 2D en 3D et la conversion 3D en 2D. Les méthodes 2D vers 3D améliorent les caractéristiques 2D denses en prédisant les probabilités de profondeur, mais l'incertitude inhérente aux prévisions de profondeur, en particulier dans les régions éloignées, peut introduire des inexactitudes. Alors que les méthodes 3D vers 2D utilisent généralement des requêtes 3D pour échantillonner des fonctionnalités 2D et apprendre les poids d'attention de la correspondance entre les fonctionnalités 3D et 2D via un transformateur, ce qui augmente le temps de calcul et de déploiement.

See all articles