


Pour utiliser efficacement les intentions des utilisateurs à plusieurs niveaux, l'Université des sciences et technologies de Hong Kong, l'Université de Pékin, etc. ont proposé un nouveau modèle de recommandation de session Atten-Mixer
En tant que technologie intelligente de filtrage des informations, le système de recommandation a été largement utilisé dans des scénarios réels. Cependant, le succès des systèmes de recommandation repose souvent sur une grande quantité de données sur les utilisateurs, qui peuvent impliquer des informations privées et sensibles sur les utilisateurs. Dans les scénarios où les informations sur les utilisateurs sont limitées par la protection de la vie privée ou ne peuvent pas être obtenues, les systèmes de recommandation traditionnels ne fonctionnent souvent pas correctement. Par conséquent, comment construire un système de recommandation fiable tout en garantissant la confidentialité et la sécurité est un problème urgent à résoudre.
Ces dernières années, alors que les utilisateurs accordent de plus en plus d'attention à leur propre vie privée, de plus en plus d'utilisateurs ont tendance à utiliser les plateformes en ligne sans se connecter, ce qui fait également des recommandations anonymes basées sur des sessions une direction de recherche importante. Récemment, des chercheurs de l'Université des sciences et technologies de Hong Kong, de l'Université de Pékin, de Microsoft Asia Research et d'autres institutions ont proposé un nouveau modèle Atten-Mixer qui utilise efficacement les intentions des utilisateurs à plusieurs niveaux. Le document de recherche a reçu une mention honorable pour le meilleur article au WSDM2023.
Lien papier : https://dl.acm.org/doi/abs/10.1145/3539597.3570445
Contexte de recherche
La recommandation basée sur la session (SBR) est une méthode de recommandation basée sur la session courte et dynamique de l'utilisateur (c'est-à-dire la séquence de comportement de l'utilisateur).
Par rapport aux systèmes traditionnels de recommandation basés sur des utilisateurs ou des éléments, SBR se concentre davantage sur la capture des besoins immédiats de l'utilisateur dans la session en cours et peut s'adapter plus efficacement aux défis de l'évolution rapide des intérêts des utilisateurs et des besoins à long terme. effets.
Dans l'évolution du modèle SBR, des modèles basés sur le réseau neuronal récurrent (RNN) aux modèles basés sur le réseau neuronal convolutif (CNN), puis aux récents modèles basés sur le réseau neuronal graphique (GNN) sont largement utilisés dans la recherche SBR pour mieux exploiter les relations de transfert complexes entre les éléments.
Cependant, l'amélioration des performances de ces modèles sur des ensembles de données de référence est très limitée par rapport à l'augmentation exponentielle de la complexité de leurs modèles. Face à ce phénomène, cet article soulève les questions suivantes : ces modèles basés sur GNN sont-ils trop simples ou trop complexes pour le SBR ?
Analyse préliminaire
Pour répondre à cette question, l'auteur a tenté de déconstruire les modèles SBR basés sur GNN existants et d'analyser leur rôle sur les tâches SBR.
De manière générale, un modèle SBR typique basé sur GNN peut être décomposé en deux parties :
(1) Module GNN. Les paramètres peuvent être divisés en poids de propagation pour la convolution graphique et en poids GRU pour fusionner l'intégration d'origine et la sortie de convolution graphique.
(2) Module de lecture. Les paramètres comprennent des poids de regroupement d'attention pour générer des représentations à long terme et des poids de transformation pour générer des représentations de session à des fins de prédiction.
Ensuite, l'auteur utilise Sparse Variational Dropout (SparseVD), une technologie de sparsification de réseau neuronal couramment utilisée, sur ces deux parties respectivement, et calcule les paramètres lors de l'entraînement du rapport de densité. .
Le rapport de densité d'un paramètre fait référence au rapport du nombre d'éléments supérieur à un certain seuil au nombre total d'éléments dans le poids du paramètre. Sa valeur peut être utilisée pour mesurer l'importance du paramètre.
Module GNN.
Étant donné que GNN a de nombreux paramètres, avec une initialisation aléatoire, il y aura beaucoup de connaissances à mettre à jour au début. Par conséquent, nous pouvons voir que le rapport de densité du poids de propagation de convolution du graphique fluctuera dans les premiers lots de données. Au fur et à mesure que l'entraînement se stabilise, le rapport de densité tendra vers 0.
Module de lecture.
Nous pouvons constater qu'au fur et à mesure que l'entraînement progresse, le rapport de densité des poids de attention regroupés peut être maintenu à un niveau élevé. Nous pouvons également observer la même tendance sur d'autres ensembles de données et d'autres modèles SBR basés sur GNN.
Par conséquent, les auteurs ont constaté que de nombreux paramètres du module GNN sont redondants pendant le processus de formation. Sur cette base, l'auteur propose les lignes directrices suivantes pour la conception de modèles plus simples et plus efficaces pour SBR :
(1) Sans trop poursuivre la conception de GNN complexe, l'auteur a tendance à supprimer la partie propagation du GNN et à ne conserver que la couche d'intégration initiale ;
(2) Les concepteurs de modèles devraient accorder plus d'attention au module de lecture basé sur l'attention .
Étant donné que les paramètres de poids de mise en commun de l'attention maintiennent un rapport de densité élevé, l'auteur suppose qu'il sera plus bénéfique de mener une conception architecturale plus avancée sur la méthode de lecture basée sur l'attention.
Étant donné que cet article abandonne la dépendance à l'égard de la partie propagation de GNN, le module Readout devrait assumer davantage de responsabilité dans le raisonnement du modèle.
Considérant que le module de lecture existant basé sur la vue d'instance a des capacités de raisonnement limitées, cet article doit concevoir un module de lecture avec des capacités de raisonnement plus fortes.
Comment concevoir un module de lecture avec des capacités de raisonnement plus fortes
Selon les recherches en psychopathologie, le raisonnement humain est essentiellement un processus de traitement de l'information à plusieurs niveaux.
Par exemple, en considérant de manière globale les produits sous-jacents avec lesquels Alice interagit, les humains peuvent obtenir des concepts de niveau supérieur, par exemple si Alice envisage de planifier un mariage ou de décorer une nouvelle maison. Après avoir déterminé qu'Alice planifie probablement un mariage, l'humain considère alors les objets de mariage liés au bouquet, tels que les ballons de mariage, plutôt que les objets décoratifs liés au bouquet, comme une fresque murale.
L'adoption de cette stratégie de raisonnement à plusieurs niveaux dans un système de recommandation peut aider à élaguer une grande quantité d'espace de recherche, à éviter les solutions optimales locales et à converger vers une solution plus satisfaisante en considérant la tendance globale du comportement des utilisateurs.
Par conséquent, cet article espère introduire ce mécanisme de raisonnement multicouche dans la conception du module de lecture.
Cependant, obtenir ces concepts de haut niveau n'est pas une tâche facile, car le simple fait d'énumérer ces concepts de haut niveau n'est pas réaliste et est susceptible d'introduire des concepts non pertinents et d'interférer avec les performances du modèle.
Afin de relever ce défi, cet article adopte deux biais inductifs liés au SBR : l'invariance locale et la priorité inhérente à la réduction de l'espace de recherche .
- La priorité inhérente signifie que les derniers éléments de la session peuvent mieux refléter les intérêts actuels de l'utilisateur ;
- L'invariance locale signifie que l'ordre relatif des derniers éléments de la session n'affecte pas l'intérêt de l'utilisateur ; ainsi, en pratique, les groupes peuvent être formés par un nombre différent d'éléments de queue, et des concepts de haut niveau associés peuvent être construits à travers ces groupes.
Ici, l'élément de queue correspond à la priorité inhérente, le groupe correspond à l'invariance locale et les différents nombres représentent les concepts multicouches de haut niveau que cet article considère.
Modèle proposé
Par conséquent, cet article propose un modèle appelé Atten-Mixer. Le modèle peut être intégré à différents encodeurs. Pour la session d'entrée, le modèle obtient l'intégration de chaque élément à partir de la couche d'intégration. Le modèle applique ensuite une transformation linéaire à la représentation de groupe résultante pour générer des requêtes d'intention utilisateur à plusieurs niveaux.
où Q1 est la requête d'attention de vue d'instance, tandis que les autres sont des requêtes d'attention de niveau supérieur avec différents champs de réception et informations invariantes locales. Ensuite, le modèle utilise les requêtes d'attention générées pour s'occuper de l'état caché de chaque élément de la session et obtenir la représentation finale de la session.
Expériences et résultats
Dans l'expérience hors ligne, cet article utilise des ensembles de données de trois domaines différents : Digitalica est un ensemble de données pour les transactions de commerce électronique, Gowalla est un ensemble de données pour les réseaux sociaux et Last.fm Il s'agit d'un ensemble de données pour la recommandation musicale.
Résultats expérimentaux hors ligne
(1) Comparaison globale
L'auteur a comparé Atten-Mixer avec quatre méthodes de base basées sur CNN, basées sur RNN, basées sur GNN et basées sur la lecture .
Les résultats expérimentaux montrent qu'Atten-Mixer surpasse les méthodes de base en termes de précision et d'efficacité sur trois ensembles de données.
(2) Analyse de l'amélioration des performances
De plus, l'auteur a également intégré le module Atten-Mixer dans SR-GNN et SGNN-HN pour vérifier l'effet d'amélioration des performances de cette méthode sur le modèle original .
Les résultats expérimentaux hors ligne montrent qu'Atten-Mixer améliore considérablement les performances du modèle sur tous les ensembles de données, en particulier lorsque la valeur K dans l'indice d'évaluation est faible, indiquant qu'Atten-Mixer peut aider le modèle d'origine à être plus précis et plus utilisateur. recommandation amicale.
Résultats des expériences en ligne
L'auteur a également déployé Atten-Mixer dans des services de commerce électronique en ligne à grande échelle en avril 2021. Les expériences en ligne montrent que le réseau de mélange d'attention à plusieurs niveaux (Atten-Mixer) a obtenu des résultats significatifs dans divers indicateurs commerciaux en ligne pour s'améliorer. .
Conclusion expérimentale
Pour résumer, Atten-Mixer possède des capacités de raisonnement à plusieurs niveaux et démontre d'excellentes performances en ligne et hors ligne en termes de précision et d'efficacité. Voici quelques-unes des principales contributions :
- Une architecture de modèle complexe n'est pas une condition nécessaire pour le SBR, et la conception architecturale innovante de la méthode de lecture basée sur l'attention est une solution efficace.
- La corrélation de concepts à plusieurs niveaux aide à capter les intérêts des utilisateurs, et l'utilisation du biais inductif est un moyen efficace de découvrir des concepts d'ordre élevé riches en informations.
Processus de recherche
Enfin, il convient de mentionner que cet article a une expérience de développement tortueuse derrière sa nomination honoraire pour le meilleur article du WSDM2023, comme l'a présenté Haohan Wang de l'UIUC, l'un des auteurs de l'article In Dans ce cas, cet article a en fait été rejeté à plusieurs reprises au cours du processus de soumission parce qu'il était trop simple. Heureusement, l'auteur de l'article n'a pas répondu aux goûts des évaluateurs dans le but de mettre l'article de côté, mais a insisté. sa propre simplicité, et a finalement conduit à l'honneur de cet article.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Imaginez un modèle d'intelligence artificielle qui non seulement a la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n'est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est ici. DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) présentant les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque marqueur. Par rapport à DeepSeek67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois. DeepSeek est une entreprise explorant l'intelligence artificielle générale

L’IA change effectivement les mathématiques. Récemment, Tao Zhexuan, qui a prêté une attention particulière à cette question, a transmis le dernier numéro du « Bulletin de l'American Mathematical Society » (Bulletin de l'American Mathematical Society). En se concentrant sur le thème « Les machines changeront-elles les mathématiques ? », de nombreux mathématiciens ont exprimé leurs opinions. L'ensemble du processus a été plein d'étincelles, intense et passionnant. L'auteur dispose d'une équipe solide, comprenant Akshay Venkatesh, lauréat de la médaille Fields, le mathématicien chinois Zheng Lejun, l'informaticien de l'Université de New York Ernest Davis et de nombreux autres universitaires bien connus du secteur. Le monde de l’IA a radicalement changé. Vous savez, bon nombre de ces articles ont été soumis il y a un an.

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

Les performances de JAX, promu par Google, ont dépassé celles de Pytorch et TensorFlow lors de récents tests de référence, se classant au premier rang sur 7 indicateurs. Et le test n’a pas été fait sur le TPU présentant les meilleures performances JAX. Bien que parmi les développeurs, Pytorch soit toujours plus populaire que Tensorflow. Mais à l’avenir, des modèles plus volumineux seront peut-être formés et exécutés sur la base de la plate-forme JAX. Modèles Récemment, l'équipe Keras a comparé trois backends (TensorFlow, JAX, PyTorch) avec l'implémentation native de PyTorch et Keras2 avec TensorFlow. Premièrement, ils sélectionnent un ensemble de

La dernière vidéo du robot Optimus de Tesla est sortie, et il peut déjà fonctionner en usine. À vitesse normale, il trie les batteries (les batteries 4680 de Tesla) comme ceci : Le responsable a également publié à quoi cela ressemble à une vitesse 20 fois supérieure - sur un petit "poste de travail", en sélectionnant et en sélectionnant et en sélectionnant : Cette fois, il est publié L'un des points forts de la vidéo est qu'Optimus réalise ce travail en usine, de manière totalement autonome, sans intervention humaine tout au long du processus. Et du point de vue d'Optimus, il peut également récupérer et placer la batterie tordue, en se concentrant sur la correction automatique des erreurs : concernant la main d'Optimus, le scientifique de NVIDIA Jim Fan a donné une évaluation élevée : la main d'Optimus est l'un des robots à cinq doigts du monde. le plus adroit. Ses mains ne sont pas seulement tactiles

La détection de cibles est un problème relativement mature dans les systèmes de conduite autonome, parmi lesquels la détection des piétons est l'un des premiers algorithmes à être déployés. Des recherches très complètes ont été menées dans la plupart des articles. Cependant, la perception de la distance à l’aide de caméras fisheye pour une vue panoramique est relativement moins étudiée. En raison de la distorsion radiale importante, la représentation standard du cadre de délimitation est difficile à mettre en œuvre dans les caméras fisheye. Pour alléger la description ci-dessus, nous explorons les conceptions étendues de boîtes englobantes, d'ellipses et de polygones généraux dans des représentations polaires/angulaires et définissons une métrique de segmentation d'instance mIOU pour analyser ces représentations. Le modèle fisheyeDetNet proposé avec une forme polygonale surpasse les autres modèles et atteint simultanément 49,5 % de mAP sur l'ensemble de données de la caméra fisheye Valeo pour la conduite autonome.

Cet article explore le problème de la détection précise d'objets sous différents angles de vue (tels que la perspective et la vue à vol d'oiseau) dans la conduite autonome, en particulier comment transformer efficacement les caractéristiques de l'espace en perspective (PV) en vue à vol d'oiseau (BEV). implémenté via le module Visual Transformation (VT). Les méthodes existantes sont globalement divisées en deux stratégies : la conversion 2D en 3D et la conversion 3D en 2D. Les méthodes 2D vers 3D améliorent les caractéristiques 2D denses en prédisant les probabilités de profondeur, mais l'incertitude inhérente aux prévisions de profondeur, en particulier dans les régions éloignées, peut introduire des inexactitudes. Alors que les méthodes 3D vers 2D utilisent généralement des requêtes 3D pour échantillonner des fonctionnalités 2D et apprendre les poids d'attention de la correspondance entre les fonctionnalités 3D et 2D via un transformateur, ce qui augmente le temps de calcul et de déploiement.
