Table des matières
Sur les données tabulaires, les modèles arborescents sont toujours meilleurs que les méthodes d'apprentissage profond
Enquête empirique : pourquoi les modèles arborescents surpassent toujours l'apprentissage profond sur les données tabulaires
Maison Périphériques technologiques IA Pourquoi les modèles arborescents surpassent-ils toujours l'apprentissage profond sur les données tabulaires ?

Pourquoi les modèles arborescents surpassent-ils toujours l'apprentissage profond sur les données tabulaires ?

Apr 08, 2023 pm 02:41 PM
机器学习 数据 模型

Le deep learning a fait d'énormes progrès dans des domaines tels que les images, le langage et même l'audio. Cependant, l’apprentissage profond fonctionne médiocrement lorsqu’il s’agit de traiter des données tabulaires. Étant donné que les données tabulaires présentent des caractéristiques telles que des caractéristiques inégales, une petite taille d’échantillon et de grandes valeurs extrêmes, il est difficile de trouver les invariants correspondants.

Les modèles basés sur des arbres ne sont pas différenciables et ne peuvent pas être entraînés conjointement avec des modules d'apprentissage profond, la création d'architectures d'apprentissage profond spécifiques aux tables est donc un domaine de recherche très actif. De nombreuses études ont prétendu être capables de battre ou de rivaliser avec les modèles basés sur les arbres, mais leurs études ont suscité beaucoup de scepticisme.

Le fait que l'apprentissage sur des données tabulaires manque de repères établis donne aux chercheurs une grande liberté dans l'évaluation de leurs méthodes. De plus, la plupart des ensembles de données tabulaires disponibles en ligne sont petits par rapport aux références d’autres sous-domaines d’apprentissage automatique, ce qui rend l’évaluation plus difficile.

Pour atténuer ces inquiétudes, des chercheurs de l'Institut national de l'information et de l'automatisation, de la Sorbonne Université et d'autres institutions proposent un benchmark de données tabulaires qui peut évaluer les derniers modèles d'apprentissage profond et montrer que les modèles arborescents sont plus efficaces à Still SOTA de taille moyenne sur des ensembles de données tabulaires.

Pour cette conclusion, l'article donne des preuves concluantes. Sur les données tabulaires, il est plus facile d'obtenir de bonnes prédictions en utilisant des méthodes arborescentes que l'apprentissage en profondeur (même les architectures modernes) ont également découvert la raison.

Pourquoi les modèles arborescents surpassent-ils toujours lapprentissage profond sur les données tabulaires ?

Adresse papier : https://hal.archives-ouvertes.fr/hal-03723551/documentIl est à noter que l'un des auteurs de l'article est Gaël Varoquaux, qui est un Auteur de Scikit-learn. L'un des leaders du programme. Le projet est désormais devenu l’une des bibliothèques d’apprentissage automatique les plus populaires sur GitHub. L'article « Scikit-learn : Machine learning en Python » de Gaël Varoquaux compte 58 949 citations. ​

Pourquoi les modèles arborescents surpassent-ils toujours lapprentissage profond sur les données tabulaires ?

La contribution de cet article peut être résumée comme suit :

Cette étude crée un nouveau benchmark pour les données tabulaires (sélection de 45 ensembles de données ouverts) et partage ces ensembles de données via OpenML, ce qui les rend faciles à utiliser. .

Cette étude compare les modèles d'apprentissage profond et les modèles arborescents sous divers paramètres sur des données tabulaires et considère le coût de sélection des hyperparamètres. L’étude partage également les résultats bruts de recherches aléatoires, qui permettront aux chercheurs de tester de nouveaux algorithmes à moindre coût pour un budget d’optimisation d’hyperparamètres fixe.

Sur les données tabulaires, les modèles arborescents sont toujours meilleurs que les méthodes d'apprentissage profond

​Le nouveau benchmark fait référence à 45 ensembles de données tabulaires, et le benchmark de sélection est le suivant :

  • Colonnes hétérogènes, les colonnes doivent correspondent à différentes propriétés, excluant ainsi les ensembles de données d'image ou de signal.
  • Faible dimensionnalité, le rapport d/n de l'ensemble de données est inférieur à 1/10.
  • Ensembles de données invalides, supprimez les ensembles de données avec peu d'informations disponibles.
  • Données I.I.D. (Indépendamment et I.D.), supprimant les ensembles de données de type flux ou les séries chronologiques.
  • Données du monde réel, supprimez les ensembles de données artificiels mais conservez certains ensembles de données simulés.
  • L'ensemble de données ne peut pas être trop petit, supprimez les ensembles de données avec trop peu de fonctionnalités (
  • Supprimez les ensembles de données trop simples.
  • Supprimez les ensembles de données pour des jeux comme le poker et les échecs, car ces ensembles de données sont de nature déterministe.

Parmi les modèles basés sur des arbres, les chercheurs ont choisi 3 modèles SOTA : RandomForest de Scikit Learn, GradientBoostingTrees (GBTs) et XGBoost. L'étude a réalisé les benchmarks suivants sur des modèles profonds : MLP, Resnet, FT Transformer, SAINT. Les figures 1 et 2 donnent les résultats de référence pour différents types d'ensembles de données

Pourquoi les modèles arborescents surpassent-ils toujours lapprentissage profond sur les données tabulaires ?Pourquoi les modèles arborescents surpassent-ils toujours lapprentissage profond sur les données tabulaires ?

Enquête empirique : pourquoi les modèles arborescents surpassent toujours l'apprentissage profond sur les données tabulaires

Biais inductif. Les modèles arborescents battent les réseaux de neurones sur une variété de choix d'hyperparamètres. En fait, les meilleures méthodes de traitement de données tabulaires ont deux propriétés communes : ce sont les méthodes d’ensemble, le bagging (forêts aléatoires) ou le boosting (XGBoost, GBT), et les apprenants faibles utilisés dans ces méthodes sont les arbres de décision.

Constatation 1 : Les réseaux de neurones (NN) ont tendance à trop lisser les solutions

Comme le montre la figure 3, pour des échelles plus petites, la fonction objectif sur l'ensemble d'entraînement fluide diminuera considérablement en fonction de la précision du modèle arborescent, mais n’affectera guère le NN. Ces résultats indiquent que la fonction objectif dans l'ensemble de données n'est pas fluide et que NN a du mal à s'adapter à ces fonctions irrégulières par rapport aux modèles arborescents. Ceci est cohérent avec les conclusions de Rahaman et al., qui ont constaté que les NN sont biaisés vers les fonctions basse fréquence. Les modèles basés sur des arbres de décision apprennent des fonctions constantes par morceaux sans de tels biais.

Pourquoi les modèles arborescents surpassent-ils toujours lapprentissage profond sur les données tabulaires ?

Constatation 2 : Les caractéristiques non informatives peuvent affecter davantage les NN

Les ensembles de données tabulaires contiennent de nombreuses caractéristiques non informatives. Pour chaque ensemble de données, cette étude est basée sur les caractéristiques. L'importance. de choisiront de supprimer une certaine proportion de fonctionnalités (généralement classées par forêt aléatoire). Comme le montre la figure 4, la suppression de plus de la moitié des caractéristiques a peu d’impact sur la précision de la classification du GBT.

Pourquoi les modèles arborescents surpassent-ils toujours lapprentissage profond sur les données tabulaires ?

Figure 5 On peut voir que la suppression des fonctionnalités non informatives (5a) réduit l'écart de performances entre MLP (Resnet) et d'autres modèles (Transformateurs FT et modèles arborescents), tout en ajoutant des fonctionnalités non informatives (5a). fonctionnalités informatives Les fonctionnalités élargissent l'écart, indiquant que MLP est moins robuste aux fonctionnalités non informatives. Dans la figure 5a, lorsque le chercheur supprime une plus grande proportion de fonctionnalités, les informations utiles sont également supprimées en conséquence. La figure 5b montre que la diminution de la précision causée par la suppression de ces fonctionnalités peut être compensée par la suppression des fonctionnalités non informatives, ce qui est plus utile au MLP par rapport aux autres modèles (en même temps, cette étude supprime également les fonctionnalités redondantes et n'affecte pas le modèle). performance).

Pourquoi les modèles arborescents surpassent-ils toujours lapprentissage profond sur les données tabulaires ?

Constatation 3 : Grâce à la rotation, les données sont non invariantes

Pourquoi le MLP est-il plus sensible aux caractéristiques non informatives que d'autres modèles ? Une réponse est que les MLP sont invariants par rotation : le processus d'apprentissage d'un MLP sur l'ensemble de formation et de son évaluation sur l'ensemble de test est invariant lorsque des rotations sont appliquées aux fonctionnalités de l'ensemble de formation et de test. En fait, tout processus d'apprentissage invariant par rotation a une complexité d'échantillon dans le pire des cas qui augmente linéairement au moins en nombre de caractéristiques non pertinentes. Intuitivement, afin de supprimer les fonctionnalités inutiles, l'algorithme invariant en rotation doit d'abord trouver l'orientation d'origine de la fonctionnalité, puis sélectionner la fonctionnalité la moins informative.

La figure 6a montre le changement dans la précision du test lorsque l'ensemble de données subit une rotation aléatoire, confirmant que seuls les Resnets sont invariants par rotation. Notamment, la rotation aléatoire inverse l'ordre de performance : le résultat est des NN supérieurs aux modèles arborescents et des Resnets supérieurs aux transformateurs FT, ce qui indique que l'invariance de rotation n'est pas souhaitable. En fait, les données tabulaires ont souvent des significations individuelles, comme l'âge, le poids, etc. Comme le montre la figure 6b : la suppression de la moitié la moins importante des fonctionnalités de chaque ensemble de données (avant la rotation) réduit les performances de tous les modèles à l'exception des Resnets, mais par rapport à l'utilisation de toutes les fonctionnalités sans supprimer les fonctionnalités, la baisse est plus faible.

Pourquoi les modèles arborescents surpassent-ils toujours lapprentissage profond sur les données tabulaires ?

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Où trouver la courte de la grue à atomide atomique
1 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Cet article vous amènera à comprendre SHAP : explication du modèle pour l'apprentissage automatique Cet article vous amènera à comprendre SHAP : explication du modèle pour l'apprentissage automatique Jun 01, 2024 am 10:58 AM

Dans les domaines de l’apprentissage automatique et de la science des données, l’interprétabilité des modèles a toujours été au centre des préoccupations des chercheurs et des praticiens. Avec l'application généralisée de modèles complexes tels que l'apprentissage profond et les méthodes d'ensemble, la compréhension du processus décisionnel du modèle est devenue particulièrement importante. Explainable AI|XAI contribue à renforcer la confiance dans les modèles d'apprentissage automatique en augmentant la transparence du modèle. L'amélioration de la transparence des modèles peut être obtenue grâce à des méthodes telles que l'utilisation généralisée de plusieurs modèles complexes, ainsi que les processus décisionnels utilisés pour expliquer les modèles. Ces méthodes incluent l'analyse de l'importance des caractéristiques, l'estimation de l'intervalle de prédiction du modèle, les algorithmes d'interprétabilité locale, etc. L'analyse de l'importance des fonctionnalités peut expliquer le processus de prise de décision du modèle en évaluant le degré d'influence du modèle sur les fonctionnalités d'entrée. Estimation de l’intervalle de prédiction du modèle

KAN, qui remplace MLP, a été étendu à la convolution par des projets open source KAN, qui remplace MLP, a été étendu à la convolution par des projets open source Jun 01, 2024 pm 10:03 PM

Plus tôt ce mois-ci, des chercheurs du MIT et d'autres institutions ont proposé une alternative très prometteuse au MLP – KAN. KAN surpasse MLP en termes de précision et d’interprétabilité. Et il peut surpasser le MLP fonctionnant avec un plus grand nombre de paramètres avec un très petit nombre de paramètres. Par exemple, les auteurs ont déclaré avoir utilisé KAN pour reproduire les résultats de DeepMind avec un réseau plus petit et un degré d'automatisation plus élevé. Plus précisément, le MLP de DeepMind compte environ 300 000 paramètres, tandis que le KAN n'en compte qu'environ 200. KAN a une base mathématique solide comme MLP est basé sur le théorème d'approximation universelle, tandis que KAN est basé sur le théorème de représentation de Kolmogorov-Arnold. Comme le montre la figure ci-dessous, KAN a

Implémentation d'algorithmes d'apprentissage automatique en C++ : défis et solutions courants Implémentation d'algorithmes d'apprentissage automatique en C++ : défis et solutions courants Jun 03, 2024 pm 01:25 PM

Les défis courants rencontrés par les algorithmes d'apprentissage automatique en C++ incluent la gestion de la mémoire, le multithread, l'optimisation des performances et la maintenabilité. Les solutions incluent l'utilisation de pointeurs intelligents, de bibliothèques de threads modernes, d'instructions SIMD et de bibliothèques tierces, ainsi que le respect des directives de style de codage et l'utilisation d'outils d'automatisation. Des cas pratiques montrent comment utiliser la bibliothèque Eigen pour implémenter des algorithmes de régression linéaire, gérer efficacement la mémoire et utiliser des opérations matricielles hautes performances.

IA explicable : Expliquer les modèles IA/ML complexes IA explicable : Expliquer les modèles IA/ML complexes Jun 03, 2024 pm 10:08 PM

Traducteur | Revu par Li Rui | Chonglou Les modèles d'intelligence artificielle (IA) et d'apprentissage automatique (ML) deviennent aujourd'hui de plus en plus complexes, et le résultat produit par ces modèles est une boîte noire – impossible à expliquer aux parties prenantes. L'IA explicable (XAI) vise à résoudre ce problème en permettant aux parties prenantes de comprendre comment fonctionnent ces modèles, en s'assurant qu'elles comprennent comment ces modèles prennent réellement des décisions et en garantissant la transparence des systèmes d'IA, la confiance et la responsabilité pour résoudre ce problème. Cet article explore diverses techniques d'intelligence artificielle explicable (XAI) pour illustrer leurs principes sous-jacents. Plusieurs raisons pour lesquelles l’IA explicable est cruciale Confiance et transparence : pour que les systèmes d’IA soient largement acceptés et fiables, les utilisateurs doivent comprendre comment les décisions sont prises

Aucune donnée OpenAI requise, rejoignez la liste des grands modèles de code ! UIUC publie StarCoder-15B-Instruct Aucune donnée OpenAI requise, rejoignez la liste des grands modèles de code ! UIUC publie StarCoder-15B-Instruct Jun 13, 2024 pm 01:59 PM

À la pointe de la technologie logicielle, le groupe de l'UIUC Zhang Lingming, en collaboration avec des chercheurs de l'organisation BigCode, a récemment annoncé le modèle de grand code StarCoder2-15B-Instruct. Cette réalisation innovante a permis une percée significative dans les tâches de génération de code, dépassant avec succès CodeLlama-70B-Instruct et atteignant le sommet de la liste des performances de génération de code. Le caractère unique de StarCoder2-15B-Instruct réside dans sa stratégie d'auto-alignement pur. L'ensemble du processus de formation est ouvert, transparent et complètement autonome et contrôlable. Le modèle génère des milliers d'instructions via StarCoder2-15B en réponse au réglage fin du modèle de base StarCoder-15B sans recourir à des annotations manuelles coûteuses.

Surpassant largement le DPO : l'équipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant. Surpassant largement le DPO : l'équipe de Chen Danqi a proposé une optimisation simple des préférences SimPO et a également affiné le modèle open source 8B le plus puissant. Jun 01, 2024 pm 04:41 PM

Afin d'aligner les grands modèles de langage (LLM) sur les valeurs et les intentions humaines, il est essentiel d'apprendre les commentaires humains pour garantir qu'ils sont utiles, honnêtes et inoffensifs. En termes d'alignement du LLM, une méthode efficace est l'apprentissage par renforcement basé sur le retour humain (RLHF). Bien que les résultats de la méthode RLHF soient excellents, certains défis d’optimisation sont impliqués. Cela implique de former un modèle de récompense, puis d'optimiser un modèle politique pour maximiser cette récompense. Récemment, certains chercheurs ont exploré des algorithmes hors ligne plus simples, dont l’optimisation directe des préférences (DPO). DPO apprend le modèle politique directement sur la base des données de préférence en paramétrant la fonction de récompense dans RLHF, éliminant ainsi le besoin d'un modèle de récompense explicite. Cette méthode est simple et stable

Yolov10 : explication détaillée, déploiement et application en un seul endroit ! Yolov10 : explication détaillée, déploiement et application en un seul endroit ! Jun 07, 2024 pm 12:05 PM

1. Introduction Au cours des dernières années, les YOLO sont devenus le paradigme dominant dans le domaine de la détection d'objets en temps réel en raison de leur équilibre efficace entre le coût de calcul et les performances de détection. Les chercheurs ont exploré la conception architecturale de YOLO, les objectifs d'optimisation, les stratégies d'expansion des données, etc., et ont réalisé des progrès significatifs. Dans le même temps, le recours à la suppression non maximale (NMS) pour le post-traitement entrave le déploiement de bout en bout de YOLO et affecte négativement la latence d'inférence. Dans les YOLO, la conception de divers composants manque d’une inspection complète et approfondie, ce qui entraîne une redondance informatique importante et limite les capacités du modèle. Il offre une efficacité sous-optimale et un potentiel d’amélioration des performances relativement important. Dans ce travail, l'objectif est d'améliorer encore les limites d'efficacité des performances de YOLO à la fois en post-traitement et en architecture de modèle. à cette fin

Cinq écoles d'apprentissage automatique que vous ne connaissez pas Cinq écoles d'apprentissage automatique que vous ne connaissez pas Jun 05, 2024 pm 08:51 PM

L'apprentissage automatique est une branche importante de l'intelligence artificielle qui donne aux ordinateurs la possibilité d'apprendre à partir de données et d'améliorer leurs capacités sans être explicitement programmés. L'apprentissage automatique a un large éventail d'applications dans divers domaines, de la reconnaissance d'images et du traitement du langage naturel aux systèmes de recommandation et à la détection des fraudes, et il change notre façon de vivre. Il existe de nombreuses méthodes et théories différentes dans le domaine de l'apprentissage automatique, parmi lesquelles les cinq méthodes les plus influentes sont appelées les « Cinq écoles d'apprentissage automatique ». Les cinq grandes écoles sont l’école symbolique, l’école connexionniste, l’école évolutionniste, l’école bayésienne et l’école analogique. 1. Le symbolisme, également connu sous le nom de symbolisme, met l'accent sur l'utilisation de symboles pour le raisonnement logique et l'expression des connaissances. Cette école de pensée estime que l'apprentissage est un processus de déduction inversée, à travers les connaissances existantes.

See all articles