


L'Université Tsinghua lance CurML, la première bibliothèque open source pour l'apprentissage des cours
Dans le processus de développement de l'apprentissage automatique, les méthodes d'apprentissage humain inspirent souvent la conception de divers algorithmes. En tant que paradigme important de l’apprentissage humain, l’apprentissage par le biais de cours a été emprunté à l’apprentissage automatique pour former une direction de recherche appelée Curriculum Learning.
D'une manière générale, l'éducation humaine se complète à travers des cours très organisés. Chaque cours ou matière commencera par un contenu simple et présentera progressivement aux étudiants des concepts plus complexes. Par exemple, avant d’accepter les concepts de calcul au collège, un élève doit d’abord apprendre l’arithmétique à l’école primaire, les fonctions au collège et les dérivées au lycée. Cependant, contrairement à l’éducation humaine, la formation de modèles d’apprentissage automatique traditionnels implique la saisie aléatoire d’échantillons de données dans le modèle, ignorant les différentes complexités entre les échantillons de données et l’état d’apprentissage actuel du modèle. Par conséquent, l'apprentissage curriculaire a été proposé dans le domaine de l'apprentissage automatique précisément pour imiter l'apprentissage humain du facile au difficile, fournir de meilleures stratégies de formation pour le modèle et ainsi améliorer les performances du modèle.
Carte conceptuelle d'apprentissage du cours
Actuellement, l'apprentissage du cours a été largement utilisé dans diverses tâches d'apprentissage automatique, notamment la classification d'images, la détection de cibles, la segmentation sémantique, la traduction automatique, la reconnaissance audio, l'audio L'amélioration, la réponse aux questions vidéo, etc., ont également fait l'objet de beaucoup d'attention et de recherches dans des scénarios tels que l'apprentissage supervisé, non supervisé et semi-supervisé et l'apprentissage par renforcement.
À mesure que les applications et les scénarios d'apprentissage des cours deviennent de plus en plus riches, il est particulièrement nécessaire de procéder à un tri et une synthèse détaillés dans ce domaine, afin de favoriser une exploration approfondie par les chercheurs et d'améliorer l'expérience applicative des utilisateurs.
Par conséquent, sur la base de l'accumulation et du fondement de la publication d'un certain nombre d'articles universitaires sur l'apprentissage du curriculum, le laboratoire Big Data des médias et des réseaux dirigé par le professeur Zhu Wenwu de l'Université Tsinghua, membre du laboratoire Wang Xin, a publié un article sur l'apprentissage du curriculum à IEEE TPAMI Dans le document de synthèse, le laboratoire a en outre publié la première bibliothèque open source au monde pour l'apprentissage de cours, CurML (Curriculum Machine Learning).
Les travaux de recherche du professeur Zhu Wenwu et du chercheur adjoint Wang Xin comprennent une méthode de méta-apprentissage de cours appliquée à la recommandation d'emplacement d'intérêt urbain, une recommandation de produit de découplage de cours basée sur des informations multi-feedback bruyantes et un paramètre neuronal partagé basé sur l'architecture d'apprentissage du cours. recherche et résolution de problèmes d'optimisation combinatoire basée sur l'adaptation de la difficulté du cours, etc. Les résultats de la recherche ont été publiés lors de conférences internationales de haut niveau sur l'apprentissage automatique telles que SIGKDD, NeurIPS et ACM MM.
Diagramme-cadre de certains résultats de recherche
Le document de révision de l'apprentissage du cours examine de manière exhaustive l'émergence, la définition, la théorie et l'application de l'apprentissage du cours, et conçoit un cadre d'apprentissage unifié et en fonction. Aux composants centraux du cadre, les algorithmes d'apprentissage de cours sont divisés en deux catégories principales et plusieurs sous-catégories, distinguant les différences et les corrélations entre l'apprentissage de cours et d'autres concepts d'apprentissage automatique, et soulignant les défis et l'avenir de ce domaine. Orientations de recherche possibles.
Classification des méthodes d'apprentissage de cours
La bibliothèque open source CurML est une plate-forme de support pour les algorithmes d'apprentissage de cours. Elle a intégré plus de dix algorithmes d'apprentissage de cours, prenant en charge à la fois bruyants et non bruyants. bruyant. Un scénario d'application qui permet aux chercheurs et aux utilisateurs de reproduire, évaluer, comparer et sélectionner des algorithmes d'apprentissage de cours.
Le module principal de CurML est CL Trainer, qui se compose de deux sous-modules Model Trainer et CL Algorithm. Les deux interagissent via cinq fonctions d'interface pour réaliser le processus d'apprentissage automatique de l'orientation de l'apprentissage du cours.
Diagramme du framework CurML
Module principal : CL Trainer
Ce module est la partie principale de toute la bibliothèque open source. En appelant ce module, les utilisateurs peuvent implémenter l'algorithme d'apprentissage du cours avec seulement quelques lignes de code. Après avoir reçu l'ensemble de données, le modèle et les hyperparamètres, le module s'entraînera pendant une certaine période de temps et produira les paramètres du modèle entraîné et les résultats des tests de la tâche. Ce module est principalement conçu pour répondre aux exigences de facilité d'utilisation, il est donc hautement encapsulé et fourni aux utilisateurs qui souhaitent utiliser l'algorithme d'apprentissage du cours mais ne se soucient pas des détails spécifiques de mise en œuvre.
Sous-module 1 : Model Trainer
Ce module est utilisé pour compléter le processus général d'apprentissage automatique, comme la formation d'un classificateur d'images ou d'un modèle de langage. Dans le même temps, il réserve des positions pour cinq fonctions d'interface pour interagir avec l'algorithme CL du deuxième sous-module, et prend également en charge les fonctions d'entrée personnalisées.
Sous-module 2 : Algorithme CL
Ce module encapsule tous les algorithmes d'apprentissage de cours pris en charge par CurML, comme indiqué dans le tableau suivant :
Le module est implémenté via cinq interfaces Fonctions sont utilisés pour obtenir des données et des informations sur le modèle à partir du processus d'apprentissage automatique et pour guider la stratégie d'apprentissage du modèle, comme le montre la figure ci-dessous.
Organigramme CurML
Fonction d'interface : data_prepare
Cette fonction est utilisée pour fournir des informations sur l'ensemble de données du module Model Trainer au module CL Algorithm. De nombreux algorithmes d'apprentissage de cours nécessitent une compréhension globale de l'ensemble de données afin de mieux juger de la difficulté de l'échantillon de données, cette fonction d'interface est donc nécessaire.
Fonction d'interface : model_prepare
Cette fonction est très similaire à data_prepare. La différence est qu'elle ne transfère pas d'informations sur l'ensemble de données mais des informations liées à la formation du modèle, telles que l'architecture du modèle, l'optimiseur de paramètres et l'apprentissage. ajusteur de taux. Etc., de nombreux algorithmes d'apprentissage de cours guident l'apprentissage automatique en ajustant ces facteurs.
Fonction d'interface : data_curriculum
Cette fonction est utilisée pour calculer la difficulté de l'échantillon de données et fournir des données appropriées pour le modèle en fonction de la difficulté des données et de l'état actuel du modèle. La plupart des études de cours ont des idées similaires. .
Fonction d'interface : model_curriculum
Cette fonction est utilisée pour mettre à jour le modèle, ajuster la quantité d'informations que le modèle obtient à partir d'échantillons de données et guider indirectement l'apprentissage du modèle actuellement, le nombre de ces informations. Les algorithmes sont encore petits, mais CurML prend également en charge la mise en œuvre de tels algorithmes.
Fonction d'interface : loss_curriculum
Cette fonction est utilisée pour repondérer la valeur de la fonction de perte et ajuster indirectement l'impact des différentes données sur le modèle. Ce type d'algorithme est plus courant dans l'apprentissage de cours, car la perte. La pondération des valeurs est essentiellement un échantillonnage doux des données.
Grâce au résumé de plus de dix méthodes d'apprentissage de cours ces dernières années, différents types d'algorithmes d'apprentissage de cours peuvent être unifiés et mis en œuvre à l'aide des modules et des paramètres d'interface ci-dessus, afin que les algorithmes d'apprentissage de cours puissent être évalués dans des scénarios équitables et tâches. , comparer et choisir.
Future Outlook
L'équipe R&D de CurML a déclaré qu'elle continuerait à mettre à jour cette bibliothèque open source à l'avenir pour fournir un soutien supplémentaire au développement et à l'application de l'apprentissage des cours.
Liens connexes :
- Lien de la bibliothèque de code open source CurML : https://github.com/THUMNLab/CurML
- Lien papier du logiciel open source CurML : https://dl.acm.org /doi /pdf/10.1145/3503161.3548549
- Lien du document de révision de l'apprentissage du cours : https://ieeexplore.ieee.org/abstract/document/9392296/
- Lien du document de méta-apprentissage du cours : https://dl .acm.org/doi/abs/10.1145/3447548.3467132
- Lien du document d'apprentissage sur le découplage du cours : https://proceedings.neurips.cc/paper/2021/file/e242660df1b69b74dcc7fde711f924ff-Paper.pdf
- Cours Architecture Neurale Lien de recherche sur l'article : https://dl.acm.org/doi/abs/10.1145/3503161.3548271
- Lien sur l'article adaptatif de difficulté du cours : https://ojs.aaai.org/index.php/AAAI/article/download /20899/version/19196/20658
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Dans les domaines de l’apprentissage automatique et de la science des données, l’interprétabilité des modèles a toujours été au centre des préoccupations des chercheurs et des praticiens. Avec l'application généralisée de modèles complexes tels que l'apprentissage profond et les méthodes d'ensemble, la compréhension du processus décisionnel du modèle est devenue particulièrement importante. Explainable AI|XAI contribue à renforcer la confiance dans les modèles d'apprentissage automatique en augmentant la transparence du modèle. L'amélioration de la transparence des modèles peut être obtenue grâce à des méthodes telles que l'utilisation généralisée de plusieurs modèles complexes, ainsi que les processus décisionnels utilisés pour expliquer les modèles. Ces méthodes incluent l'analyse de l'importance des caractéristiques, l'estimation de l'intervalle de prédiction du modèle, les algorithmes d'interprétabilité locale, etc. L'analyse de l'importance des fonctionnalités peut expliquer le processus de prise de décision du modèle en évaluant le degré d'influence du modèle sur les fonctionnalités d'entrée. Estimation de l’intervalle de prédiction du modèle

Cet article présentera comment identifier efficacement le surajustement et le sous-apprentissage dans les modèles d'apprentissage automatique grâce à des courbes d'apprentissage. Sous-ajustement et surajustement 1. Surajustement Si un modèle est surentraîné sur les données de sorte qu'il en tire du bruit, alors on dit que le modèle est en surajustement. Un modèle surajusté apprend chaque exemple si parfaitement qu'il classera mal un exemple inédit/inédit. Pour un modèle surajusté, nous obtiendrons un score d'ensemble d'entraînement parfait/presque parfait et un score d'ensemble/test de validation épouvantable. Légèrement modifié : "Cause du surajustement : utilisez un modèle complexe pour résoudre un problème simple et extraire le bruit des données. Parce qu'un petit ensemble de données en tant qu'ensemble d'entraînement peut ne pas représenter la représentation correcte de toutes les données."

Dans les années 1950, l’intelligence artificielle (IA) est née. C’est à ce moment-là que les chercheurs ont découvert que les machines pouvaient effectuer des tâches similaires à celles des humains, comme penser. Plus tard, dans les années 1960, le Département américain de la Défense a financé l’intelligence artificielle et créé des laboratoires pour poursuivre son développement. Les chercheurs trouvent des applications à l’intelligence artificielle dans de nombreux domaines, comme l’exploration spatiale et la survie dans des environnements extrêmes. L'exploration spatiale est l'étude de l'univers, qui couvre l'ensemble de l'univers au-delà de la terre. L’espace est classé comme environnement extrême car ses conditions sont différentes de celles de la Terre. Pour survivre dans l’espace, de nombreux facteurs doivent être pris en compte et des précautions doivent être prises. Les scientifiques et les chercheurs pensent qu'explorer l'espace et comprendre l'état actuel de tout peut aider à comprendre le fonctionnement de l'univers et à se préparer à d'éventuelles crises environnementales.

Les défis courants rencontrés par les algorithmes d'apprentissage automatique en C++ incluent la gestion de la mémoire, le multithread, l'optimisation des performances et la maintenabilité. Les solutions incluent l'utilisation de pointeurs intelligents, de bibliothèques de threads modernes, d'instructions SIMD et de bibliothèques tierces, ainsi que le respect des directives de style de codage et l'utilisation d'outils d'automatisation. Des cas pratiques montrent comment utiliser la bibliothèque Eigen pour implémenter des algorithmes de régression linéaire, gérer efficacement la mémoire et utiliser des opérations matricielles hautes performances.

Le FP8 et la précision de quantification inférieure en virgule flottante ne sont plus le « brevet » du H100 ! Lao Huang voulait que tout le monde utilise INT8/INT4, et l'équipe Microsoft DeepSpeed a commencé à exécuter FP6 sur A100 sans le soutien officiel de NVIDIA. Les résultats des tests montrent que la quantification FP6 de la nouvelle méthode TC-FPx sur A100 est proche ou parfois plus rapide que celle de INT4, et a une précision supérieure à celle de cette dernière. En plus de cela, il existe également une prise en charge de bout en bout des grands modèles, qui ont été open source et intégrés dans des cadres d'inférence d'apprentissage profond tels que DeepSpeed. Ce résultat a également un effet immédiat sur l'accélération des grands modèles : dans ce cadre, en utilisant une seule carte pour exécuter Llama, le débit est 2,65 fois supérieur à celui des cartes doubles. un

Traducteur | Revu par Li Rui | Chonglou Les modèles d'intelligence artificielle (IA) et d'apprentissage automatique (ML) deviennent aujourd'hui de plus en plus complexes, et le résultat produit par ces modèles est une boîte noire – impossible à expliquer aux parties prenantes. L'IA explicable (XAI) vise à résoudre ce problème en permettant aux parties prenantes de comprendre comment fonctionnent ces modèles, en s'assurant qu'elles comprennent comment ces modèles prennent réellement des décisions et en garantissant la transparence des systèmes d'IA, la confiance et la responsabilité pour résoudre ce problème. Cet article explore diverses techniques d'intelligence artificielle explicable (XAI) pour illustrer leurs principes sous-jacents. Plusieurs raisons pour lesquelles l’IA explicable est cruciale Confiance et transparence : pour que les systèmes d’IA soient largement acceptés et fiables, les utilisateurs doivent comprendre comment les décisions sont prises

L'apprentissage automatique est une branche importante de l'intelligence artificielle qui donne aux ordinateurs la possibilité d'apprendre à partir de données et d'améliorer leurs capacités sans être explicitement programmés. L'apprentissage automatique a un large éventail d'applications dans divers domaines, de la reconnaissance d'images et du traitement du langage naturel aux systèmes de recommandation et à la détection des fraudes, et il change notre façon de vivre. Il existe de nombreuses méthodes et théories différentes dans le domaine de l'apprentissage automatique, parmi lesquelles les cinq méthodes les plus influentes sont appelées les « Cinq écoles d'apprentissage automatique ». Les cinq grandes écoles sont l’école symbolique, l’école connexionniste, l’école évolutionniste, l’école bayésienne et l’école analogique. 1. Le symbolisme, également connu sous le nom de symbolisme, met l'accent sur l'utilisation de symboles pour le raisonnement logique et l'expression des connaissances. Cette école de pensée estime que l'apprentissage est un processus de déduction inversée, à travers les connaissances existantes.

MetaFAIR s'est associé à Harvard pour fournir un nouveau cadre de recherche permettant d'optimiser le biais de données généré lors de l'apprentissage automatique à grande échelle. On sait que la formation de grands modèles de langage prend souvent des mois et utilise des centaines, voire des milliers de GPU. En prenant comme exemple le modèle LLaMA270B, sa formation nécessite un total de 1 720 320 heures GPU. La formation de grands modèles présente des défis systémiques uniques en raison de l’ampleur et de la complexité de ces charges de travail. Récemment, de nombreuses institutions ont signalé une instabilité dans le processus de formation lors de la formation des modèles d'IA générative SOTA. Elles apparaissent généralement sous la forme de pics de pertes. Par exemple, le modèle PaLM de Google a connu jusqu'à 20 pics de pertes au cours du processus de formation. Le biais numérique est à l'origine de cette imprécision de la formation,
