L'apprentissage auto-supervisé permet aux ordinateurs d'observer le monde et de le comprendre en apprenant la structure des images, de la parole ou du texte. Cela a été à l’origine de nombreuses avancées majeures récentes en matière d’intelligence artificielle.
Alors que les chercheurs scientifiques du monde entier investissent beaucoup d’efforts dans ce domaine, il existe actuellement de grandes différences dans la manière dont les algorithmes d’apprentissage auto-supervisé apprennent à partir d’images, de paroles, de textes et d’autres modalités. Par conséquent, le forum d'intelligence artificielle Analytics India Magazine lance les dix meilleurs modèles d'apprentissage auto-supervisé en 2022 pour les lecteurs.
Lien papier : https://arxiv.org/pdf/2202.03555.pdf
Code source ouvert : https://t.co/3x8VCwGI2x pic.twitter.com/Q9TNDg1paj
Meta AI a publié l'algorithme data2vec en janvier pour les modèles de vision par ordinateur liés à la parole, à l'image et au texte. Selon l'équipe IA, le modèle est très compétitif dans les tâches de PNL.
Il n'utilise pas d'apprentissage contrastif ou de reconstruction qui repose sur des exemples d'entrée. L'équipe Meta AI a déclaré que la méthode de formation de data2vec consiste à représenter le modèle prédictif en fournissant une vue partielle des données d'entrée.
L'équipe a déclaré : "Nous codons d'abord les échantillons de formation masqués dans le modèle d'étudiant. Après cela, dans le même modèle, nous codons les échantillons d'entrée non masqués pour construire la cible de formation. Ce modèle (modèle d'enseignant) et l'étudiant Les modèles ne diffèrent que par les paramètres. "
Le modèle prédit la représentation du modèle des échantillons d'entraînement non masqués en fonction des échantillons d'entraînement masqués. Cela élimine la dépendance à l’égard d’objectifs spécifiques à une modalité dans la tâche d’apprentissage.
Lien papier : https://arxiv.org/pdf/2201.03545.pdf
Code source ouvert : https://t.co/nWx2KFtl7X
ConvN poste également appelé Le modèle ConvNet pour les années 2020 est un modèle publié par l'équipe Meta AI en mars. Il est entièrement basé sur les modules de ConvNet et est donc précis, simple dans sa conception et évolutif.
Lien papier : https://t.co/H7crDPHCHV
Code source ouvert : https://t.co/oadSBT61P3
Variance variance covariance Régularisation (VICReg) combine des termes de variance et un mécanisme de décorrélation basé sur la réduction de redondance avec une régularisation de covariance pour éviter l'effondrement du codeur produisant des vecteurs constants ou non informatifs.
VICReg ne nécessite pas de techniques telles que le partage de poids entre branches, la normalisation par lots, la normalisation des caractéristiques, la quantification de sortie, l'arrêt des gradients, les banques de mémoire, etc., et obtient des résultats comparables à l'état de l'art sur plusieurs tâches en aval. De plus, il a été démontré expérimentalement que le terme de régularisation de la variance peut stabiliser l’apprentissage d’autres méthodes et favoriser l’amélioration des performances.
Lien papier : https://arxiv.org/abs/2203.08414
Développé par le laboratoire d'informatique et d'intelligence artificielle du MIT en collaboration avec Microsoft et l'Université Cornell Transformateurs auto-supervisés pour l'énergie L'optimisation graphique basée sur STEGO résout l'une des tâches les plus difficiles de la vision par ordinateur : attribuer des étiquettes à chaque pixel d'une image sans supervision humaine.
STEGO a appris la "segmentation sémantique" - en termes simples, en attribuant une étiquette à chaque pixel de l'image.
La segmentation sémantique est une compétence importante pour les systèmes de vision par ordinateur actuels, car les images peuvent être interférées par des objets. Pour rendre les choses plus difficiles, ces objets ne rentrent pas toujours dans la zone de texte. Les algorithmes sont souvent mieux adaptés à des « choses » discrètes comme les personnes et les voitures qu’à des choses difficiles à quantifier comme la végétation, le ciel et la purée de pommes de terre.
Prenons comme exemple la scène de chiens jouant dans le parc. Les systèmes précédents ne pouvaient identifier que les chiens, mais en attribuant une étiquette à chaque pixel de l'image, STEGO peut décomposer l'image en plusieurs composants principaux : chien, ciel. , l'herbe et son propriétaire.
Les machines capables de « voir le monde » sont essentielles à diverses technologies émergentes telles que les voitures autonomes et les modèles prédictifs pour le diagnostic médical. Puisque STEGO peut apprendre sans étiquettes, il peut détecter des objets dans différents domaines, même des objets que les humains ne comprennent pas encore complètement.
Lien papier : https://arxiv.org/pdf/2210.04062.pdf
Pour l'apprentissage auto-supervisé de la représentation vocale, des chercheurs de l'Université chinoise de Hong Kong (Shenzhen) ont proposé Code BERT (CoBERT). Contrairement à d’autres méthodes d’autodistillation, leur modèle prédit des représentations de différentes modalités. Le modèle convertit la parole en une séquence de codes discrets pour l'apprentissage des représentations.
Tout d'abord, l'équipe de recherche a utilisé le modèle de code pré-entraîné HuBERT pour s'entraîner dans un espace discret. Ils ont ensuite affiné le modèle de code en un modèle vocal, dans le but de réaliser un meilleur apprentissage dans toutes les modalités. L'amélioration significative de la tâche ST suggère que les représentations de CoBERT peuvent contenir plus d'informations linguistiques que les travaux précédents.
CoBERT surpasse les performances des meilleurs algorithmes actuels sur les tâches ASR et apporte des améliorations significatives à la tâche SUPERB Speech Translation (ST).
Lien papier : https://arxiv.org/abs/2207.09158
FedX est un cadre d'apprentissage fédéré non supervisé lancé par Microsoft en coopération avec l'Université Tsinghua et l'Institut avancé des sciences de Corée et Technologie. Grâce à l'extraction de connaissances locales et mondiales et à l'apprentissage comparatif, l'algorithme apprend des représentations impartiales à partir de données locales discrètes et hétérogènes. De plus, il s'agit d'un algorithme adaptable qui peut être utilisé comme module complémentaire à divers algorithmes auto-supervisés existants dans des scénarios d'apprentissage fédéré. L'université d'Hokkaido au Japon a proposé TriBYOL pour l'apprentissage de représentations auto-supervisé en petits lots. Avec ce modèle, les chercheurs n’ont pas besoin de grandes quantités de ressources informatiques pour apprendre de bonnes représentations. Ce modèle a une structure de réseau triplet et combine une perte à trois vues, améliorant ainsi l'efficacité sur plusieurs ensembles de données et surpassant plusieurs algorithmes auto-supervisés. Des chercheurs des Nokia Bell Labs ont collaboré avec le Georgia Institute of Technology et l'Université de Cambridge pour développer ColloSSL. , Il s'agit d'un algorithme collaboratif auto-supervisé pour la reconnaissance de l'activité humaine.
Les ensembles de données de capteurs non étiquetés capturés simultanément par plusieurs appareils peuvent être considérés comme des transformations naturelles les unes des autres, qui génèrent ensuite des signaux pour l'apprentissage des représentations. Cet article propose trois méthodes : sélection de périphérique, échantillonnage contrastif et perte contrastive multi-vues.Lien papier : https://arxiv.org/pdf/2207.10023.pdf
L'équipe de recherche de l'Université Sungkyunkwan a proposé une tâche auxiliaire auto-supervisée simple qui prédit trois attributs de rotation localisable (LoRot) pour aider au suivi des objectifs.
Ce modèle présente trois caractéristiques majeures. Tout d’abord, l’équipe de recherche a guidé le modèle pour apprendre des fonctionnalités riches. Deuxièmement, la formation distribuée ne change pas de manière significative pendant la transition d'auto-supervision. Troisièmement, le modèle est léger et polyvalent et présente une grande adaptabilité aux technologies précédentes.
Lien papier : https://arxiv.org/pdf/2106.10466.pdf
Microsoft et l'Université de Pékin ont proposé un cadre d'apprentissage général TS2Vec pour l'apprentissage de la sémantique arbitraire par représentation du temps série en niveaux. Le modèle effectue un apprentissage contrastif selon une technique hiérarchique dans une vue contextuelle améliorée, fournissant une représentation contextuelle forte pour des horodatages individuels.
Les résultats montrent que le modèle TS2Vec permet d'obtenir des améliorations significatives en termes de performances par rapport à l'apprentissage de représentation de séries chronologiques non supervisé de pointe.
En 2022, il y aura d'énormes innovations dans les deux domaines de l'apprentissage auto-supervisé et de l'apprentissage par renforcement. Bien que les chercheurs débattent de ce qui est le plus important, comme l'a déclaré le gourou de l'apprentissage auto-supervisé Yann LeCun : « L'apprentissage par renforcement est comme la cerise sur le gâteau, l'apprentissage supervisé est la cerise sur le gâteau et l'apprentissage auto-supervisé est le gâteau lui-même. 》
Référence :
https://analyticsindiamag.com/top-10-self-supervised-learning-models-in-2022/
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!