Données synthétiques : l'avenir du machine learning
Traducteur | Bugatti
Reviewer | Sun Shujuan
Les données peuvent être considérées comme l'élément vital des modèles d'apprentissage automatique. Mais que se passe-t-il lorsque l’accès à cette ressource précieuse est restreint ? Comme de nombreux projets et entreprises commencent à le démontrer, c’est à ce moment-là que les données synthétiques constituent une option viable, voire excellente.
Qu'est-ce que les données synthétiques ?
Les données synthétiques sont des informations générées artificiellement qui ne sont pas obtenues par mesure directe. Les « fausses » données ne constituent pas un concept nouveau ou révolutionnaire en soi. Il s'agit essentiellement d'une méthode de génération de données de test ou de formation pour un modèle qui manque d'informations disponibles ou nécessaires pour fonctionner correctement.
Dans le passé, le manque de données a conduit à la méthode pratique consistant à utiliser un ensemble de points de données générés aléatoirement. Bien que cela puisse suffire à des fins d’enseignement et de test, les données aléatoires ne sont pas les données sur lesquelles vous souhaitez entraîner un quelconque type de modèle prédictif. C’est ce qui est différent dans le concept de données synthétiques, c’est fiable.
Les données synthétiques sont essentiellement un concept unique où nous pouvons intelligemment générer des données aléatoires. Par conséquent, cette approche peut être appliquée à des cas d’utilisation plus complexes, et pas seulement à des tests.
Comment générer des données synthétiques ?
Bien que la manière dont les données synthétiques sont générées ne soit pas différente de celle des données aléatoires - simplement grâce à un ensemble d'entrées plus complexe, les données synthétiques servent un objectif différent et ont donc des exigences uniques.
Les méthodes de synthèse sont basées et limitées à certains critères qui sont alimentés en entrée à l'avance. En fait, ce n'est pas aléatoire. Il est basé sur un ensemble d'échantillons de données avec une distribution spécifique et des critères qui déterminent la plage, la distribution et la fréquence possibles des points de données. En gros, l’objectif est de répliquer des données réelles pour alimenter un ensemble de données plus vaste, qui sera ensuite suffisamment grand pour entraîner un modèle d’apprentissage automatique.
Cette approche devient particulièrement intéressante lors de l'exploration de méthodes d'apprentissage profond pour affiner les données synthétiques. Les algorithmes peuvent rivaliser les uns avec les autres, visant à se surpasser dans leur capacité à générer et identifier des données synthétiques. En effet, il s’agit ici de s’engager dans une course aux armements artificiels pour générer des données hyperréalistes.
Pourquoi les données synthétiques sont-elles nécessaires ?
Si nous ne parvenons pas à rassembler les ressources précieuses nécessaires au progrès de la civilisation, nous trouverons un moyen de les créer. Ce principe s’applique désormais également au monde des données de l’apprentissage automatique et de l’intelligence artificielle.
Lors de la formation d'un algorithme, il est crucial de disposer d'un échantillon de données très large, sinon les modèles identifiés par l'algorithme pourraient être trop simples pour des applications pratiques. C'est en fait très logique. Tout comme l’intelligence humaine emprunte souvent la voie la plus simple pour résoudre un problème, il en va souvent de même lors de la formation à l’apprentissage automatique et à l’intelligence artificielle.
Par exemple, envisagez de l'appliquer à un algorithme de reconnaissance d'objets capable d'identifier avec précision les chiens à partir d'un ensemble d'images de chats. Si la quantité de données est trop faible, l’IA risque de s’appuyer sur des modèles qui ne sont pas des caractéristiques essentielles de l’objet qu’elle tente d’identifier. Dans ce cas, l'IA peut toujours être efficace, mais s'effondrer lorsqu'elle rencontre des données qui ne suivent pas le modèle qu'elle a initialement identifié.
Comment les données synthétiques sont-elles utilisées pour entraîner l'IA ?
Alors, quelle est la solution ? Nous avons dessiné de nombreux animaux légèrement différents, obligeant le réseau à trouver la structure sous-jacente de l'image, et pas seulement l'emplacement de certains pixels. Mais au lieu de dessiner un million de chiens à la main, il serait préférable de construire un système spécifiquement pour dessiner des chiens qui puisse être utilisé pour entraîner des algorithmes de classification – ce que nous faisons en fait lorsque nous alimentons des données synthétiques afin d’entraîner l’apprentissage automatique.
Cependant, cette approche présente des défauts évidents. Le simple fait de générer des données à partir de rien ne représente pas le monde réel, de sorte que l’algorithme risque d’échouer lorsqu’il rencontre des données réelles. La solution consiste à collecter un sous-ensemble de données, à analyser et à identifier les tendances et les plages qu'il contient, puis à utiliser ces données pour générer de grandes quantités de données aléatoires susceptibles d'être représentatives de ce à quoi ressembleraient les données si nous les collections toutes. nous-mêmes.
C'est aussi la valeur des données synthétiques. Nous n’avons plus besoin de collecter des données sans fin, puis de les nettoyer et de les traiter avant utilisation.
Pourquoi les données synthétiques peuvent-elles résoudre le problème de plus en plus préoccupant de la confidentialité des données ?
Le monde traverse actuellement un changement très radical, notamment dans l'UE : la vie privée et les données générées sont de plus en plus protégées. Dans le domaine de l’apprentissage automatique et de l’IA, le renforcement de la protection des données est un problème de longue date. Les données restreintes sont souvent exactement ce qui est nécessaire pour entraîner les algorithmes à fonctionner et à apporter de la valeur aux utilisateurs finaux, en particulier pour les solutions B2C.
Les problèmes de confidentialité sont souvent résolus lorsque les individus décident d'utiliser une solution et approuvent donc l'utilisation de leurs données. Le problème ici est qu'il est difficile d'amener les utilisateurs à vous fournir leurs données personnelles jusqu'à ce que vous disposiez d'une solution offrant suffisamment de valeur pour être prêt à les transmettre. En conséquence, les fournisseurs se retrouvent souvent face au dilemme de l’œuf et de la poule.
Les données synthétiques sont la solution, et les entreprises peuvent accéder à des sous-ensembles de données grâce aux premiers utilisateurs. Ils peuvent ensuite utiliser ces informations comme base pour générer suffisamment de données pour entraîner l’apprentissage automatique et l’IA. Cette approche peut réduire considérablement le besoin de données privées, long et coûteux, tout en permettant de développer des algorithmes pour les utilisateurs réels.
Pour certains secteurs, tels que la santé, la banque et le droit, les données synthétiques permettent d'accéder plus facilement à de grandes quantités de données qui n'étaient auparavant pas disponibles, supprimant ainsi les contraintes auxquelles les algorithmes nouveaux et plus avancés sont souvent confrontés.
Les données synthétiques peuvent-elles remplacer les données réelles ?
Le problème avec les données réelles est qu'elles ne sont pas générées dans le but de former des algorithmes d'apprentissage automatique et d'IA, elles sont simplement un sous-produit d'événements qui se produisent autour de nous. Comme mentionné précédemment, cela limite évidemment la disponibilité et la facilité d'utilisation des données collectées, mais limite également les paramètres des données et la possibilité de défauts (valeurs aberrantes) qui pourraient corrompre les résultats. C'est pourquoi les données synthétiques, qui peuvent être personnalisées et contrôlées, sont plus efficaces lors de la formation des modèles.
Cependant, bien qu'idéales pour les scénarios de formation, les données synthétiques s'appuieront inévitablement toujours sur au moins une petite partie de données réelles pour leur propre création. Ainsi, les données synthétiques ne remplacent jamais les données originales sur lesquelles elles s’appuient. De manière plus réaliste, cela réduira considérablement la quantité de données réelles requises pour la formation des algorithmes. Ce processus nécessite beaucoup plus de données que les tests - généralement 80 % des données sont utilisées pour la formation et les 20 % restants sont utilisés pour les tests.
Enfin, si elles sont bien utilisées, les données synthétiques offrent un moyen plus rapide et plus efficace d'obtenir les données dont nous avons besoin à un coût inférieur à celui des données du monde réel, tout en réduisant les problèmes ennuyeux de confidentialité des données.
Titre original : Données synthétiques : L'avenir de l'apprentissage automatique, auteur : Christian Lawaetz Halvorsen
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Dans les domaines de l’apprentissage automatique et de la science des données, l’interprétabilité des modèles a toujours été au centre des préoccupations des chercheurs et des praticiens. Avec l'application généralisée de modèles complexes tels que l'apprentissage profond et les méthodes d'ensemble, la compréhension du processus décisionnel du modèle est devenue particulièrement importante. Explainable AI|XAI contribue à renforcer la confiance dans les modèles d'apprentissage automatique en augmentant la transparence du modèle. L'amélioration de la transparence des modèles peut être obtenue grâce à des méthodes telles que l'utilisation généralisée de plusieurs modèles complexes, ainsi que les processus décisionnels utilisés pour expliquer les modèles. Ces méthodes incluent l'analyse de l'importance des caractéristiques, l'estimation de l'intervalle de prédiction du modèle, les algorithmes d'interprétabilité locale, etc. L'analyse de l'importance des fonctionnalités peut expliquer le processus de prise de décision du modèle en évaluant le degré d'influence du modèle sur les fonctionnalités d'entrée. Estimation de l’intervalle de prédiction du modèle

Écrit précédemment, nous discutons aujourd'hui de la manière dont la technologie d'apprentissage profond peut améliorer les performances du SLAM (localisation et cartographie simultanées) basé sur la vision dans des environnements complexes. En combinant des méthodes d'extraction de caractéristiques approfondies et de correspondance de profondeur, nous introduisons ici un système SLAM visuel hybride polyvalent conçu pour améliorer l'adaptation dans des scénarios difficiles tels que des conditions de faible luminosité, un éclairage dynamique, des zones faiblement texturées et une gigue importante. Notre système prend en charge plusieurs modes, notamment les configurations étendues monoculaire, stéréo, monoculaire-inertielle et stéréo-inertielle. En outre, il analyse également comment combiner le SLAM visuel avec des méthodes d’apprentissage profond pour inspirer d’autres recherches. Grâce à des expériences approfondies sur des ensembles de données publiques et des données auto-échantillonnées, nous démontrons la supériorité du SL-SLAM en termes de précision de positionnement et de robustesse du suivi.

Cet article présentera comment identifier efficacement le surajustement et le sous-apprentissage dans les modèles d'apprentissage automatique grâce à des courbes d'apprentissage. Sous-ajustement et surajustement 1. Surajustement Si un modèle est surentraîné sur les données de sorte qu'il en tire du bruit, alors on dit que le modèle est en surajustement. Un modèle surajusté apprend chaque exemple si parfaitement qu'il classera mal un exemple inédit/inédit. Pour un modèle surajusté, nous obtiendrons un score d'ensemble d'entraînement parfait/presque parfait et un score d'ensemble/test de validation épouvantable. Légèrement modifié : "Cause du surajustement : utilisez un modèle complexe pour résoudre un problème simple et extraire le bruit des données. Parce qu'un petit ensemble de données en tant qu'ensemble d'entraînement peut ne pas représenter la représentation correcte de toutes les données."

Dans les années 1950, l’intelligence artificielle (IA) est née. C’est à ce moment-là que les chercheurs ont découvert que les machines pouvaient effectuer des tâches similaires à celles des humains, comme penser. Plus tard, dans les années 1960, le Département américain de la Défense a financé l’intelligence artificielle et créé des laboratoires pour poursuivre son développement. Les chercheurs trouvent des applications à l’intelligence artificielle dans de nombreux domaines, comme l’exploration spatiale et la survie dans des environnements extrêmes. L'exploration spatiale est l'étude de l'univers, qui couvre l'ensemble de l'univers au-delà de la terre. L’espace est classé comme environnement extrême car ses conditions sont différentes de celles de la Terre. Pour survivre dans l’espace, de nombreux facteurs doivent être pris en compte et des précautions doivent être prises. Les scientifiques et les chercheurs pensent qu'explorer l'espace et comprendre l'état actuel de tout peut aider à comprendre le fonctionnement de l'univers et à se préparer à d'éventuelles crises environnementales.

Les défis courants rencontrés par les algorithmes d'apprentissage automatique en C++ incluent la gestion de la mémoire, le multithread, l'optimisation des performances et la maintenabilité. Les solutions incluent l'utilisation de pointeurs intelligents, de bibliothèques de threads modernes, d'instructions SIMD et de bibliothèques tierces, ainsi que le respect des directives de style de codage et l'utilisation d'outils d'automatisation. Des cas pratiques montrent comment utiliser la bibliothèque Eigen pour implémenter des algorithmes de régression linéaire, gérer efficacement la mémoire et utiliser des opérations matricielles hautes performances.

L'apprentissage automatique est une branche importante de l'intelligence artificielle qui donne aux ordinateurs la possibilité d'apprendre à partir de données et d'améliorer leurs capacités sans être explicitement programmés. L'apprentissage automatique a un large éventail d'applications dans divers domaines, de la reconnaissance d'images et du traitement du langage naturel aux systèmes de recommandation et à la détection des fraudes, et il change notre façon de vivre. Il existe de nombreuses méthodes et théories différentes dans le domaine de l'apprentissage automatique, parmi lesquelles les cinq méthodes les plus influentes sont appelées les « Cinq écoles d'apprentissage automatique ». Les cinq grandes écoles sont l’école symbolique, l’école connexionniste, l’école évolutionniste, l’école bayésienne et l’école analogique. 1. Le symbolisme, également connu sous le nom de symbolisme, met l'accent sur l'utilisation de symboles pour le raisonnement logique et l'expression des connaissances. Cette école de pensée estime que l'apprentissage est un processus de déduction inversée, à travers les connaissances existantes.

Traducteur | Revu par Li Rui | Chonglou Les modèles d'intelligence artificielle (IA) et d'apprentissage automatique (ML) deviennent aujourd'hui de plus en plus complexes, et le résultat produit par ces modèles est une boîte noire – impossible à expliquer aux parties prenantes. L'IA explicable (XAI) vise à résoudre ce problème en permettant aux parties prenantes de comprendre comment fonctionnent ces modèles, en s'assurant qu'elles comprennent comment ces modèles prennent réellement des décisions et en garantissant la transparence des systèmes d'IA, la confiance et la responsabilité pour résoudre ce problème. Cet article explore diverses techniques d'intelligence artificielle explicable (XAI) pour illustrer leurs principes sous-jacents. Plusieurs raisons pour lesquelles l’IA explicable est cruciale Confiance et transparence : pour que les systèmes d’IA soient largement acceptés et fiables, les utilisateurs doivent comprendre comment les décisions sont prises

MetaFAIR s'est associé à Harvard pour fournir un nouveau cadre de recherche permettant d'optimiser le biais de données généré lors de l'apprentissage automatique à grande échelle. On sait que la formation de grands modèles de langage prend souvent des mois et utilise des centaines, voire des milliers de GPU. En prenant comme exemple le modèle LLaMA270B, sa formation nécessite un total de 1 720 320 heures GPU. La formation de grands modèles présente des défis systémiques uniques en raison de l’ampleur et de la complexité de ces charges de travail. Récemment, de nombreuses institutions ont signalé une instabilité dans le processus de formation lors de la formation des modèles d'IA générative SOTA. Elles apparaissent généralement sous la forme de pics de pertes. Par exemple, le modèle PaLM de Google a connu jusqu'à 20 pics de pertes au cours du processus de formation. Le biais numérique est à l'origine de cette imprécision de la formation,
