


Les données synthétiques seront-elles le moteur de l'avenir de la formation IA/ML ?
Il ne fait aucun doute que la collecte de données réelles pour entraîner l’intelligence artificielle ou l’apprentissage automatique (AI/ML) prend du temps et coûte cher. Et bien souvent, cela comporte de nombreux risques, mais un problème plus courant est que trop peu de données ou des données biaisées peuvent induire les organisations en erreur. Mais et si vous pouviez générerde nouvelles données, dites données synthétiques ?
Cela semble peu probable, mais c'est exactement ce que Synthesis AI prévoit de lever avec 17 millions de dollars auprès de sociétés de capital-risque, dont 468 Capital, Sorenson Ventures, Strawberry Creek Ventures, Bee Partners, PJC, iRobot Ventures, Boom Capital et Kubera Venture Capital Series A. financement.
C'est une preuve très fiable. L'entreprise prévoit d'utiliser ce financement pour étendre sa recherche et son développement dans le domaine du mélange de données réelles et synthétiques.
Yashar Behzadi, PDG de Synthesis AI, a déclaré dans un communiqué : « Les données synthétiques sont à un point d'inflexion dans leur adoption, et notre objectif est de développer davantage la technologie et de provoquer un changement de paradigme dans la façon dont les systèmes de vision par ordinateur sont construits. sera bientôt une conception et une formation complètes de modèles de vision par ordinateur dans des mondes virtuels, permettant une intelligence artificielle plus avancée et éthique »
Mais qu'est-ce que les données synthétiques ?
Les données synthétiques sont créées par des humains plutôt que collectées dans le monde réel. Actuellement, de nombreuses applications se concentrent sur les données visuelles, telles que les données collectées à partir des systèmes de vision par ordinateur. Pourtant, il n'y a aucune raison pratique pour laquelle des données synthétiques ne peuvent pas être créées pour d'autres cas d'utilisation, tels que tester des applications ou améliorer des algorithmes de détection de fraude. Ils ressemblent en quelque sorte à des jumeaux numériques hautement structurés de documents physiques.
En fournissant des ensembles de données massifs et réels à grande échelle, les data scientists et les analystes peuvent théoriquement ignorer le processus de collecte de données et passer directement aux tests ou à la formation.
En effet, la majeure partie du coût de création d'un ensemble de données du monde réel ne consiste pas seulement à collecter les données brutes. Prenons l'exemple de la vision par ordinateur et des voitures autonomes. Les constructeurs automobiles et les chercheurs peuvent attacher diverses caméras, radars et capteurs lidar aux véhicules pour les collecter, mais les données brutes ne signifient rien pour les algorithmes d'IA/ML. Un défi tout aussi intimidant consiste à étiqueter manuellement les données avec des informations contextuelles pour aider le système à prendre de meilleures décisions.
Regardons le contexte de ce défi : Imaginez que vous conduisez régulièrement un court trajet, avec tous les panneaux d'arrêt, les intersections, les voitures garées, les piétons, etc., et imaginez ensuite que donner à chacun les dangers potentiels de l'étiquetage est une tâche difficile.
Le principal avantage des données synthétiques est que, en théorie, elles peuvent créer des ensembles de données parfaitement étiquetés, suffisamment grands pour entraîner correctement les applications IA/ML, ce qui signifie que les data scientists peuvent soudainement tester leurs algorithmes dans un grand nombre de nouveaux endroits avant de pouvoir véritablement les mettre en œuvre. données mondiales ou dans des situations où il est difficile de les obtenir. En reprenant l'exemple des voitures autonomes, les data scientists peuvent créer des données synthétiques pour entraîner les voitures à conduire dans des conditions difficiles, telles que des routes enneigées, sans avoir à envoyer les conducteurs vers le nord ou dans les montagnes pour collecter manuellement des données.
Le principal avantage des données synthétiques est qu'elles peuvent théoriquement créer des ensembles de données parfaitement étiquetés à l'échelle requise pour former correctement les applications IA/ML, ce qui signifie que les data scientists peuvent créer des données avant que les données réelles ne soient disponibles, ou lorsqu'il serait difficile de les utiliser. disponibles, ils testaient soudainement leurs algorithmes dans de nombreux nouveaux endroits. Toujours avec l'exemple de la voiture autonome, les data scientists peuvent créer des données synthétiques pour entraîner la voiture à conduire dans des conditions défavorables, telles que des routes enneigées, sans que le conducteur aille tout au nord ou dans les montagnes pour collecter des données manuellement.
Cependant, il existe un problème de poule et d’œuf avec les données synthétiques, car elles ne peuvent être créées qu’en utilisant… plus de données et plus d’algorithmes IA/ML. Commencez avec un ensemble de données « de départ », puis utilisez-le comme base de référence pour vos créations synthétiques, ce qui signifie qu'elles seront aussi bonnes que les données avec lesquelles vous commencez.
AVANTAGES (INTANGIBLES)
Quel data scientist ou chercheur ne bénéficierait pas d'une offre apparemment infinie de générateurs de données ? Le principal avantage – la possibilité d'éviter la collecte manuelle de données du monde réel – est simplement accéléré par les données synthétiques. les moyens d'application de l'IA/ML.
Parce que les analystes et les data scientists ont un contrôle strict sur les données de départ et peuvent même faire un effort supplémentaire pour intégrer la diversité, ou travailler avec des consultants externes pour découvrir et décoder les préjugés, ils peuvent se conformer à des normes plus élevées. Synthesis AI, par exemple, développe un système qui surveille l'état du conducteur et inclut soigneusement différents visages dans son ensemble de données synthétiques générées par ordinateur pour garantir que les applications du monde réel fonctionnent pour tout le monde.
La confidentialité est une autre victoire potentielle. Si une entreprise passe des millions de kilomètres à collecter des données réelles sur ses voitures autonomes, elle collecte de nombreuses données que beaucoup de gens considèrent comme personnelles, en particulier leurs visages. De grandes entreprises comme Google et Apple ont trouvé des moyens d'éviter ce type de problèmes dans leurs logiciels de cartographie, mais leurs itinéraires ne sont pas réalisables pour les petites équipes d'IA/ML qui souhaitent tester leurs algorithmes.
« Les entreprises sont également aux prises avec des problèmes éthiques liés aux préjugés des modèles et à la confidentialité des consommateurs dans les produits centrés sur l'humain. Il est clair que la construction de la prochaine génération de vision par ordinateur nécessite un nouveau paradigme », Yashar, PDG et fondateur de la société Behzadi. a dit aux médias.
Bien que les données synthétiques reposent sur une graine pour démarrer, elles peuvent être adaptées et modifiées pour aider à former des applications IA/ML dans des cas extrêmes difficiles ou dangereux à capturer dans la vie réelle. Les entreprises à l'origine des voitures autonomes espèrent réussir à identifier des objets ou des personnes qui ne sont que partiellement visibles, comme un panneau d'arrêt caché derrière un camion ou un piéton se tenant entre deux voitures se précipitant sur la route.
Compte tenu de ces victoires, et malgré certaines inquiétudes concernant le problème de la poule et de l’œuf que constitue le biais d’encodage dans les données synthétiques, Gartnerprédit que d’ici 2024 60 % des données seront générées de manière synthétique. Ils prédisent qu’une grande partie des nouvelles données se concentreront sur la correction des modèles prédictifs lorsque les données historiques sur lesquelles elles sont basées perdent de leur pertinence ou lorsque les hypothèses basées sur l’expérience passée s’effondrent.
Mais il y a toujours quelquesdonnées du monde réel qui doivent être collectées, nous sommes donc encore loin d'être complètement obsolètes par les avatars de notre moi universel et impartial.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Dans Python, comment créer dynamiquement un objet via une chaîne et appeler ses méthodes? Il s'agit d'une exigence de programmation courante, surtout si elle doit être configurée ou exécutée ...

Comment utiliser GO ou Rust pour appeler les scripts Python pour réaliser une véritable exécution parallèle? Récemment, j'ai utilisé Python ...

À propos de Pythonasyncio ...

Problèmes et solutions rencontrés lors de l'utilisation de la bibliothèque de requêtes pour faire craquer les données de la page Web. Lorsque vous utilisez la bibliothèque des demandes pour obtenir des données de page Web, vous rencontrez parfois le ...

Discussion sur les raisons pour lesquelles les fichiers de pipelines ne peuvent pas être écrits lors de l'utilisation de robots scapisnels lors de l'apprentissage et de l'utilisation de Crawlers scapides pour un stockage de données persistant, vous pouvez rencontrer des fichiers de pipeline ...

Étapes détaillées pour restaurer Debian Mail Server Cet article vous guidera sur la façon de restaurer Debian Mail Server. Avant de commencer, il est important de se souvenir de l'importance de la sauvegarde des données. Étapes de récupération: données de sauvegarde: assurez-vous de sauvegarder toutes les données d'e-mail et fichiers de configuration importants avant d'effectuer des opérations de récupération. Cela garantira que vous avez une version de secours lorsque des problèmes se produisent pendant le processus de récupération. Vérifiez les fichiers journaux: vérifiez les fichiers journaux du serveur de messagerie (tels que /var/log/mail.log) pour des erreurs ou des exceptions. Les fichiers journaux fournissent souvent des indices précieux sur la cause du problème. Service d'arrêt: Arrêtez le service de messagerie pour éviter une nouvelle corruption des données. Utilisez la commande suivante: su

Cet article décrit comment optimiser les performances de Zookeeper sur Debian Systems. Nous fournirons des conseils sur le matériel, le système d'exploitation, la configuration du gardien de zoo et la surveillance. 1. Optimiser la mise à niveau des supports de stockage au niveau du système: le remplacement des disques durs mécaniques traditionnels par des disques à l'état solide SSD améliorera considérablement les performances des E / S et réduira la latence d'accès. Désactiver le partitionnement du swap: en ajustant les paramètres du noyau, réduisez la dépendance des partitions de swap et évitez les pertes de performances causées par des swaps de mémoire et de disque fréquents. Améliorer le descripteur de fichier Limite supérieure: augmenter le nombre de descripteurs de fichiers autorisés à être ouverts en même temps par le système pour éviter les limitations des ressources affectant l'efficacité de traitement de Zookeeper. 2. Configuration de la configuration zoo

Pour renforcer la sécurité de la base de données Oracle sur le système Debian, il faut de nombreux aspects pour commencer. Les étapes suivantes fournissent un cadre pour la configuration sécurisée: 1. Installation de la base de données Oracle et préparation du système de configuration initiale: Assurez-vous que le système Debian a été mis à jour vers la dernière version, la configuration du réseau est correcte et tous les packages logiciels requis sont installés. Il est recommandé de se référer à des documents officiels ou à des ressources tierces fiables pour l'installation. Utilisateurs et groupes: Créez un groupe d'utilisateurs Oracle dédié (tel que Oinstall, DBA, BackupDBA) et définissez-le pour lui. 2. Restrictions de sécurité Définir les restrictions de ressources: Edit /etc/security/limits.d/30-oracle.conf
