Les données synthétiques seront-elles le moteur de l'avenir de la formation IA/ML ?-IA-php.cn

Table des matières

Mais qu'est-ce que les données synthétiques ?

AVANTAGES (INTANGIBLES)

Maison

Périphériques technologiques

Les données synthétiques seront-elles le moteur de l'avenir de la formation IA/ML ?

王林

Apr 14, 2023 am 09:52 AM

ai 合成数据 ml

合成数据会推动 AI/ML 训练的未来吗？

Il ne fait aucun doute que la collecte de données réelles pour entraîner l’intelligence artificielle ou l’apprentissage automatique (AI/ML) prend du temps et coûte cher. Et bien souvent, cela comporte de nombreux risques, mais un problème plus courant est que trop peu de données ou des données biaisées peuvent induire les organisations en erreur. Mais et si vous pouviez générerde nouvelles données, dites données synthétiques ?

Cela semble peu probable, mais c'est exactement ce que Synthesis AI prévoit de lever avec 17 millions de dollars auprès de sociétés de capital-risque, dont 468 Capital, Sorenson Ventures, Strawberry Creek Ventures, Bee Partners, PJC, iRobot Ventures, Boom Capital et Kubera Venture Capital Series A. financement.

C'est une preuve très fiable. L'entreprise prévoit d'utiliser ce financement pour étendre sa recherche et son développement dans le domaine du mélange de données réelles et synthétiques.

Yashar Behzadi, PDG de Synthesis AI, a déclaré dans un communiqué : « Les données synthétiques sont à un point d'inflexion dans leur adoption, et notre objectif est de développer davantage la technologie et de provoquer un changement de paradigme dans la façon dont les systèmes de vision par ordinateur sont construits. sera bientôt une conception et une formation complètes de modèles de vision par ordinateur dans des mondes virtuels, permettant une intelligence artificielle plus avancée et éthique »

Mais qu'est-ce que les données synthétiques ?

Les données synthétiques sont créées par des humains plutôt que collectées dans le monde réel. Actuellement, de nombreuses applications se concentrent sur les données visuelles, telles que les données collectées à partir des systèmes de vision par ordinateur. Pourtant, il n'y a aucune raison pratique pour laquelle des données synthétiques ne peuvent pas être créées pour d'autres cas d'utilisation, tels que tester des applications ou améliorer des algorithmes de détection de fraude. Ils ressemblent en quelque sorte à des jumeaux numériques hautement structurés de documents physiques.

En fournissant des ensembles de données massifs et réels à grande échelle, les data scientists et les analystes peuvent théoriquement ignorer le processus de collecte de données et passer directement aux tests ou à la formation.

En effet, la majeure partie du coût de création d'un ensemble de données du monde réel ne consiste pas seulement à collecter les données brutes. Prenons l'exemple de la vision par ordinateur et des voitures autonomes. Les constructeurs automobiles et les chercheurs peuvent attacher diverses caméras, radars et capteurs lidar aux véhicules pour les collecter, mais les données brutes ne signifient rien pour les algorithmes d'IA/ML. Un défi tout aussi intimidant consiste à étiqueter manuellement les données avec des informations contextuelles pour aider le système à prendre de meilleures décisions.

Regardons le contexte de ce défi : Imaginez que vous conduisez régulièrement un court trajet, avec tous les panneaux d'arrêt, les intersections, les voitures garées, les piétons, etc., et imaginez ensuite que donner à chacun les dangers potentiels de l'étiquetage est une tâche difficile.

Le principal avantage des données synthétiques est que, en théorie, elles peuvent créer des ensembles de données parfaitement étiquetés, suffisamment grands pour entraîner correctement les applications IA/ML, ce qui signifie que les data scientists peuvent soudainement tester leurs algorithmes dans un grand nombre de nouveaux endroits avant de pouvoir véritablement les mettre en œuvre. données mondiales ou dans des situations où il est difficile de les obtenir. En reprenant l'exemple des voitures autonomes, les data scientists peuvent créer des données synthétiques pour entraîner les voitures à conduire dans des conditions difficiles, telles que des routes enneigées, sans avoir à envoyer les conducteurs vers le nord ou dans les montagnes pour collecter manuellement des données.

Le principal avantage des données synthétiques est qu'elles peuvent théoriquement créer des ensembles de données parfaitement étiquetés à l'échelle requise pour former correctement les applications IA/ML, ce qui signifie que les data scientists peuvent créer des données avant que les données réelles ne soient disponibles, ou lorsqu'il serait difficile de les utiliser. disponibles, ils testaient soudainement leurs algorithmes dans de nombreux nouveaux endroits. Toujours avec l'exemple de la voiture autonome, les data scientists peuvent créer des données synthétiques pour entraîner la voiture à conduire dans des conditions défavorables, telles que des routes enneigées, sans que le conducteur aille tout au nord ou dans les montagnes pour collecter des données manuellement.

Cependant, il existe un problème de poule et d’œuf avec les données synthétiques, car elles ne peuvent être créées qu’en utilisant… plus de données et plus d’algorithmes IA/ML. Commencez avec un ensemble de données « de départ », puis utilisez-le comme base de référence pour vos créations synthétiques, ce qui signifie qu'elles seront aussi bonnes que les données avec lesquelles vous commencez.

AVANTAGES (INTANGIBLES)

Quel data scientist ou chercheur ne bénéficierait pas d'une offre apparemment infinie de générateurs de données ? Le principal avantage – la possibilité d'éviter la collecte manuelle de données du monde réel – est simplement accéléré par les données synthétiques. les moyens d'application de l'IA/ML.

Parce que les analystes et les data scientists ont un contrôle strict sur les données de départ et peuvent même faire un effort supplémentaire pour intégrer la diversité, ou travailler avec des consultants externes pour découvrir et décoder les préjugés, ils peuvent se conformer à des normes plus élevées. Synthesis AI, par exemple, développe un système qui surveille l'état du conducteur et inclut soigneusement différents visages dans son ensemble de données synthétiques générées par ordinateur pour garantir que les applications du monde réel fonctionnent pour tout le monde.

La confidentialité est une autre victoire potentielle. Si une entreprise passe des millions de kilomètres à collecter des données réelles sur ses voitures autonomes, elle collecte de nombreuses données que beaucoup de gens considèrent comme personnelles, en particulier leurs visages. De grandes entreprises comme Google et Apple ont trouvé des moyens d'éviter ce type de problèmes dans leurs logiciels de cartographie, mais leurs itinéraires ne sont pas réalisables pour les petites équipes d'IA/ML qui souhaitent tester leurs algorithmes.

« Les entreprises sont également aux prises avec des problèmes éthiques liés aux préjugés des modèles et à la confidentialité des consommateurs dans les produits centrés sur l'humain. Il est clair que la construction de la prochaine génération de vision par ordinateur nécessite un nouveau paradigme », Yashar, PDG et fondateur de la société Behzadi. a dit aux médias.

Bien que les données synthétiques reposent sur une graine pour démarrer, elles peuvent être adaptées et modifiées pour aider à former des applications IA/ML dans des cas extrêmes difficiles ou dangereux à capturer dans la vie réelle. Les entreprises à l'origine des voitures autonomes espèrent réussir à identifier des objets ou des personnes qui ne sont que partiellement visibles, comme un panneau d'arrêt caché derrière un camion ou un piéton se tenant entre deux voitures se précipitant sur la route.

Compte tenu de ces victoires, et malgré certaines inquiétudes concernant le problème de la poule et de l’œuf que constitue le biais d’encodage dans les données synthétiques, Gartnerprédit que d’ici 2024 60 % des données seront générées de manière synthétique. Ils prédisent qu’une grande partie des nouvelles données se concentreront sur la correction des modèles prédictifs lorsque les données historiques sur lesquelles elles sont basées perdent de leur pertinence ou lorsque les hypothèses basées sur l’expérience passée s’effondrent.

Mais il y a toujours quelquesdonnées du monde réel qui doivent être collectées, nous sommes donc encore loin d'être complètement obsolètes par les avatars de notre moi universel et impartial.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Repo: Comment relancer ses coéquipiers

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island Adventure: Comment obtenir des graines géantes

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Combien de temps faut-il pour battre Split Fiction?

3 Il y a quelques semaines By DDD

R.E.P.O. Enregistrer l'emplacement du fichier: où est-il et comment le protéger?

3 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7338

Tutoriel Java

1627

Tutoriel CakePHP

1352

Tutoriel Laravel

1265

Tutoriel PHP

1210

Afficher plus

Related knowledge

Comment créer dynamiquement un objet via une chaîne et appeler ses méthodes dans Python? Apr 01, 2025 pm 11:18 PM

Dans Python, comment créer dynamiquement un objet via une chaîne et appeler ses méthodes? Il s'agit d'une exigence de programmation courante, surtout si elle doit être configurée ou exécutée ...

Comment utiliser GO ou Rust pour appeler les scripts Python pour réaliser une véritable exécution parallèle? Apr 01, 2025 pm 11:39 PM

Comment utiliser GO ou Rust pour appeler les scripts Python pour réaliser une véritable exécution parallèle? Récemment, j'ai utilisé Python ...

La connexion Python Asyncio Telnet est immédiatement déconnectée: comment résoudre le problème de blocage côté serveur? Apr 02, 2025 am 06:30 AM

À propos de Pythonasyncio ...

Comment résoudre le problème du contenu de chargement dynamique manquant lors de l'obtention de données de page Web? Apr 01, 2025 pm 11:24 PM

Problèmes et solutions rencontrés lors de l'utilisation de la bibliothèque de requêtes pour faire craquer les données de la page Web. Lorsque vous utilisez la bibliothèque des demandes pour obtenir des données de page Web, vous rencontrez parfois le ...

Quelle est la raison pour laquelle les fichiers de pipeline ne peuvent pas être écrits lors de l'utilisation du robot Scapy? Apr 02, 2025 am 06:45 AM

Discussion sur les raisons pour lesquelles les fichiers de pipelines ne peuvent pas être écrits lors de l'utilisation de robots scapisnels lors de l'apprentissage et de l'utilisation de Crawlers scapides pour un stockage de données persistant, vous pouvez rencontrer des fichiers de pipeline ...

Comment récupérer Debian Mail Server Apr 02, 2025 am 07:33 AM

Étapes détaillées pour restaurer Debian Mail Server Cet article vous guidera sur la façon de restaurer Debian Mail Server. Avant de commencer, il est important de se souvenir de l'importance de la sauvegarde des données. Étapes de récupération: données de sauvegarde: assurez-vous de sauvegarder toutes les données d'e-mail et fichiers de configuration importants avant d'effectuer des opérations de récupération. Cela garantira que vous avez une version de secours lorsque des problèmes se produisent pendant le processus de récupération. Vérifiez les fichiers journaux: vérifiez les fichiers journaux du serveur de messagerie (tels que /var/log/mail.log) pour des erreurs ou des exceptions. Les fichiers journaux fournissent souvent des indices précieux sur la cause du problème. Service d'arrêt: Arrêtez le service de messagerie pour éviter une nouvelle corruption des données. Utilisez la commande suivante: su

Comment faire fonctionner le réglage des performances de Zookeeper sur Debian Apr 02, 2025 am 07:42 AM

Cet article décrit comment optimiser les performances de Zookeeper sur Debian Systems. Nous fournirons des conseils sur le matériel, le système d'exploitation, la configuration du gardien de zoo et la surveillance. 1. Optimiser la mise à niveau des supports de stockage au niveau du système: le remplacement des disques durs mécaniques traditionnels par des disques à l'état solide SSD améliorera considérablement les performances des E / S et réduira la latence d'accès. Désactiver le partitionnement du swap: en ajustant les paramètres du noyau, réduisez la dépendance des partitions de swap et évitez les pertes de performances causées par des swaps de mémoire et de disque fréquents. Améliorer le descripteur de fichier Limite supérieure: augmenter le nombre de descripteurs de fichiers autorisés à être ouverts en même temps par le système pour éviter les limitations des ressources affectant l'efficacité de traitement de Zookeeper. 2. Configuration de la configuration zoo

Comment faire des paramètres de sécurité Oracle sur Debian Apr 02, 2025 am 07:48 AM

Pour renforcer la sécurité de la base de données Oracle sur le système Debian, il faut de nombreux aspects pour commencer. Les étapes suivantes fournissent un cadre pour la configuration sécurisée: 1. Installation de la base de données Oracle et préparation du système de configuration initiale: Assurez-vous que le système Debian a été mis à jour vers la dernière version, la configuration du réseau est correcte et tous les packages logiciels requis sont installés. Il est recommandé de se référer à des documents officiels ou à des ressources tierces fiables pour l'installation. Utilisateurs et groupes: Créez un groupe d'utilisateurs Oracle dédié (tel que Oinstall, DBA, BackupDBA) et définissez-le pour lui. 2. Restrictions de sécurité Définir les restrictions de ressources: Edit /etc/security/limits.d/30-oracle.conf

See all articles