L'intelligence artificielle a besoin de données de formation, mais ces données sont limitées. Alors, comment pouvons-nous autrement former l’IA pour qu’elle continue à se développer et à nous être utile ?
Vous pensez peut-être qu'Internet et ses données sont des ressources inépuisables, mais les outils d'IA manquent de données à exploiter. Maintenant, avant de vous inquiéter, cela ne va pas arrêter le développement de l’IA : il existe encore de nombreuses données prêtes à former des systèmes d’IA.
En bref, l'institut de recherche sur l'IA Epoch affirme que les données de haute qualité sur lesquelles l'IA est formée pourraient être épuisées d'ici 2026.
Le mot clé est "pourrait". La quantité de données ajoutées à Internet augmente chaque année, donc quelque chose de radical pourrait changer avant 2026. Il s’agit néanmoins d’une estimation juste : de toute façon, les systèmes d’IA finiront par manquer de bonnes données à un moment donné.
Rappelons cependant que quelque 147 zettaoctets de données sont ajoutés en ligne chaque année (selon Exploding Topics). Un seul zettaoctet équivaut à 1 000 000 000 000 000 000 000 de bits de données. En termes réels (enfin, un peu réels), cela représente plus de 30 milliards de films 4K (réels, mais insondables). Il s’agit d’une quantité surprenante d’informations que l’IA doit analyser.
Néanmoins, l'IA consomme des données plus rapidement que l'humanité ne peut les créer…
Ces 147 zettaoctets de données ne sont pas forcément de bonnes données, bien sûr. Il y a bien plus à découvrir qu’il n’y paraît. Mais on estime que l’IA aura également utilisé des données linguistiques de mauvaise qualité d’ici 2050.
Reuters a rapporté que Photobucket, autrefois l'un des plus grands référentiels d'images au monde, était en pourparlers pour accorder une licence pour sa vaste bibliothèque à des entreprises de formation en IA. Les données d'images ont permis de former des systèmes comme DALL-E et Midjourney, mais même cela pourrait s'épuiser d'ici 2060. Il y a aussi un problème plus important ici : Photobucket hébergeait des images de plateformes de médias sociaux des années 2000 comme Myspace, ce qui signifie qu'elles ne répondent pas à des normes aussi élevées que photographie actuelle. Cela conduit à des données de mauvaise qualité.
Photobucket n'est pas seul. En février 2024, Google a conclu un accord avec Reddit, permettant au géant de la recherche d'utiliser les données des utilisateurs de la plateforme de médias sociaux dans sa formation à l'IA. D'autres plateformes de médias sociaux fournissent également des données sur les utilisateurs à des fins de formation à l'IA ; certains l'utilisent pour former des modèles d'IA internes, comme Meta's Llama.
Cependant, même si certaines informations peuvent être glanées à partir de données de mauvaise qualité, Microsoft serait en train de développer un moyen permettant à l'IA de « désapprendre » de manière sélective les données. Cela serait principalement utilisé pour des problèmes de propriété intellectuelle, mais cela pourrait également signifier que les outils peuvent oublier ce qu'ils ont appris à partir d'ensembles de données de mauvaise qualité.
Nous pourrions alimenter l'IA en données supplémentaires sans être trop sélectifs ; ces systèmes d’IA pourraient alors choisir ce dont il est le plus avantageux d’apprendre.
Les données transmises aux outils d'IA étaient jusqu'à présent constituées en grande partie de texte et, dans une moindre mesure, d'images. Cela va sans aucun doute changer, et c’est probablement déjà le cas, car les logiciels de reconnaissance vocale signifieront que la richesse des vidéos et des podcasts disponibles pourra également entraîner l’IA.
Notamment, OpenAI a développé le réseau neuronal open source de reconnaissance automatique de la parole (ASR), Whisper, en utilisant 680 000 heures de données multilingues et multitâches. OpenAI a ensuite introduit plus d'un million d'heures d'informations provenant de vidéos YouTube dans son grand modèle de langage, GPT-4.
Il s'agit d'un modèle idéal pour d'autres systèmes d'IA, qui utilisent la reconnaissance vocale pour transcrire des vidéos et des audios provenant de nombreuses sources et exécuter ces données via leurs modèles d'IA.
Selon Statista, plus de 500 heures de vidéo sont mises en ligne sur YouTube chaque minute, un nombre resté assez constant depuis 2019. Sans parler d'autres plateformes vidéo et audio comme Dailymotion et Podbean. Si l’IA parvient à porter son attention sur de nouveaux ensembles de données comme ceux-ci, il restera encore une énorme quantité d’informations à exploiter.
Ce n'est pas tout ce que nous pouvons apprendre de Whisper. OpenAI a entraîné le modèle à l'aide de 117 000 heures de données audio dans une langue autre que l'anglais. Ceci est particulièrement intéressant car de nombreux systèmes d’IA ont été formés principalement en utilisant l’anglais ou en considérant d’autres cultures à travers le prisme occidental.
Par essence, la plupart des outils sont limités par la culture de leurs créateurs.
Prenons ChatGPT comme exemple. Peu de temps après sa sortie en 2022, Jill Walker Rettberg, professeur de culture numérique à l'Université de Bergen, en Norvège, a essayé ChatGPT et a conclu :
« ChatGPT ne connaît pas grand-chose de la culture norvégienne. Ou plutôt, tout ce qu'il sait sur la culture norvégienne est probablement principalement tiré de sources anglaises… ChatGPT est explicitement aligné sur les valeurs et les lois américaines. Dans de nombreux cas, ces valeurs sont proches des valeurs norvégiennes et européennes, mais ce ne sera probablement pas toujours le cas.»
Les IA peuvent donc se développer à mesure que les multinationales interagissent avec elles ou que des langues et des cultures plus diverses sont utilisées pour former de tels systèmes. À l’heure actuelle, de nombreuses intelligences artificielles sont confinées dans une seule bibliothèque ; ils peuvent se développer si on leur donne les clés des bibliothèques du monde entier.
La propriété intellectuelle est évidemment un problème majeur, mais certains éditeurs pourraient contribuer au développement des IA en concluant des accords de licence. Cela signifierait fournir aux outils des données de haute qualité, c’est-à-dire fiables, provenant de livres plutôt que des informations potentiellement de mauvaise qualité glanées à partir de sources en ligne.
En fait, Meta, les propriétaires de Facebook, Instagram et WhatsApp, auraient envisagé d'acheter Simon & Schuster, l'une des maisons d'édition des « Big Five ». L'idée était d'utiliser la littérature publiée par l'entreprise pour former la propre IA de Meta. L’accord a finalement échoué, peut-être en raison de la zone grise éthique dans laquelle l’entreprise traite les PI sans le consentement préalable des auteurs.
Une autre option apparemment envisagée consistait à acheter des droits de licence individuels sur de nouveaux titres. Cela devrait susciter de grandes inquiétudes chez les créatifs, mais cela restera un moyen intéressant pour les outils d’IA de se développer si les données utilisables sont épuisées.
Toutes les autres solutions sont encore limitées, mais une option pourrait permettre à l'IA de prospérer dans le futur : les données synthétiques. Et cette possibilité est déjà étudiée comme une possibilité très réelle.
Alors, qu’est-ce que les données synthétiques ? En ce sens, il s’agit de données créées par l’IA ; tout comme les humains créent des données, cette méthode permettrait à l’intelligence artificielle de générer des données à des fins de formation.
En effet, une IA pourrait créer une vidéo deepfake convaincante. Cette vidéo deepfake pourrait être réinjectée dans une IA afin qu’elle puisse apprendre de ce qui est essentiellement un scénario imaginaire. Après tout, c’est l’une des principales façons dont les humains apprennent : nous lisons ou regardons quelque chose afin de comprendre le monde qui nous entoure.
Les IA ont probablement déjà consommé des informations synthétiques. Les deepfakes diffusés en ligne propagent de la désinformation et de la désinformation. Ainsi, à mesure que les systèmes d’IA analysent Internet, il est logique que certains aient fait l’objet de contenus falsifiés.
Oui, il y a un côté insidieux à cela. Cela pourrait également endommager ou limiter les IA, renforçant et propageant les erreurs commises par ces outils. Les entreprises s’efforcent d’éradiquer ce dernier problème ; Pourtant, « les IA apprennent les unes des autres et font des erreurs » est un élément de l’intrigue de nombreux scénarios de science-fiction cauchemardesques.
L'IA est controversée. Il présente de nombreux inconvénients, mais ses détracteurs ignorent ses avantages. Par exemple, le réseau d'audit et de conseil PwC [PDF] suggère que l'IA pourrait contribuer jusqu'à 15 700 milliards de dollars à l'économie mondiale d'ici 2030.
De plus, l'IA est déjà utilisée partout dans le monde. Vous l’avez probablement utilisé aujourd’hui sous une forme ou une autre, peut-être sans même vous en rendre compte. Maintenant que le génie est sorti de la bouteille, la clé est sûrement de le former sur des données fiables et de qualité afin que nous puissions en faire bon usage.
L'IA a ses points positifs et ses points négatifs. Il y a un équilibre à trouver.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!