Selon l'actualité du 19 avril, Microsoft, Google et OpenAI utilisent les données de discussion des utilisateurs sur les forums Reddit pour développer de nouveaux systèmes d'intelligence artificielle. Désormais, Reddit prévoit de facturer des redevances à ces sociétés.
Reddit a toujours été une plateforme de discussion sur des sujets d'actualité sur Internet, avec environ 57 millions de personnes visitant le site chaque jour pour discuter de divers sujets, notamment des conseils de maquillage, des jeux vidéo et des lave-autos automatiques.
Ces dernières années, les discussions sur les forums Reddit sont devenues des outils de formation gratuits permettant à des entreprises telles que Google, OpenAI et Microsoft de développer des systèmes d'intelligence artificielle. Aujourd’hui, de nombreux acteurs de l’industrie pensent que ces systèmes d’intelligence artificielle seront la prochaine grande nouveauté de l’industrie technologique.
Reddit prévoit donc de facturer les entreprises qui développent des technologies d'intelligence artificielle. De nombreuses entreprises téléchargent et traitent les discussions du forum via des interfaces de programmation d'applications (API). Mardi, Reddit a annoncé son intention de commencer à facturer aux entreprises l'utilisation de son API.
Le fondateur et PDG de Reddit, Steve Huffman, a déclaré dans une interview : "La base de données de Reddit est en effet précieuse, et nous n'avons pas besoin de fournir cette valeur gratuitement aux plus grandes entreprises du monde.
La décision de Reddit est la première fois." Le réseau social a explicitement facturé OpenAI et d’autres pour le libre accès afin de développer des systèmes d’intelligence artificielle comme ChatGPT. Les nouveaux systèmes d’IA comme ChatGPT pourraient un jour devenir une grosse affaire, mais ils ne feront pas grand-chose pour aider des entreprises comme Reddit. Au contraire, ces systèmes d’intelligence artificielle peuvent également générer automatiquement du contenu de chat et devenir des concurrents de Reddit.
Reddit se prépare à une éventuelle cotation cette année. La société a été fondée en 2005 et s'appuie actuellement principalement sur la publicité sur les plateformes et les transactions de commerce électronique pour réaliser des bénéfices. Reddit a déclaré qu'il finalisait les détails de facturation de l'interface API et qu'il annoncerait le prix dans les prochaines semaines.
De nos jours, les modèles linguistiques à grande échelle sont devenus un élément important du développement de nouvelles technologies d'intelligence artificielle, et le contenu des discussions des utilisateurs sur les forums Reddit est également devenu un bien précieux.
L'un des algorithmes sous-jacents du chatbot d'intelligence artificielle de Google, Bard, a été formé à l'aide des données de chat Reddit. Dans le même temps, ChatGPT d’OpenAI utilise également les données Reddit comme l’une des informations nécessaires à la formation de grands modèles de langage.
De plus, d'autres entreprises commencent à prendre conscience de la valeur du contenu de chat et des images stockées sur la plateforme. Le service d'hébergement d'images Shutterstock a vendu des données d'images à OpenAI, qui a contribué au développement de DALL-E, un système d'intelligence artificielle capable de générer des images basées sur de simples invites textuelles.
Actuellement, des milliers d'entreprises et de développeurs, petits et grands, utilisent des API pour suivre des millions de discussions sur la plateforme Twitter. Le mois dernier, Elon Musk, propriétaire de la plateforme de médias sociaux personnelle Twitter, a déclaré qu'il modifiait la manière actuelle d'utiliser l'API de Twitter, facturant des frais allant de dizaines à des centaines de milliers pour utiliser l'API. Mais Musk n’a pas mentionné les grands modèles linguistiques comme raison de ce changement.
Afin d'améliorer continuellement leurs modèles, les entreprises d'intelligence artificielle ont besoin de deux facteurs importants : une puissance de calcul puissante et une grande quantité de données disponibles. Certaines grandes sociétés de développement d’intelligence artificielle disposent généralement d’une puissance de calcul suffisante, mais recherchent néanmoins les données dont elles ont besoin pour améliorer leurs algorithmes sur Internet. Il s'agit notamment de ressources telles que Wikipédia, divers livres numérisés, des articles universitaires et des discussions sur les forums Reddit.
Des entreprises telles que Google, OpenAI et Microsoft n’ont pas encore répondu au projet de facturation de Reddit.
Reddit entretient depuis longtemps une relation de co-dépendance avec les moteurs de recherche comme Google et Bing. Ils obtiennent automatiquement les informations de la page Reddit, les indexent, puis affichent les informations pertinentes dans les pages de résultats de recherche. Bien que cette méthode d’exploration automatique ne soit pas populaire auprès de tous les sites Web, Reddit peut figurer en bonne place dans les résultats de recherche.
Les modèles linguistiques à grande échelle sont complètement différents. Ils doivent obtenir autant de données que possible pour pouvoir créer de nouveaux systèmes d'intelligence artificielle.
Reddit estime que les données de son forum sont particulièrement précieuses car elles sont constamment mises à jour. Ce type de fraîcheur et de pertinence est exactement ce dont les grands algorithmes de modèles de langage ont besoin pour produire les meilleurs résultats, a déclaré Huffman.
« Reddit est un meilleur endroit pour discuter que n'importe où ailleurs sur Internet », déclare Huffman. "Il y a beaucoup de choses sur le site que vous ne diriez qu'en privé, ou ne diriez pas du tout."
Hoffman a également souligné que pour les développeurs d'applications qui souhaitent créer des applications aidant les gens à utiliser Reddit, l'API est toujours gratuite. Par exemple, les développeurs peuvent utiliser gratuitement des outils tels que les API pour développer des robots qui vérifient automatiquement si les commentaires des utilisateurs sont conformes aux règles de publication de contenu. Les personnes qui étudient les données Reddit à des fins de recherche universitaire ou à des fins non commerciales continueront également à avoir un accès gratuit aux données.
Reddit espère également intégrer davantage d'apprentissage automatique dans les opérations du forum. Par exemple, Reddit peut utiliser l'apprentissage automatique pour identifier l'utilisation de texte généré par l'intelligence artificielle sur la plateforme et ajouter des étiquettes pour informer les utilisateurs quels commentaires proviennent de robots. Reddit a également promis d'améliorer les outils logiciels destinés aux modérateurs de forums afin de les aider à surveiller les robots tiers sur leurs forums.
Mais pour les créateurs d’IA, Reddit pense qu’il est temps de payer.
"C'est notre propre problème de créer de la valeur en supprimant les données de Reddit sans rembourser nos utilisateurs", a déclaré Huffman. "C'est le bon moment pour nous de renforcer la gestion." (Chenchen)
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!