IT House News du 14 juin, les amis de l'IT House ont peut-être imaginé quel genre de résultats peuvent être obtenus si les résultats générés par l'IA sont utilisés pour entraîner l'IA et effectuer une « formation à la matriochka » ? Il existe actuellement une équipe de recherche qui a observé et enregistré cela, et des articles et résultats détaillés ont été publiés sur arXiv.
Résumé en une phrase : "L'utilisation du contenu généré par le modèle dans la formation entraînera des défauts irréversibles dans le modèle généré par la suite." En termes humains, les chercheurs ont découvert que "l'entraînement de l'IA avec les résultats générés par l'IA ne fera que modifier le modèle". de pire en pire. »
▲ Source de l'image arXiv
Il est rapporté que les chercheurs ont spécifiquement étudié la distribution de probabilité des modèles de génération d'IA, en se concentrant principalement sur « texte à texte » et « image à image », et ont finalement conclu : « Puisque les résultats générés par chaque modèle ont certaines caractéristiques, utilisez l'IA. -des modèles générés pour entraîner l’IA, et avec le temps, cette dernière oubliera la véritable distribution des données sous-jacentes.
▲ Source de l'image arXiv
Ilia Shumailov, l'un des principaux auteurs de l'article, a également déclaré qu'« au fil du temps, les erreurs dans les données générées (IT Home Note : comme de faux exemples) forceront l'IA à mal percevoir davantage la réalité, et nous avons été surpris d'observer l'effondrement du modèle. . est assez rapide et les modèles peuvent rapidement oublier une grande partie des données originales à partir desquelles ils ont initialement appris. »
Mais des amis peuvent se poser des questions : si les résultats générés par l'IA sont peaufinés manuellement puis intégrés à la formation du modèle, le modèle peut-il être « dégénéré » ?
La réponse est non. Les chercheurs ont découvert que « le processus de dégradation du modèle est inévitable », donc même pour un « contenu de sortie d'IA raffiné et idéalisé », le modèle connaîtra une certaine dégradation après un apprentissage à long terme.
Pour tout modèle de grande taille, en raison d'un trop grand nombre de données d'apprentissage, ils entreront inévitablement en contact avec des données générées par d'autres IA. Par conséquent, les chercheurs ont déclaré que « l'identification par l'IA devrait être introduite pour détecter les données d'apprentissage potentiellement erronées » afin d'améliorer l'apprentissage. capacité et précision du modèle.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!