Table des matières
Fusionnez l'évolution et générez automatiquement de nouveaux modèles de base
Le nouveau modèle gagne facilement SOTA
Maison Périphériques technologiques IA Le modèle évoluera après fusion, et gagnera directement SOTA ! Les nouvelles réalisations entrepreneuriales de l'auteur de Transformer sont populaires

Le modèle évoluera après fusion, et gagnera directement SOTA ! Les nouvelles réalisations entrepreneuriales de l'auteur de Transformer sont populaires

Mar 26, 2024 am 11:30 AM
数据 训练

Utilisez les modèles prêts à l'emploi sur Huggingface pour "économiser" -

Pouvez-vous combiner directement de nouveaux modèles puissants ? !

Sakana.ai, une grande entreprise de mannequins japonaise, a une grande imagination(c'est l'entreprise fondée par l'un des "Transformer Eight"), et a trouvé une manière si intelligente d'évoluer et de fusionner des modèles.

Le modèle évoluera après fusion, et gagnera directement SOTA ! Les nouvelles réalisations entrepreneuriales de lauteur de Transformer sont populaires

Cette méthode peut non seulement générer automatiquement un nouveau modèle de base, mais aussi les performances ne sont en aucun cas mauvaises :

Ils utilisent un grand modèle de mathématiques japonaises contenant 7 milliards de paramètres et atteignent un état de résultats de pointe dans des benchmarks pertinents. Les résultats ont dépassé les modèles précédents tels que Llama-2 avec 70 milliards de paramètres.

Le plus important est que pour arriver à un tel modèle ne nécessite aucune formation en gradient , les ressources informatiques nécessaires sont donc fortement réduites.

Le scientifique de NVIDIA, Jim Fan, l'a félicité après l'avoir lu :

C'est l'un des articles les plus imaginatifs que j'ai lu récemment.

Le modèle évoluera après fusion, et gagnera directement SOTA ! Les nouvelles réalisations entrepreneuriales de lauteur de Transformer sont populaires

Fusionnez l'évolution et générez automatiquement de nouveaux modèles de base

La plupart des modèles les plus performants du classement des grands modèles open source ne sont plus des modèles "originaux" comme LLaMA ou Mistral, mais certains modèles affinés ou fusionnés Après cela, on peut constater :

Une nouvelle tendance a émergé.

Sakana.ai introduit que le modèle de base open source peut être facilement étendu et affiné dans des centaines de directions différentes, puis générer de nouveaux modèles qui fonctionnent bien dans de nouveaux domaines.

Parmi ceux-ci, la Fusion de modèles est très prometteuse.

Le modèle évoluera après fusion, et gagnera directement SOTA ! Les nouvelles réalisations entrepreneuriales de lauteur de Transformer sont populaires

Cependant, il peut s'agir d'une sorte de « magie noire » qui s'appuie fortement sur l'intuition et l'expertise.

Par conséquent, nous avons besoin d’une approche plus systématique.

Inspiré par la sélection naturelle dans la nature, Sakana.ai se concentre sur les algorithmes évolutifs, introduit le concept de "Evolutionary Model Merge" et propose une méthode générale permettant de découvrir la meilleure combinaison de modèles.

Cette méthode combine deux idées différentes :

(1) fusion de modèles dans l'espace de flux de données (couches) , et (2) fusion de modèles dans l'espace de paramètres (poids) .

Plus précisément, la première méthode spatiale de flux de données consiste à découvrir la meilleure combinaison de différentes couches de modèle à travers l'évolution pour former un nouveau modèle.

Dans le passé, la communauté s'appuyait sur son intuition pour déterminer comment et quelles couches d'un modèle peuvent être combinées avec les couches d'un autre modèle.

Mais en fait, Sakana.ai a introduit que ce problème a un espace de recherche avec un grand nombre de combinaisons, ce qui est le plus approprié pour la recherche par des algorithmes d'optimisation tels que les algorithmes évolutifs.

L'exemple d'opération est le suivant :

Le modèle évoluera après fusion, et gagnera directement SOTA ! Les nouvelles réalisations entrepreneuriales de lauteur de Transformer sont populaires

En ce qui concerne la deuxième méthode d'espace de paramètres, plusieurs poids de modèle sont mélangés pour former un nouveau modèle.

Il existe en fait d'innombrables façons de mettre en œuvre cette méthode, et en principe, chaque couche de mélange peut utiliser des ratios de mélange différents, voire plus.

Et ici, en utilisant des méthodes évolutives, nous pouvons effectivement trouver des stratégies hybrides plus nouvelles.

Ce qui suit est un exemple de mélange des poids de deux modèles différents pour obtenir un nouveau modèle :

Le modèle évoluera après fusion, et gagnera directement SOTA ! Les nouvelles réalisations entrepreneuriales de lauteur de Transformer sont populaires

En combinant les deux méthodes ci-dessus, voici à quoi cela ressemble :

Le modèle évoluera après fusion, et gagnera directement SOTA ! Les nouvelles réalisations entrepreneuriales de lauteur de Transformer sont populaires

L'auteur a présenté qu'il espérait pour atteindre l'objectif de combiner les poids de deux domaines différents, tels que les mathématiques et les langues non anglaises, la vision et les langues non anglaises, pour former des combinaisons émergentes qui n'ont jamais été explorées auparavant.

Le résultat est vraiment surprenant.

Le nouveau modèle gagne facilement SOTA

En utilisant la méthode de fusion évolutive ci-dessus, l'équipe a obtenu 3 modèles de base :

  • Grand modèle de langage EvoLLM-JP

Il est composé du grand modèle japonais Shisa-Gamma et grand modèle mathématique. Le modèle est une fusion de WizardMath/Abel, qui est efficace pour résoudre les problèmes mathématiques japonais et a évolué sur 100 à 150 générations.

  • Modèle de langage visuel EvoVLM-JP

Grand modèle japonais Shisa Gamma 7B v1+LLaVa-1.6-Mistral-7B, est un VLM avec des capacités de langue japonaise.

  • Modèle de génération d'images EvoSDXL-JP

Prend en charge le modèle de diffusion SDXL japonais.

Les deux premiers ont été publiés sur Hugging Face et GitHub, et le dernier sera bientôt lancé.

Regardez-le spécifiquement.

1. EvoLLM-JP

Il a obtenu les résultats suivants sur l'ensemble d'évaluation japonais de MGSM, une version multilingue de l'ensemble de données GSM8K :

Le modèle évoluera après fusion, et gagnera directement SOTA ! Les nouvelles réalisations entrepreneuriales de lauteur de Transformer sont populaires

Comme vous pouvez le voir, EvoLLM-JP résout les mathématiques en japonais Les performances du problème dépassent leurs modèles d'origine, ainsi que les modèles hautes performances tels que Llama-2 et GPT-3.5.

Parmi eux, le modèle 4 est optimisé uniquement dans l'espace des paramètres, et le modèle 6 est le résultat d'une optimisation plus poussée dans l'espace des flux de données à l'aide du modèle 4.

Sur le benchmark japonais lm-evaluation-harness, qui évalue à la fois les capacités de données et les compétences générales en langue japonaise, EvoLLM-JP a obtenu le score moyen le plus élevé de 70,5 sur 9 tâches - en utilisant seulement 7 milliards de paramètres, il a vaincu 70 milliards de Llama-2. et d'autres modèles.

Le modèle évoluera après fusion, et gagnera directement SOTA ! Les nouvelles réalisations entrepreneuriales de lauteur de Transformer sont populaires

L'équipe a déclaré qu'EvoLLM-JP est suffisamment bon pour être utilisé comme modèle japonais général à grande échelle et résoudre quelques exemples intéressants :

tels que des problèmes mathématiques qui nécessitent une connaissance spécifique de la culture japonaise ou raconter des blagues japonaises. en dialecte du Kansai.

2, EvoVLM-JP

Sur les deux ensembles de données de référence suivants de questions et réponses d'images, plus le score est élevé, plus la description de la réponse du modèle en japonais est précise.

En conséquence, il est non seulement meilleur que le VLM anglais LLaVa-1.6-Mistral-7B sur lequel il est basé, mais aussi meilleur que le VLM japonais existant.

Le modèle évoluera après fusion, et gagnera directement SOTA ! Les nouvelles réalisations entrepreneuriales de lauteur de Transformer sont populaires

Comme le montre l'image ci-dessous, lorsqu'on lui a demandé quelle est la couleur du signal lumineux sur l'image, seul EvoVLM-JP a répondu correctement : bleu.

Le modèle évoluera après fusion, et gagnera directement SOTA ! Les nouvelles réalisations entrepreneuriales de lauteur de Transformer sont populaires

3, EvoSDXL-JP

Ce modèle SDXL qui prend en charge le japonais ne nécessite que 4 modèles de diffusion pour effectuer l'inférence, et la vitesse de génération est assez rapide.

Les scores spécifiques de course à pied n'ont pas encore été publiés, mais l'équipe a révélé qu'ils sont "assez prometteurs".

Vous pouvez profiter de quelques exemples :

Les mots rapides incluent : Miso ラーメン, Ukiyoe de la plus haute qualité, Katsushika Hokusai, Période Edo.

Le modèle évoluera après fusion, et gagnera directement SOTA ! Les nouvelles réalisations entrepreneuriales de lauteur de Transformer sont populaires

Pour les 3 nouveaux modèles ci-dessus, l'équipe a souligné :

En principe, nous pouvons utiliser la rétropropagation basée sur le gradient pour améliorer encore les performances de ces modèles.

Mais nous n'utilisons pas , car le but est maintenant de montrer que même sans rétropropagation, nous pouvons toujours obtenir un modèle de base suffisamment avancé pour remettre en question le « paradigme coûteux » actuel.

Les internautes ont aimé cela les uns après les autres.

Jim Fan a également ajouté :

Dans le domaine des modèles de base, actuellement, la communauté est presque entièrement axée sur l'apprentissage du modèle, et ne prête pas beaucoup d'attention à la recherche , mais cette dernière est la formation (qui c'est-à-dire l'algorithme évolutif proposé dans cet article) et l'étape de raisonnement ont en fait un énorme potentiel.

Le modèle évoluera après fusion, et gagnera directement SOTA ! Les nouvelles réalisations entrepreneuriales de lauteur de Transformer sont populaires
Aimé par Musk

Donc, comme l'ont dit les internautes :

Sommes-nous maintenant dans l'ère de l'explosion cambrienne du modèle ?

Le modèle évoluera après fusion, et gagnera directement SOTA ! Les nouvelles réalisations entrepreneuriales de lauteur de Transformer sont populaires

Adresse papier : https://arxiv.org/abs/2403.13187

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Repo: Comment relancer ses coéquipiers
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Utilisez ddrescue pour récupérer des données sous Linux Utilisez ddrescue pour récupérer des données sous Linux Mar 20, 2024 pm 01:37 PM

DDREASE est un outil permettant de récupérer des données à partir de périphériques de fichiers ou de blocs tels que des disques durs, des SSD, des disques RAM, des CD, des DVD et des périphériques de stockage USB. Il copie les données d'un périphérique bloc à un autre, laissant derrière lui les blocs corrompus et ne déplaçant que les bons blocs. ddreasue est un puissant outil de récupération entièrement automatisé car il ne nécessite aucune interruption pendant les opérations de récupération. De plus, grâce au fichier map ddasue, il peut être arrêté et repris à tout moment. Les autres fonctionnalités clés de DDREASE sont les suivantes : Il n'écrase pas les données récupérées mais comble les lacunes en cas de récupération itérative. Cependant, il peut être tronqué si l'outil est invité à le faire explicitement. Récupérer les données de plusieurs fichiers ou blocs en un seul

Open source! Au-delà de ZoeDepth ! DepthFM : estimation rapide et précise de la profondeur monoculaire ! Open source! Au-delà de ZoeDepth ! DepthFM : estimation rapide et précise de la profondeur monoculaire ! Apr 03, 2024 pm 12:04 PM

0. À quoi sert cet article ? Nous proposons DepthFM : un modèle d'estimation de profondeur monoculaire génératif de pointe, polyvalent et rapide. En plus des tâches traditionnelles d'estimation de la profondeur, DepthFM démontre également des capacités de pointe dans les tâches en aval telles que l'inpainting en profondeur. DepthFM est efficace et peut synthétiser des cartes de profondeur en quelques étapes d'inférence. Lisons ce travail ensemble ~ 1. Titre des informations sur l'article : DepthFM : FastMonocularDepthEstimationwithFlowMatching Auteur : MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Bonjour, Atlas électrique ! Le robot Boston Dynamics revient à la vie, des mouvements étranges à 180 degrés effraient Musk Bonjour, Atlas électrique ! Le robot Boston Dynamics revient à la vie, des mouvements étranges à 180 degrés effraient Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas entre officiellement dans l’ère des robots électriques ! Hier, l'Atlas hydraulique s'est retiré "en larmes" de la scène de l'histoire. Aujourd'hui, Boston Dynamics a annoncé que l'Atlas électrique était au travail. Il semble que dans le domaine des robots humanoïdes commerciaux, Boston Dynamics soit déterminé à concurrencer Tesla. Après la sortie de la nouvelle vidéo, elle a déjà été visionnée par plus d’un million de personnes en seulement dix heures. Les personnes âgées partent et de nouveaux rôles apparaissent. C'est une nécessité historique. Il ne fait aucun doute que cette année est l’année explosive des robots humanoïdes. Les internautes ont commenté : Les progrès des robots ont fait ressembler la cérémonie d'ouverture de cette année à des êtres humains, et le degré de liberté est bien plus grand que celui des humains. Mais n'est-ce vraiment pas un film d'horreur ? Au début de la vidéo, Atlas est allongé calmement sur le sol, apparemment sur le dos. Ce qui suit est à couper le souffle

Google est ravi : les performances de JAX surpassent Pytorch et TensorFlow ! Cela pourrait devenir le choix le plus rapide pour la formation à l'inférence GPU Google est ravi : les performances de JAX surpassent Pytorch et TensorFlow ! Cela pourrait devenir le choix le plus rapide pour la formation à l'inférence GPU Apr 01, 2024 pm 07:46 PM

Les performances de JAX, promu par Google, ont dépassé celles de Pytorch et TensorFlow lors de récents tests de référence, se classant au premier rang sur 7 indicateurs. Et le test n’a pas été fait sur le TPU présentant les meilleures performances JAX. Bien que parmi les développeurs, Pytorch soit toujours plus populaire que Tensorflow. Mais à l’avenir, des modèles plus volumineux seront peut-être formés et exécutés sur la base de la plate-forme JAX. Modèles Récemment, l'équipe Keras a comparé trois backends (TensorFlow, JAX, PyTorch) avec l'implémentation native de PyTorch et Keras2 avec TensorFlow. Premièrement, ils sélectionnent un ensemble de

La vitalité de la super intelligence s'éveille ! Mais avec l'arrivée de l'IA qui se met à jour automatiquement, les mères n'ont plus à se soucier des goulots d'étranglement des données. La vitalité de la super intelligence s'éveille ! Mais avec l'arrivée de l'IA qui se met à jour automatiquement, les mères n'ont plus à se soucier des goulots d'étranglement des données. Apr 29, 2024 pm 06:55 PM

Je pleure à mort. Le monde construit à la folie de grands modèles. Les données sur Internet ne suffisent pas du tout. Le modèle de formation ressemble à « The Hunger Games », et les chercheurs en IA du monde entier se demandent comment nourrir ces personnes avides de données. Ce problème est particulièrement important dans les tâches multimodales. À une époque où rien ne pouvait être fait, une équipe de start-up du département de l'Université Renmin de Chine a utilisé son propre nouveau modèle pour devenir la première en Chine à faire de « l'auto-alimentation des données générées par le modèle » une réalité. De plus, il s’agit d’une approche à deux volets, du côté compréhension et du côté génération, les deux côtés peuvent générer de nouvelles données multimodales de haute qualité et fournir un retour de données au modèle lui-même. Qu'est-ce qu'un modèle ? Awaker 1.0, un grand modèle multimodal qui vient d'apparaître sur le Forum Zhongguancun. Qui est l'équipe ? Moteur Sophon. Fondé par Gao Yizhao, doctorant à la Hillhouse School of Artificial Intelligence de l’Université Renmin.

Vitesse Internet lente des données cellulaires sur iPhone : correctifs Vitesse Internet lente des données cellulaires sur iPhone : correctifs May 03, 2024 pm 09:01 PM

Vous êtes confronté à un décalage et à une connexion de données mobile lente sur iPhone ? En règle générale, la puissance de l'Internet cellulaire sur votre téléphone dépend de plusieurs facteurs tels que la région, le type de réseau cellulaire, le type d'itinérance, etc. Vous pouvez prendre certaines mesures pour obtenir une connexion Internet cellulaire plus rapide et plus fiable. Correctif 1 – Forcer le redémarrage de l'iPhone Parfois, le redémarrage forcé de votre appareil réinitialise simplement beaucoup de choses, y compris la connexion cellulaire. Étape 1 – Appuyez simplement une fois sur la touche d’augmentation du volume et relâchez-la. Ensuite, appuyez sur la touche de réduction du volume et relâchez-la à nouveau. Étape 2 – La partie suivante du processus consiste à maintenir le bouton sur le côté droit. Laissez l'iPhone finir de redémarrer. Activez les données cellulaires et vérifiez la vitesse du réseau. Vérifiez à nouveau Correctif 2 – Changer le mode de données Bien que la 5G offre de meilleures vitesses de réseau, elle fonctionne mieux lorsque le signal est plus faible

La version Kuaishou de Sora 'Ke Ling' est ouverte aux tests : génère plus de 120 s de vidéo, comprend mieux la physique et peut modéliser avec précision des mouvements complexes La version Kuaishou de Sora 'Ke Ling' est ouverte aux tests : génère plus de 120 s de vidéo, comprend mieux la physique et peut modéliser avec précision des mouvements complexes Jun 11, 2024 am 09:51 AM

Quoi? Zootopie est-elle concrétisée par l’IA domestique ? Avec la vidéo est exposé un nouveau modèle de génération vidéo domestique à grande échelle appelé « Keling ». Sora utilise une voie technique similaire et combine un certain nombre d'innovations technologiques auto-développées pour produire des vidéos qui comportent non seulement des mouvements larges et raisonnables, mais qui simulent également les caractéristiques du monde physique et possèdent de fortes capacités de combinaison conceptuelle et d'imagination. Selon les données, Keling prend en charge la génération de vidéos ultra-longues allant jusqu'à 2 minutes à 30 ips, avec des résolutions allant jusqu'à 1080p, et prend en charge plusieurs formats d'image. Un autre point important est que Keling n'est pas une démo ou une démonstration de résultats vidéo publiée par le laboratoire, mais une application au niveau produit lancée par Kuaishou, un acteur leader dans le domaine de la vidéo courte. De plus, l'objectif principal est d'être pragmatique, de ne pas faire de chèques en blanc et de se mettre en ligne dès sa sortie. Le grand modèle de Ke Ling est déjà sorti à Kuaiying.

L'US Air Force présente son premier avion de combat IA de grande envergure ! Le ministre a personnellement effectué l'essai routier sans intervenir pendant tout le processus, et 100 000 lignes de code ont été testées 21 fois. L'US Air Force présente son premier avion de combat IA de grande envergure ! Le ministre a personnellement effectué l'essai routier sans intervenir pendant tout le processus, et 100 000 lignes de code ont été testées 21 fois. May 07, 2024 pm 05:00 PM

Récemment, le milieu militaire a été submergé par la nouvelle : les avions de combat militaires américains peuvent désormais mener des combats aériens entièrement automatiques grâce à l'IA. Oui, tout récemment, l’avion de combat IA de l’armée américaine a été rendu public pour la première fois, dévoilant ainsi son mystère. Le nom complet de ce chasseur est Variable Stability Simulator Test Aircraft (VISTA). Il a été personnellement piloté par le secrétaire de l'US Air Force pour simuler une bataille aérienne en tête-à-tête. Le 2 mai, le secrétaire de l'US Air Force, Frank Kendall, a décollé à bord d'un X-62AVISTA à la base aérienne d'Edwards. Notez que pendant le vol d'une heure, toutes les actions de vol ont été effectuées de manière autonome par l'IA ! Kendall a déclaré : "Au cours des dernières décennies, nous avons réfléchi au potentiel illimité du combat air-air autonome, mais cela a toujours semblé hors de portée." Mais maintenant,

See all articles