Présentation de RWKV : l'essor des transformateurs linéaires et l'exploration d'alternatives-IA-php.cn

Maison

Périphériques technologiques

Présentation de RWKV : l'essor des transformateurs linéaires et l'exploration d'alternatives

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Sep 27, 2023 pm 02:01 PM

rwkv

Voici un résumé de certaines de mes réflexions sur le podcast RWKV https://www.php.cn/link/9bde76f262285bb1eaeb7b40c758b53e

Présentation de RWKV : lessor des transformateurs linéaires et lexploration dalternatives

Pourquoi l’importance des alternatives est-elle si importante ?

Avec la révolution de l'intelligence artificielle en 2023, l'architecture Transformer est actuellement à son apogée. Cependant, dans la précipitation pour adopter l’architecture à succès Transformer, il est facile de négliger les alternatives dont on peut tirer des leçons.

En tant qu'ingénieurs, nous ne devrions pas adopter une approche universelle et utiliser la même solution à chaque problème. Nous devrions peser le pour et le contre dans chaque situation ; sinon, être coincé dans les limites d'une plateforme particulière tout en nous sentant « satisfaits » de ne pas savoir qu'il existe des alternatives pourrait ramener le développement à la pré-libération du jour au lendemain

Ce problème est Ce n’est pas propre au domaine de l’intelligence artificielle, mais c’est un modèle historique qui s’est répété depuis l’Antiquité jusqu’à nos jours.

Une page de l'histoire de SQL Wars, une histoire sur la compétition et l'affrontement entre les systèmes de gestion de bases de données. Dans cette histoire, divers systèmes de gestion de bases de données, tels qu'Oracle, MySQL et SQL Server, se livrent une concurrence féroce pour obtenir des parts de marché et des avantages techniques. Ces compétitions ne se reflètent pas seulement dans les performances et les fonctionnalités, mais impliquent également de nombreux aspects tels que la stratégie commerciale, le marketing et la satisfaction des utilisateurs. Ces systèmes de gestion de bases de données introduisent constamment de nouvelles fonctionnalités et améliorations pour inciter davantage d'utilisateurs et d'entreprises à choisir leurs produits. Une page de l'histoire de la guerre SQL, qui a été témoin du développement et des changements de l'industrie des systèmes de gestion de bases de données, et nous a également fourni une expérience et des leçons précieuses

Un exemple remarquable dans le développement de logiciels récemment est celui où SQL La tendance NoSQL est apparue lorsque les serveurs ont commencé à être physiquement limités. Les startups du monde entier se tournent vers NoSQL pour des raisons « d'échelle », même si elles sont loin de ces échelles

Cependant, au fil du temps, à mesure que la cohérence éventuelle et les frais de gestion NoSQL apparaissent, et un énorme bond en avant dans les capacités matérielles en termes de Vitesse et capacité SSD, les serveurs SQL ont connu un retour en force récemment en raison de leur simplicité d'utilisation et désormais plus de 90 % des startups disposent d'une évolutivité suffisante

SQL et NoSQL sont deux technologies de bases de données différentes. SQL est l'abréviation de Structured Query Language, qui est principalement utilisé pour traiter des données structurées. NoSQL fait référence à une base de données non relationnelle, adaptée au traitement de données non structurées ou semi-structurées. Même si certaines personnes pensent que SQL est meilleur que NoSQL, ou vice versa, cela signifie en réalité que chaque technologie a ses propres avantages, inconvénients et cas d'utilisation. Dans certains cas, SQL peut être mieux adapté au traitement de données relationnelles complexes, tandis que NoSQL est mieux adapté au traitement de données non structurées à grande échelle. Toutefois, cela ne signifie pas qu’une seule technologie puisse être choisie. En fait, de nombreuses applications et systèmes utilisent dans la pratique des solutions hybrides de SQL et NoSQL. En fonction des besoins spécifiques et du type de données, la technologie la plus appropriée peut être sélectionnée pour résoudre le problème. Il est donc important de comprendre les caractéristiques et les scénarios applicables de chaque technologie et de faire un choix éclairé en fonction de la situation spécifique. Qu'il s'agisse de SQL ou de NoSQL, chacun a ses propres points d'apprentissage et ses cas d'utilisation préférés qui peuvent être tirés d'apprentissages et pollinisés de manière croisée entre des technologies similaires

Quels sont les plus gros problèmes du moment Transformateur architecture ?

Généralement, cela inclut les calculs, la taille du contexte, l'ensemble de données et l'alignement. Dans cette discussion, nous nous concentrerons sur la longueur du calcul et du contexte :

Le coût de calcul quadratique dû à l'augmentation de O(N^2) par jeton utilisé/généré. Cela rend les tailles de contexte supérieures à 100 000 très coûteuses, ce qui affecte l'inférence et la formation.
La pénurie actuelle de GPU exacerbe ce problème.
La taille du contexte limite le mécanisme Attention, limitant considérablement les cas d'utilisation des "agents intelligents" (comme smol-dev) et forçant une solution au problème. Les contextes plus vastes nécessitent moins de solutions de contournement.

Alors, comment résoudre ce problème ?

Présentation de RWKV : un Transformer/RNN moderne à grande échelle

RWKV et Microsoft RetNet sont appelés "Transformateurs linéaires" dans une nouvelle catégorie Le premier

qui répond directement aux trois limitations ci-dessus en prenant en charge :

🎜

Coût de calcul linéaire, indépendant de la taille du contexte.
Dans les processeurs (en particulier ARM), autorisez une sortie raisonnable de jetons/seconde en mode RNN avec des exigences inférieures.
Il n'y a pas de limite de taille de contexte stricte en tant que RNN. Toutes les limites indiquées dans la documentation sont des lignes directrices : vous pouvez les affiner.

Alors que nous continuons à faire évoluer les modèles d'IA jusqu'à des tailles de contexte de 100k et plus, le coût de calcul quadratique commence à croître de façon exponentielle.

Cependant, Linear Transformer n'a pas abandonné l'architecture récurrente du réseau neuronal et n'a pas résolu ses goulots d'étranglement, ce qui a obligé à les remplacer.

Cependant, le RNN repensé a appris les leçons évolutives de Transformer, permettant à RNN de fonctionner de la même manière que Transformer et éliminant ces goulots d'étranglement.

Ramenez-les en jeu avec les Transformers en termes de vitesse d'entraînement - leur permettant de fonctionner efficacement à un coût O(N) tout en s'adaptant à plus d'un milliard de paramètres d'entraînement tout en maintenant des niveaux de performances similaires.

Présentation de RWKV : lessor des transformateurs linéaires et lexploration dalternatives

Graphique : Coût de calcul du transformateur linéaire, mise à l'échelle linéaire par rapport à la croissance exponentielle du transformateur par jeton

Lorsque vous appliquez une mise à l'échelle carrée à une mise à l'échelle linéaire, vous obtenez Get 10x+ croissance à 2k nombre de jetons et croissance 100x+ à une longueur de jeton de 100 000

Avec des paramètres de 14B, RWKV est le plus grand transformateur linéaire open source, similaire à GPT NeoX et d'autres ensembles de données (tels que le Pile) sont comparables.

Présentation de RWKV : lessor des transformateurs linéaires et lexploration dalternatives

Les performances du modèle RWKV sont comparables à celles des modèles de transformateurs existants de taille similaire, montrent divers benchmarks

Mais en termes plus simples, cela signifie quoi ?

Avantages

L'inférence/la formation est 10 fois moins chère que Transformer dans des contextes plus grands
en RNN mode Bas, ok Fonctionne lentement sur un mode très limité matériel
Performances similaires à Transformer sur le même ensemble de données
RNN n'a pas de limite de taille de contexte technique (contexte illimité !)

Disad avantages

Problème de fenêtre coulissante, perte de mémoire au-delà d'un certain point
Pas prouvé pour évoluer au-delà des paramètres 14B
Pas aussi bon que l'optimisation et l'adoption du transformateur

Donc tandis que RWKV n'a pas encore atteint l'échelle de paramètres 60B+ de LLaMA2, avec le soutien et les ressources appropriés, il a le potentiel de le faire à moindre coût et dans un contexte plus large, d'autant plus que les modèles ont tendance à être plus petits, plus efficaces

Si votre le cas d'utilisation est important pour l'efficacité, considérez ceci. Cependant, ce n'est pas la solution finale - la clé réside dans des alternatives saines

Nous devrions envisager d'apprendre d'autres alternatives et leurs avantages

Modèle de diffusion : l'entraînement textuel est plus rapide Lent, mais extrêmement flexible pour une formation multi-époques. Découvrir pourquoi peut aider à atténuer la crise symbolique.

Réseaux/Agents Adversaires Génératifs : Des techniques peuvent être utilisées pour former l'ensemble de formation requis sur une cible spécifique, même s'il s'agit d'un modèle basé sur du texte sans ensemble de données.

Titre original : Présentation du RWKV : L'essor des transformateurs linéaires et exploration des alternatives, auteur : picocreator

https https://www.php.cn/ lien/b433da1b32b5ca96c0ba7fcb9edba97d

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Repo: Comment relancer ses coéquipiers

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island Adventure: Comment obtenir des graines géantes

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Combien de temps faut-il pour battre Split Fiction?

4 Il y a quelques semaines By DDD

R.E.P.O. Enregistrer l'emplacement du fichier: où est-il et comment le protéger?

4 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7360

Tutoriel Java

1628

Tutoriel CakePHP

1353

Tutoriel Laravel

1265

Tutoriel PHP

1214

Afficher plus

Related knowledge

J'ai essayé le codage d'ambiance avec Cursor Ai et c'est incroyable! Mar 20, 2025 pm 03:34 PM

Le codage des ambiances est de remodeler le monde du développement de logiciels en nous permettant de créer des applications en utilisant le langage naturel au lieu de lignes de code sans fin. Inspirée par des visionnaires comme Andrej Karpathy, cette approche innovante permet de dev

Replit Agent: un guide avec des exemples pratiques Mar 04, 2025 am 10:52 AM

Révolutionment du développement des applications: une plongée profonde dans l'agent de repelit Vous en avez assez de lutter avec des environnements de développement complexes et des fichiers de configuration obscurs? Replit Agent vise à simplifier le processus de transformation des idées en applications fonctionnelles. Cet ai-p

Top 5 Genai Lunets de février 2025: GPT-4.5, Grok-3 et plus! Mar 22, 2025 am 10:58 AM

Février 2025 a été un autre mois qui change la donne pour une IA générative, nous apportant certaines des mises à niveau des modèles les plus attendues et de nouvelles fonctionnalités révolutionnaires. De Xai's Grok 3 et Anthropic's Claude 3.7 Sonnet, à Openai's G

Comment utiliser YOLO V12 pour la détection d'objets? Mar 22, 2025 am 11:07 AM

Yolo (vous ne regardez qu'une seule fois) a été un cadre de détection d'objets en temps réel de premier plan, chaque itération améliorant les versions précédentes. La dernière version Yolo V12 introduit des progrès qui améliorent considérablement la précision

Comment utiliser Dall-E 3: Conseils, exemples et fonctionnalités Mar 09, 2025 pm 01:00 PM

Dall-E 3: Un outil de création d'images génératifs AI L'IA générative révolutionne la création de contenu, et Dall-E 3, le dernier modèle de génération d'images d'Openai, est à l'avant. Sorti en octobre 2023, il s'appuie sur ses prédécesseurs, Dall-E et Dall-E 2

Elon Musk et Sam Altman s'affrontent plus de 500 milliards de dollars Stargate Project Mar 08, 2025 am 11:15 AM

Le projet de 500 milliards de dollars Stargate IA, soutenu par des géants de la technologie comme Openai, Softbank, Oracle et Nvidia, et soutenu par le gouvernement américain, vise à consolider la direction de l'IA américaine. Cette entreprise ambitieuse promet un avenir façonné par AI Advanceme

5 invites Grok 3 qui peuvent faciliter votre travail Mar 04, 2025 am 10:54 AM

GROK 3 - Elon Musk et le dernier modèle d'IA de Xai est le discours de la ville ces jours-ci. De Andrej Karpathy aux influenceurs technologiques, tout le monde parle des capacités de ce nouveau modèle. Initialement, l'accès était limité à

Google & # 039; s Gencast: Prévision météorologique avec Mini démo Gencast Mar 16, 2025 pm 01:46 PM

Gencast de Google Deepmind: une IA révolutionnaire pour les prévisions météorologiques Les prévisions météorologiques ont subi une transformation spectaculaire, passant des observations rudimentaires aux prédictions sophistiquées alimentées par l'IA. Gencast de Google Deepmind, un terreau

See all articles