Voici un résumé de certaines de mes réflexions sur le podcast RWKV https://www.php.cn/link/9bde76f262285bb1eaeb7b40c758b53e
Pourquoi l’importance des alternatives est-elle si importante ?
Avec la révolution de l'intelligence artificielle en 2023, l'architecture Transformer est actuellement à son apogée. Cependant, dans la précipitation pour adopter l’architecture à succès Transformer, il est facile de négliger les alternatives dont on peut tirer des leçons.
En tant qu'ingénieurs, nous ne devrions pas adopter une approche universelle et utiliser la même solution à chaque problème. Nous devrions peser le pour et le contre dans chaque situation ; sinon, être coincé dans les limites d'une plateforme particulière tout en nous sentant « satisfaits » de ne pas savoir qu'il existe des alternatives pourrait ramener le développement à la pré-libération du jour au lendemain
Ce problème est Ce n’est pas propre au domaine de l’intelligence artificielle, mais c’est un modèle historique qui s’est répété depuis l’Antiquité jusqu’à nos jours.
Une page de l'histoire de SQL Wars, une histoire sur la compétition et l'affrontement entre les systèmes de gestion de bases de données. Dans cette histoire, divers systèmes de gestion de bases de données, tels qu'Oracle, MySQL et SQL Server, se livrent une concurrence féroce pour obtenir des parts de marché et des avantages techniques. Ces compétitions ne se reflètent pas seulement dans les performances et les fonctionnalités, mais impliquent également de nombreux aspects tels que la stratégie commerciale, le marketing et la satisfaction des utilisateurs. Ces systèmes de gestion de bases de données introduisent constamment de nouvelles fonctionnalités et améliorations pour inciter davantage d'utilisateurs et d'entreprises à choisir leurs produits. Une page de l'histoire de la guerre SQL, qui a été témoin du développement et des changements de l'industrie des systèmes de gestion de bases de données, et nous a également fourni une expérience et des leçons précieuses
Un exemple remarquable dans le développement de logiciels récemment est celui où SQL La tendance NoSQL est apparue lorsque les serveurs ont commencé à être physiquement limités. Les startups du monde entier se tournent vers NoSQL pour des raisons « d'échelle », même si elles sont loin de ces échelles
Cependant, au fil du temps, à mesure que la cohérence éventuelle et les frais de gestion NoSQL apparaissent, et un énorme bond en avant dans les capacités matérielles en termes de Vitesse et capacité SSD, les serveurs SQL ont connu un retour en force récemment en raison de leur simplicité d'utilisation et désormais plus de 90 % des startups disposent d'une évolutivité suffisante
SQL et NoSQL sont deux technologies de bases de données différentes. SQL est l'abréviation de Structured Query Language, qui est principalement utilisé pour traiter des données structurées. NoSQL fait référence à une base de données non relationnelle, adaptée au traitement de données non structurées ou semi-structurées. Même si certaines personnes pensent que SQL est meilleur que NoSQL, ou vice versa, cela signifie en réalité que chaque technologie a ses propres avantages, inconvénients et cas d'utilisation. Dans certains cas, SQL peut être mieux adapté au traitement de données relationnelles complexes, tandis que NoSQL est mieux adapté au traitement de données non structurées à grande échelle. Toutefois, cela ne signifie pas qu’une seule technologie puisse être choisie. En fait, de nombreuses applications et systèmes utilisent dans la pratique des solutions hybrides de SQL et NoSQL. En fonction des besoins spécifiques et du type de données, la technologie la plus appropriée peut être sélectionnée pour résoudre le problème. Il est donc important de comprendre les caractéristiques et les scénarios applicables de chaque technologie et de faire un choix éclairé en fonction de la situation spécifique. Qu'il s'agisse de SQL ou de NoSQL, chacun a ses propres points d'apprentissage et ses cas d'utilisation préférés qui peuvent être tirés d'apprentissages et pollinisés de manière croisée entre des technologies similaires
Quels sont les plus gros problèmes du moment Transformateur architecture ?
Généralement, cela inclut les calculs, la taille du contexte, l'ensemble de données et l'alignement. Dans cette discussion, nous nous concentrerons sur la longueur du calcul et du contexte :
Alors, comment résoudre ce problème ?
Présentation de RWKV : un Transformer/RNN moderne à grande échelle
RWKV et Microsoft RetNet sont appelés "Transformateurs linéaires" dans une nouvelle catégorie Le premier
qui répond directement aux trois limitations ci-dessus en prenant en charge :
🎜Alors que nous continuons à faire évoluer les modèles d'IA jusqu'à des tailles de contexte de 100k et plus, le coût de calcul quadratique commence à croître de façon exponentielle.
Cependant, Linear Transformer n'a pas abandonné l'architecture récurrente du réseau neuronal et n'a pas résolu ses goulots d'étranglement, ce qui a obligé à les remplacer.
Cependant, le RNN repensé a appris les leçons évolutives de Transformer, permettant à RNN de fonctionner de la même manière que Transformer et éliminant ces goulots d'étranglement.
Ramenez-les en jeu avec les Transformers en termes de vitesse d'entraînement - leur permettant de fonctionner efficacement à un coût O(N) tout en s'adaptant à plus d'un milliard de paramètres d'entraînement tout en maintenant des niveaux de performances similaires.
Graphique : Coût de calcul du transformateur linéaire, mise à l'échelle linéaire par rapport à la croissance exponentielle du transformateur par jeton
Lorsque vous appliquez une mise à l'échelle carrée à une mise à l'échelle linéaire, vous obtenez Get 10x+ croissance à 2k nombre de jetons et croissance 100x+ à une longueur de jeton de 100 000
Avec des paramètres de 14B, RWKV est le plus grand transformateur linéaire open source, similaire à GPT NeoX et d'autres ensembles de données (tels que le Pile) sont comparables.
Les performances du modèle RWKV sont comparables à celles des modèles de transformateurs existants de taille similaire, montrent divers benchmarks
Mais en termes plus simples, cela signifie quoi ?
Avantages
Disad avantages
Donc tandis que RWKV n'a pas encore atteint l'échelle de paramètres 60B+ de LLaMA2, avec le soutien et les ressources appropriés, il a le potentiel de le faire à moindre coût et dans un contexte plus large, d'autant plus que les modèles ont tendance à être plus petits, plus efficaces
Si votre le cas d'utilisation est important pour l'efficacité, considérez ceci. Cependant, ce n'est pas la solution finale - la clé réside dans des alternatives saines
Nous devrions envisager d'apprendre d'autres alternatives et leurs avantages
Modèle de diffusion : l'entraînement textuel est plus rapide Lent, mais extrêmement flexible pour une formation multi-époques. Découvrir pourquoi peut aider à atténuer la crise symbolique.
Réseaux/Agents Adversaires Génératifs : Des techniques peuvent être utilisées pour former l'ensemble de formation requis sur une cible spécifique, même s'il s'agit d'un modèle basé sur du texte sans ensemble de données.
Titre original : Présentation du RWKV : L'essor des transformateurs linéaires et exploration des alternatives, auteur : picocreator
https https://www.php.cn/ lien/b433da1b32b5ca96c0ba7fcb9edba97d
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!