Table des matières
Infinite Memory Transformer
Maison Périphériques technologiques IA 5 millions de monstres symboliques, lisez l'intégralité de 'Harry Potter' d'un seul coup ! Plus de 1000 fois plus long que ChatGPT

5 millions de monstres symboliques, lisez l'intégralité de 'Harry Potter' d'un seul coup ! Plus de 1000 fois plus long que ChatGPT

Jun 10, 2023 am 10:42 AM
ai 模型

Une mauvaise mémoire est le principal problème des modèles linguistiques à grande échelle actuels. Par exemple, ChatGPT ne peut saisir que 4 096 jetons (environ 3 000 mots). J'oublie souvent ce que j'ai dit auparavant en discutant, et ce n'est même pas suffisant. lire une courte histoire de.

La fenêtre de saisie courte limite également les scénarios d'application du modèle linguistique. Par exemple, lors de la synthèse d'un article scientifique (environ 10 000 mots), vous devez segmenter manuellement l'article puis le saisir dans le modèle en différents chapitres. Les informations associées sont perdues.

Bien que GPT-4 puisse prendre en charge jusqu'à 32 000 jetons et que Claude mis à niveau puisse prendre en charge jusqu'à 100 000 jetons, ils ne peuvent que atténuer le problème de la capacité cérébrale insuffisante.

Récemment, une équipe entrepreneuriale Magic a annoncé qu'elle lancerait bientôt le Modèle LTM-1, qui prend en charge jusqu'à 5 millions de jetons, soit environ 500 000 lignes de code ou 5 000 fichiers, soit 50 fois plus élevé que Claude. C'est fondamentalement ok. Couvre la plupart des besoins de stockage, cela fait vraiment une différence en quantité et en qualité !

Le principal scénario d'application de LTM-1 est la complétion de code, par exemple, il peut générer des suggestions de code plus longues et plus complexes.

Vous pouvez également réutiliser et synthétiser des informations dans plusieurs fichiers.

La mauvaise nouvelle est que Magic, le développeur de LTM-1, n'a pas publié les principes techniques spécifiques, mais a seulement déclaré avoir conçu une toute nouvelle méthode, le réseau de mémoire à long terme (LTM Net).

Mais il y a aussi une bonne nouvelle. En septembre 2021, des chercheurs de DeepMind et d'autres institutions ont proposé un modèle appelé ∞-former, qui inclut un mécanisme de mémoire à long terme (LTM). La théorie peut rendre le modèle Transformer infini. mémoire, mais il n'est pas clair s'il s'agit de la même technologie ou d'une version améliorée. LTM Nets peut voir plus de contexte que GPT, LTM Le nombre de LTM Nets peut voir plus de contexte que GPT, LTM Le nombre de Les paramètres du modèle -1 sont beaucoup plus petits que ceux du modèle sota actuel, donc le niveau d'intelligence est également inférieur. Cependant, continuer à augmenter la taille du modèle devrait améliorer les performances des LTM Nets.

Actuellement, LTM-1 a ouvert des applications de test alpha. LTM -1 développeur Magic a été fondé en 2022 et développe principalement des GitHub Copilot similaires Le produit peut aider les ingénieurs logiciels à écrire, réviser, déboguer et modifier le code. L'objectif est de créer un collègue IA pour les programmeurs. Son principal avantage concurrentiel est que le modèle peut lire du code plus long.

5 millions de monstres symboliques, lisez lintégralité de Harry Potter dun seul coup ! Plus de 1000 fois plus long que ChatGPT

Magic s'engage pour le bien public et sa mission est de construire et de déployer en toute sécurité des systèmes AGI qui dépassent les capacités humaines. Il s'agit actuellement d'une start-up comptant seulement 10 personnes.

En février de cette année, Magic a reçu un financement de série A de 23 millions de dollars dirigé par CapitalG, une filiale d'Alphabet. Les investisseurs comprennent également l'ancien PDG de GitHub et coproducteur de Copilot, Nat Friedman, qui est actuellement le directeur de la société. président, le montant des fonds a atteint 28 millions de dollars américains.

Eric Steinberger, PDG et co-fondateur de Magic, est diplômé de l'Université de Cambridge avec un baccalauréat en informatique et a effectué des recherches sur l'apprentissage automatique au FAIR.

5 millions de monstres symboliques, lisez lintégralité de Harry Potter dun seul coup ! Plus de 1000 fois plus long que ChatGPT

Avant de fonder Magic, Steinberger a également fondé ClimateScience pour aider les enfants du monde entier à découvrir les impacts du changement climatique.

Infinite Memory Transformer

La conception du mécanisme d'attention dans le composant central du modèle de langage, Transformer, entraînera à chaque fois la longueur de la séquence d’entrée est augmentée, la complexité temporelle augmentera quadratiquement.

Bien qu'il existe déjà quelques variantes du mécanisme d'attention, comme l'attention éparse, etc. pour réduire la complexité de l'algorithme, sa complexité est toujours liée à l'entrée longueur et ne peut pas être étendu à l’infini.

∞-former La clé du modèle de transformateur à mémoire à long terme (LTM) qui peut étendre la séquence d'entrée à l'infini est un cadre d'attention spatiale continue qui utilise des Cette manière de représenter la granularité augmente le nombre d’unités d’informations mémoire (fonctions de base). Dans le cadre, la séquence d'entrée est représentée comme un "signal continu", représente une combinaison linéaire de N fonctions de base radiales (RBF). De cette manière, la complexité d'attention de ∞-former est réduite à O(L^2 + L). × N), tandis que la complexité d'attention du transformateur d'origine est O (L×(L+L_LTM)), où L et L_LTM correspondent respectivement à la taille d'entrée du transformateur et à la longueur de la mémoire à long terme.

Cette méthode de représentation présente deux avantages principaux : 5 millions de monstres symboliques, lisez lintégralité de Harry Potter dun seul coup ! Plus de 1000 fois plus long que ChatGPT

1. de jetons Il est représenté par la fonction de base N, qui réduit le coût de calcul de l'attention ; n'augmente pas la complexité du mécanisme d'attention.

Bien sûr, il n'y a pas de repas gratuit au monde, le prix est la réduction de la résolution : l'utilisation d'un plus petit nombre de fonctions de base entraîne une précision réduite lors de la représentation de la séquence d'entrée sous forme de signal continu.

Pour atténuer le problème de réduction de résolution, les chercheurs ont introduit le concept de « mémoires collantes » pour attribuer des espaces plus grands dans le signal LTM à des zones mémoire plus fréquentes. de « permanence » dans LTM, permettant au modèle de mieux capturer le contexte à long terme sans perdre les informations pertinentes. Il s'inspire également du potentiel à long terme et de la plasticité du cerveau.

5 millions de monstres symboliques, lisez lintégralité de Harry Potter dun seul coup ! Plus de 1000 fois plus long que ChatGPTPartie expérimentale

Afin de vérifier si ∞-ancien Pour modéliser des contextes longs, les chercheurs ont d'abord expérimenté une tâche de synthèse, qui consiste à trier les jetons par fréquence dans une longue séquence ; puis ils ont expérimenté la modélisation du langage et la génération de dialogues basés sur des documents en affinant les modèles de langage pré-entraînés.

Trier

Fr ter Comprend une séquence de jetons échantillonnés selon une distribution de probabilité (inconnue du système), dans le but de générer des jetons par ordre décroissant de fréquence dans la séquence 🎜#Pour étudier si la mémoire à long terme est efficace utilisés et si le Transformer trie simplement en modélisant les balises les plus récentes, les chercheurs ont conçu la distribution de probabilité des balises pour qu'elle change au fil du temps.

Il y a 20 jetons dans le vocabulaire. Des expériences ont été menées avec des séquences de longueurs de 4 000, 8 000 et 16 000 respectivement et un transformateur compressif a été utilisé comme modèle de base. pour comparaison.

Les résultats expérimentaux montrent que dans le cas d'une longueur de séquence courte (4 000), le Transformer-XL atteint une précision légèrement supérieure à celle des autres modèles, mais lorsque la longueur de la séquence augmente, sa précision diminue également rapidement. mais pour ∞-ancien, cette diminution n’est pas évidente, ce qui indique qu’elle présente plus d’avantages lors de la modélisation de longues séquences.

Modélisation du langage

#🎜 🎜 # Pour comprendre si la mémoire à long terme peut être utilisée pour mettre à l'échelle des modèles de langage pré-entraînés, les chercheurs ont affiné GPT-2 sur un sous-ensemble de Wikitext103 et PG-19, comprenant environ 200 millions de jetons.

5 millions de monstres symboliques, lisez lintégralité de Harry Potter dun seul coup ! Plus de 1000 fois plus long que ChatGPT

Les résultats expérimentaux montrent que ∞-former peut réduire Wikitext- 103 et PG19, et le premier ∞ permet d'obtenir de plus grandes améliorations sur l'ensemble de données PG19 car les livres s'appuient davantage sur la mémoire à long terme que les articles Wikipédia. # 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 # Conversation basée sur Doc # 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 #Dans la génération de dialogue basée sur des documents, en plus de l'historique du dialogue, le modèle peut également obtenir des documents sur le sujet de la conversation.

Dans l'ensemble de données CMU Document Grounded Conversation (CMU-DoG), la conversation porte sur le film, et un résumé du film est donné comme document à l'appui ; que la conversation contient plusieurs discours continus différents, les documents auxiliaires sont divisés en plusieurs parties. Pour évaluer l’utilité de la mémoire à long terme, les chercheurs n’ont donné accès au fichier au modèle qu’avant le début de la conversation, ce qui a rendu la tâche plus difficile. Après avoir affiné GPT-2 small, afin de permettre au modèle de garder l'intégralité du document en mémoire, un LTM continu avec N=512 fonctions de base (∞ - ancien) étend GPT-2.

Afin d'évaluer l'effet de modèle, les indicateurs de perplexité, de score F1, Rouge-1 et Rouge-L, et Meteor sont utilisés.

À partir des résultats, le ∞-former et le Transformer compressif peuvent générer plus de For bon corpus, même si la perplexité des deux est fondamentalement la même, ∞-former obtient de meilleurs scores sur d’autres indicateurs.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Où trouver la courte de la grue à atomide atomique
1 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Quelle méthode est utilisée pour convertir les chaînes en objets dans vue.js? Quelle méthode est utilisée pour convertir les chaînes en objets dans vue.js? Apr 07, 2025 pm 09:39 PM

Lors de la conversion des chaînes en objets dans vue.js, JSON.Parse () est préféré pour les chaînes JSON standard. Pour les chaînes JSON non standard, la chaîne peut être traitée en utilisant des expressions régulières et réduisez les méthodes en fonction du format ou du codé décodé par URL. Sélectionnez la méthode appropriée en fonction du format de chaîne et faites attention aux problèmes de sécurité et d'encodage pour éviter les bogues.

Les ingénieurs de backend senior à distance (plates-formes) ont besoin de cercles Les ingénieurs de backend senior à distance (plates-formes) ont besoin de cercles Apr 08, 2025 pm 12:27 PM

Ingénieur backend à distance Emploi Vacant Société: Emplacement du cercle: Bureau à distance Type d'emploi: Salaire à temps plein: 130 000 $ - 140 000 $ Description du poste Participez à la recherche et au développement des applications mobiles Circle et des fonctionnalités publiques liées à l'API couvrant l'intégralité du cycle de vie de développement logiciel. Les principales responsabilités complètent indépendamment les travaux de développement basés sur RubyOnRails et collaborent avec l'équipe frontale React / Redux / Relay. Créez les fonctionnalités de base et les améliorations des applications Web et travaillez en étroite collaboration avec les concepteurs et le leadership tout au long du processus de conception fonctionnelle. Promouvoir les processus de développement positifs et hiérarchiser la vitesse d'itération. Nécessite plus de 6 ans de backend d'applications Web complexe

Comment optimiser les performances de la base de données après l'installation de MySQL Comment optimiser les performances de la base de données après l'installation de MySQL Apr 08, 2025 am 11:36 AM

L'optimisation des performances MySQL doit commencer à partir de trois aspects: configuration d'installation, indexation et optimisation des requêtes, surveillance et réglage. 1. Après l'installation, vous devez ajuster le fichier my.cnf en fonction de la configuration du serveur, tel que le paramètre innodb_buffer_pool_size, et fermer query_cache_size; 2. Créez un index approprié pour éviter les index excessifs et optimiser les instructions de requête, telles que l'utilisation de la commande Explication pour analyser le plan d'exécution; 3. Utilisez le propre outil de surveillance de MySQL (ShowProcessList, Showstatus) pour surveiller la santé de la base de données, et sauvegarde régulièrement et organisez la base de données. Ce n'est qu'en optimisant en continu ces étapes que les performances de la base de données MySQL peuvent être améliorées.

Comment utiliser MySQL après l'installation Comment utiliser MySQL après l'installation Apr 08, 2025 am 11:48 AM

L'article présente le fonctionnement de la base de données MySQL. Tout d'abord, vous devez installer un client MySQL, tel que MySQLWorkBench ou le client de ligne de commande. 1. Utilisez la commande MySQL-UROot-P pour vous connecter au serveur et connecter avec le mot de passe du compte racine; 2. Utilisez Createdatabase pour créer une base de données et utilisez Sélectionner une base de données; 3. Utilisez CreateTable pour créer une table, définissez des champs et des types de données; 4. Utilisez InsertInto pour insérer des données, remettre en question les données, mettre à jour les données par mise à jour et supprimer les données par Supprimer. Ce n'est qu'en maîtrisant ces étapes, en apprenant à faire face à des problèmes courants et à l'optimisation des performances de la base de données que vous pouvez utiliser efficacement MySQL.

Géospatial de Laravel: optimisation des cartes interactives et de grandes quantités de données Géospatial de Laravel: optimisation des cartes interactives et de grandes quantités de données Apr 08, 2025 pm 12:24 PM

Traiter efficacement 7 millions d'enregistrements et créer des cartes interactives avec la technologie géospatiale. Cet article explore comment traiter efficacement plus de 7 millions d'enregistrements en utilisant Laravel et MySQL et les convertir en visualisations de cartes interactives. Exigences initiales du projet de défi: extraire des informations précieuses en utilisant 7 millions d'enregistrements dans la base de données MySQL. Beaucoup de gens considèrent d'abord les langages de programmation, mais ignorent la base de données elle-même: peut-il répondre aux besoins? La migration des données ou l'ajustement structurel est-il requis? MySQL peut-il résister à une charge de données aussi importante? Analyse préliminaire: les filtres et les propriétés clés doivent être identifiés. Après analyse, il a été constaté que seuls quelques attributs étaient liés à la solution. Nous avons vérifié la faisabilité du filtre et établi certaines restrictions pour optimiser la recherche. Recherche de cartes basée sur la ville

Comment résoudre MySQL ne peut pas être démarré Comment résoudre MySQL ne peut pas être démarré Apr 08, 2025 pm 02:21 PM

Il existe de nombreuses raisons pour lesquelles la startup MySQL échoue, et elle peut être diagnostiquée en vérifiant le journal des erreurs. Les causes courantes incluent les conflits de port (vérifier l'occupation du port et la configuration de modification), les problèmes d'autorisation (vérifier le service exécutant les autorisations des utilisateurs), les erreurs de fichier de configuration (vérifier les paramètres des paramètres), la corruption du répertoire de données (restaurer les données ou reconstruire l'espace de la table), les problèmes d'espace de la table InNODB (vérifier les fichiers IBDATA1), la défaillance du chargement du plug-in (vérification du journal des erreurs). Lors de la résolution de problèmes, vous devez les analyser en fonction du journal d'erreur, trouver la cause profonde du problème et développer l'habitude de sauvegarder régulièrement les données pour prévenir et résoudre des problèmes.

Vue.js Comment convertir un tableau de type de chaîne en un tableau d'objets? Vue.js Comment convertir un tableau de type de chaîne en un tableau d'objets? Apr 07, 2025 pm 09:36 PM

Résumé: Il existe les méthodes suivantes pour convertir les tableaux de chaîne Vue.js en tableaux d'objets: Méthode de base: utilisez la fonction de carte pour convenir à des données formatées régulières. Gameplay avancé: l'utilisation d'expressions régulières peut gérer des formats complexes, mais ils doivent être soigneusement écrits et considérés. Optimisation des performances: Considérant la grande quantité de données, des opérations asynchrones ou des bibliothèques efficaces de traitement des données peuvent être utilisées. MEILLEUR PRATIQUE: Effacer le style de code, utilisez des noms de variables significatifs et des commentaires pour garder le code concis.

La clé principale de MySQL peut être nul La clé principale de MySQL peut être nul Apr 08, 2025 pm 03:03 PM

La clé primaire MySQL ne peut pas être vide car la clé principale est un attribut de clé qui identifie de manière unique chaque ligne dans la base de données. Si la clé primaire peut être vide, l'enregistrement ne peut pas être identifié de manière unique, ce qui entraînera une confusion des données. Lorsque vous utilisez des colonnes entières ou des UUIdes auto-incrémentales comme clés principales, vous devez considérer des facteurs tels que l'efficacité et l'occupation de l'espace et choisir une solution appropriée.

See all articles