Le grand modèle de la famille des alpaga évolue collectivement ! Le contexte 32k équivaut à GPT-4, produit par l'équipe de Tian Yuandong-IA-php.cn

Table des matières

Tous les grands modèles basés sur RoPE peuvent être utilisés

Maison

Le grand modèle de la famille des alpaga évolue collectivement ! Le contexte 32k équivaut à GPT-4, produit par l'équipe de Tian Yuandong

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 28, 2023 pm 10:06 PM

大模型羊驼家族集体进化

Le contexte LLaMA open source alpaga grand modèle est égal à GPT-4, avec un seul changement simple !

Cet article qui vient d'être soumis par Meta AI montre que moins de 1 000 étapes de réglage fin sont nécessaires une fois la fenêtre contextuelle LLaMA passée de 2 000 à 32 000.

Le coût est négligeable par rapport à la pré-formation.

Le grand modèle de la famille des alpaga évolue collectivement ! Le contexte 32k équivaut à GPT-4, produit par léquipe de Tian Yuandong

L'expansion de la fenêtre contextuelle signifie que la capacité de « mémoire de travail » de l'IA est augmentée. Plus précisément, elle peut :

Supporter davantage de cycles de dialogue et réduire l'oubli, comme un jeu de rôle plus stable
Saisir davantage de Le. les données peuvent effectuer des tâches plus complexes, telles que le traitement de documents plus longs ou de plusieurs documents à la fois

Le plus important est que toutes les grandes familles de modèles d'alpaga basées sur LLaMA peuvent adopter cette méthode à faible coût et évoluer collectivement ?

Alpaca est actuellement le modèle de base open source le plus complet et a dérivé de nombreux grands modèles et modèles industriels verticaux entièrement open source disponibles dans le commerce.

Le grand modèle de la famille des alpaga évolue collectivement ! Le contexte 32k équivaut à GPT-4, produit par léquipe de Tian Yuandong

Tian Yuandong, l'auteur correspondant du journal, a également partagé avec enthousiasme ce nouveau développement dans son cercle d'amis.

Le grand modèle de la famille des alpaga évolue collectivement ! Le contexte 32k équivaut à GPT-4, produit par léquipe de Tian Yuandong

Tous les grands modèles basés sur RoPE peuvent être utilisés

La nouvelle méthode s'appelle Position Interpolation et convient aux grands modèles utilisant RoPE (codage de position de rotation).

RoPE a été proposé par l'équipe de Zhuiyi Technology dès 2021 et est désormais devenu l'une des méthodes de codage de position les plus courantes pour les grands modèles.

Le grand modèle de la famille des alpaga évolue collectivement ! Le contexte 32k équivaut à GPT-4, produit par léquipe de Tian Yuandong

Mais utiliser directement l'extrapolation pour étendre la fenêtre contextuelle sous cette architecture détruira complètement le mécanisme d'auto-attention.

Plus précisément, la partie au-delà de la longueur du contexte pré-entraîné fera monter la perplexité du modèle au même niveau qu'un modèle non entraîné.

La nouvelle méthode est modifiée pour réduire linéairement l'indice de position et élargir l'alignement de la plage de l'indice de position avant et arrière et la distance relative.

Le grand modèle de la famille des alpaga évolue collectivement ! Le contexte 32k équivaut à GPT-4, produit par léquipe de Tian Yuandong

Il est plus intuitif d'utiliser des images pour exprimer la différence entre les deux.

Le grand modèle de la famille des alpaga évolue collectivement ! Le contexte 32k équivaut à GPT-4, produit par léquipe de Tian Yuandong

Les résultats expérimentaux montrent que la nouvelle méthode est efficace pour les grands modèles LLaMA du 7B au 65B.

Il n'y a pas de dégradation significative des performances dans la modélisation de langage à séquence longue, la récupération de clé d'accès et la synthèse de documents longs.

Le grand modèle de la famille des alpaga évolue collectivement ! Le contexte 32k équivaut à GPT-4, produit par léquipe de Tian Yuandong

En plus des expériences, une preuve détaillée de la nouvelle méthode est également donnée en annexe de l'article.

Le grand modèle de la famille des alpaga évolue collectivement ! Le contexte 32k équivaut à GPT-4, produit par léquipe de Tian Yuandong

Trois choses de plus

La fenêtre contextuelle constituait autrefois un écart important entre les grands modèles open source et les grands modèles commerciaux.

Par exemple, GPT-3.5 d'OpenAI prend en charge jusqu'à 16 000, GPT-4 prend en charge 32 000 et Claude d'AnthropicAI prend en charge jusqu'à 100 000.

Dans le même temps, de nombreux grands modèles open source tels que LLaMA et Falcon sont toujours bloqués à 2k.

Maintenant, les nouveaux résultats de Meta AI ont directement comblé cet écart.

L'expansion de la fenêtre contextuelle est également l'un des objectifs des recherches récentes sur les grands modèles. En plus des méthodes d'interpolation de position, il existe de nombreuses tentatives pour attirer l'attention de l'industrie.

1. Le développeur kaiokendev a exploré une méthode pour étendre la fenêtre contextuelle de LLaMa à 8k dans un blog technique.

Le grand modèle de la famille des alpaga évolue collectivement ! Le contexte 32k équivaut à GPT-4, produit par léquipe de Tian Yuandong

2. Galina Alperovich, responsable de l'apprentissage automatique chez la société de sécurité des données Soveren, a résumé 6 conseils pour élargir la fenêtre contextuelle dans un article.

Le grand modèle de la famille des alpaga évolue collectivement ! Le contexte 32k équivaut à GPT-4, produit par léquipe de Tian Yuandong

3. Des équipes de Mila, IBM et d'autres institutions ont également tenté de supprimer complètement le codage positionnel dans Transformer dans un article.伴 Si vous en avez besoin, vous pouvez cliquer sur le lien ci-dessous pour voir ~

Méta-thèse : Le grand modèle de la famille des alpaga évolue collectivement ! Le contexte 32k équivaut à GPT-4, produit par léquipe de Tian Yuandong Https://www.php.cn/link/0BDF2C1F05365071F0C725D754B96

Exting Context is Hard ... but not impossible

ht TPS:/ /www.php.cn/link/9659078925b57e621eb3f9ef19773ac3

La sauce secrète derrière la fenêtre contextuelle 100K dans les LLM

https://www.php.cn/link/09a630e07af043e4cae879dd60db1cac

Aucun Papier de codage de position

https:/ /www.php.cn/link/fb6c84779f12283a81d739d8f088fc12

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Commandes de chat et comment les utiliser

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7540

Tutoriel CakePHP

1381

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

L'application de grands modèles Tencent Yuanbao est en ligne ! Hunyuan est mis à niveau pour créer un assistant IA complet pouvant être transporté n'importe où Jun 09, 2024 pm 10:38 PM

Le 30 mai, Tencent a annoncé une mise à niveau complète de son modèle Hunyuan. L'application « Tencent Yuanbao » basée sur le modèle Hunyuan a été officiellement lancée et peut être téléchargée sur les magasins d'applications Apple et Android. Par rapport à la version de l'applet Hunyuan lors de la phase de test précédente, Tencent Yuanbao fournit des fonctionnalités de base telles que la recherche IA, le résumé IA et l'écriture IA pour les scénarios d'efficacité du travail ; pour les scénarios de la vie quotidienne, le gameplay de Yuanbao est également plus riche et fournit de multiples fonctionnalités d'application IA. , et de nouvelles méthodes de jeu telles que la création d'agents personnels sont ajoutées. « Tencent ne s'efforcera pas d'être le premier à créer un grand modèle. » Liu Yuhong, vice-président de Tencent Cloud et responsable du grand modèle Tencent Hunyuan, a déclaré : « Au cours de l'année écoulée, nous avons continué à promouvoir les capacités de Tencent. Grand modèle Tencent Hunyuan. Dans la technologie polonaise riche et massive dans des scénarios commerciaux tout en obtenant un aperçu des besoins réels des utilisateurs.

Lancement du grand modèle Bytedance Beanbao, le service d'IA complet Volcano Engine aide les entreprises à se transformer intelligemment Jun 05, 2024 pm 07:59 PM

Tan Dai, président de Volcano Engine, a déclaré que les entreprises qui souhaitent bien mettre en œuvre de grands modèles sont confrontées à trois défis clés : l'effet de modèle, le coût d'inférence et la difficulté de mise en œuvre : elles doivent disposer d'un bon support de base de grands modèles pour résoudre des problèmes complexes, et elles doivent également avoir une inférence à faible coût. Les services permettent d'utiliser largement de grands modèles, et davantage d'outils, de plates-formes et d'applications sont nécessaires pour aider les entreprises à mettre en œuvre des scénarios. ——Tan Dai, président de Huoshan Engine 01. Le grand modèle de pouf fait ses débuts et est largement utilisé. Le polissage de l'effet de modèle est le défi le plus critique pour la mise en œuvre de l'IA. Tan Dai a souligné que ce n'est que grâce à une utilisation intensive qu'un bon modèle peut être poli. Actuellement, le modèle Doubao traite 120 milliards de jetons de texte et génère 30 millions d'images chaque jour. Afin d'aider les entreprises à mettre en œuvre des scénarios de modèles à grande échelle, le modèle à grande échelle beanbao développé indépendamment par ByteDance sera lancé à travers le volcan.

Grâce à la technologie Shengteng AI, le modèle de transport Qinling·Qinchuan aide Xi'an à construire un centre d'innovation en matière de transport intelligent Oct 15, 2023 am 08:17 AM

« Une complexité élevée, une fragmentation élevée et des domaines interdomaines » ont toujours été les principaux problèmes sur la voie de la mise à niveau numérique et intelligente du secteur des transports. Récemment, le « modèle de trafic Qinling·Qinchuan » avec une échelle de paramètres de 100 milliards, construit conjointement par China Science Vision, le gouvernement du district de Xi'an Yanta et le centre informatique d'intelligence artificielle du futur de Xi'an, est orienté vers le domaine des transports intelligents. et fournit des services à Xi'an et ses environs. La région créera un pivot pour l'innovation en matière de transport intelligent. Le « modèle de trafic Qinling·Qinchuan » combine les données écologiques massives du trafic local de Xi'an dans des scénarios ouverts, l'algorithme avancé original développé indépendamment par China Science Vision et la puissante puissance de calcul de l'IA Shengteng du futur centre informatique d'intelligence artificielle de Xi'an pour fournir la surveillance du réseau routier, les scénarios de transport intelligents tels que la commande d'urgence, la gestion de la maintenance et les déplacements publics entraînent des changements numériques et intelligents. La gestion du trafic présente des caractéristiques différentes selon les villes, et le trafic sur différentes routes

Découverte du framework d'inférence de grands modèles NVIDIA : TensorRT-LLM Feb 01, 2024 pm 05:24 PM

1. Positionnement du produit TensorRT-LLM TensorRT-LLM est une solution d'inférence évolutive développée par NVIDIA pour les grands modèles de langage (LLM). Il crée, compile et exécute des graphiques de calcul basés sur le cadre de compilation d'apprentissage en profondeur TensorRT et s'appuie sur l'implémentation efficace des noyaux dans FastTransformer. De plus, il utilise NCCL pour la communication entre les appareils. Les développeurs peuvent personnaliser les opérateurs pour répondre à des besoins spécifiques en fonction du développement technologique et des différences de demande, comme le développement de GEMM personnalisés basés sur le coutelas. TensorRT-LLM est la solution d'inférence officielle de NVIDIA, engagée à fournir des performances élevées et à améliorer continuellement sa praticité. TensorRT-LL

Référence GPT-4 ! Le grand modèle Jiutian de China Mobile a passé le double enregistrement Apr 04, 2024 am 09:31 AM

Selon des informations du 4 avril, l'Administration du cyberespace de Chine a récemment publié une liste de grands modèles enregistrés, et le « Grand modèle d'interaction du langage naturel Jiutian » de China Mobile y a été inclus, indiquant que le grand modèle Jiutian AI de China Mobile peut officiellement fournir des informations artificielles génératives. services de renseignement vers le monde extérieur. China Mobile a déclaré qu'il s'agit du premier modèle à grande échelle développé par une entreprise centrale à avoir réussi à la fois le double enregistrement national « Enregistrement du service d'intelligence artificielle générative » et le double enregistrement « Enregistrement de l'algorithme de service de synthèse profonde domestique ». Selon les rapports, le grand modèle d'interaction en langage naturel de Jiutian présente les caractéristiques de capacités, de sécurité et de crédibilité améliorées de l'industrie, et prend en charge la localisation complète. Il a formé plusieurs versions de paramètres telles que 9 milliards, 13,9 milliards, 57 milliards et 100 milliards. et peut être déployé de manière flexible dans le Cloud, la périphérie et la fin sont des situations différentes

Pratique avancée du graphe de connaissances industrielles Jun 13, 2024 am 11:59 AM

1. Introduction au contexte Tout d’abord, présentons l’historique du développement de la technologie Yunwen. Yunwen Technology Company... 2023 est la période où les grands modèles prédominent. De nombreuses entreprises pensent que l'importance des graphiques a été considérablement réduite après les grands modèles et que les systèmes d'information prédéfinis étudiés précédemment ne sont plus importants. Cependant, avec la promotion du RAG et la prévalence de la gouvernance des données, nous avons constaté qu'une gouvernance des données plus efficace et des données de haute qualité sont des conditions préalables importantes pour améliorer l'efficacité des grands modèles privatisés. Par conséquent, de plus en plus d'entreprises commencent à y prêter attention. au contenu lié à la construction des connaissances. Cela favorise également la construction et le traitement des connaissances à un niveau supérieur, où de nombreuses techniques et méthodes peuvent être explorées. On voit que l'émergence d'une nouvelle technologie ne détruit pas toutes les anciennes technologies, mais peut également intégrer des technologies nouvelles et anciennes.

Nouveau benchmark de test publié, le Llama 3 open source le plus puissant est gêné Apr 23, 2024 pm 12:13 PM

Si les questions du test sont trop simples, les meilleurs étudiants et les mauvais étudiants peuvent obtenir 90 points, et l'écart ne peut pas être creusé... Avec la sortie plus tard de modèles plus puissants tels que Claude3, Llama3 et même GPT-5, l'industrie est en besoin urgent d'un modèle de référence plus difficile et différencié. LMSYS, l'organisation à l'origine du grand modèle Arena, a lancé la référence de nouvelle génération, Arena-Hard, qui a attiré une large attention. Il existe également la dernière référence pour la force des deux versions affinées des instructions Llama3. Par rapport à MTBench, qui avait des scores similaires auparavant, la discrimination Arena-Hard est passée de 22,6 % à 87,4 %, ce qui est plus fort et plus faible en un coup d'œil. Arena-Hard est construit à partir de données humaines en temps réel provenant de l'arène et a un taux de cohérence de 89,1 % avec les préférences humaines.

Xiaomi Byte unit ses forces ! Un grand modèle de l'accès de Xiao Ai à Doubao : déjà installé sur les téléphones mobiles et SU7 Jun 13, 2024 pm 05:11 PM

Selon les informations du 13 juin, selon le compte public « Volcano Engine » de Byte, l'assistant d'intelligence artificielle de Xiaomi « Xiao Ai » a conclu une coopération avec Volcano Engine. Les deux parties réaliseront une expérience interactive d'IA plus intelligente basée sur le grand modèle beanbao. . Il est rapporté que le modèle beanbao à grande échelle créé par ByteDance peut traiter efficacement jusqu'à 120 milliards de jetons de texte et générer 30 millions de contenus chaque jour. Xiaomi a utilisé le grand modèle Doubao pour améliorer les capacités d'apprentissage et de raisonnement de son propre modèle et créer un nouveau « Xiao Ai Classmate », qui non seulement saisit plus précisément les besoins des utilisateurs, mais offre également une vitesse de réponse plus rapide et des services de contenu plus complets. Par exemple, lorsqu'un utilisateur pose une question sur un concept scientifique complexe, &ldq

See all articles