Maison > Périphériques technologiques > IA > le corps du texte

Yuanxiang XVERSE-65B : le plus grand modèle open source de Chine est arrivé, avec des performances élevées et une utilisation commerciale gratuite et inconditionnelle

PHPz
Libérer: 2023-11-06 15:33:20
avant
1106 Les gens l'ont consulté

Un certain nombre de grands modèles avec 7 à 13 milliards de paramètres ont déjà été open source en Chine, et les résultats de la mise en œuvre ont émergé, et l'écosystème open source a été initialement établi. À mesure que la complexité et le volume de données des tâches telles que celles des agents augmentent, la demande de l'industrie et de la communauté pour des modèles plus grands devient de plus en plus urgente.

La recherche montre que plus le nombre de paramètres est élevé et plus les données d'entraînement sont de haute qualité, plus les performances des grands modèles peuvent être continuellement améliorées. Le consensus général dans l'industrie est que ce n'est que lorsque le seuil de paramètres de 50 à 60 milliards est atteint que les grands modèles peuvent « émerger intelligemment » et démontrer de puissantes performances en multitâche. Cependant, la formation d’un modèle de cette ampleur est coûteuse et nécessite des compétences techniques élevées. Actuellement, elle est principalement proposée sous forme de modèle payant et fermé. Dans l'écosystème open source étranger, les modèles de référence tels que Llama2-70B et Falcon-180B sont conditionnellement open source, avec des limites commerciales supérieures sur les utilisateurs actifs mensuels ou les revenus, et présentent des lacunes évidentes dans les capacités en langue chinoise en raison du manque de données de formation. . En outre, l'interdiction des puces IA récemment promulguée aux États-Unis pourrait restreindre davantage la vitesse de développement de la grande industrie chinoise du modélisme. L'industrie réclame de toute urgence un modèle national à grande échelle et hautes performances pour combler le fossé écologique et fournir des capacités de compréhension, de raisonnement et de génération de textes longs plus puissantes pour les applications chinoises. Dans ce contexte, la société Yuanxiang XVERSE a annoncé

open source le grand modèle universel XVERSE-65B hautes performances de 65 milliards de paramètres

, et une utilisation commerciale inconditionnellement gratuite, ce qui est la première fois dans l'industrie. De plus, le modèle 13B a ​​été entièrement mis à niveau pour augmenter la limite supérieure des capacités des petits modèles. Cela permettra à un grand nombre de petites et moyennes entreprises, de chercheurs et de développeurs d'IA de prendre conscience plus tôt de la liberté des grands modèles. Ils pourront librement utiliser, modifier ou distiller les grands modèles Yuanxiang en fonction de leur puissance de calcul, de leurs contraintes de ressources et des exigences spécifiques des tâches. , favorisant les percées dans la recherche et l’innovation.

Adresse du modèle : https://huggingface.co/xverse/XVERSE-65B

Yuanxiang, a développé plusieurs modèles 7B et 13B hautes performances en trois mois et a présenté pour la première fois un modèle 65B prometteur à la communauté. temps, créant une triple valeur pour la recherche, les affaires et l'écologie. "
Yuanxiang XVERSE-65B : le plus grand modèle open source de Chine est arrivé, avec des performances élevées et une utilisation commerciale gratuite et inconditionnellePlus précisément, le modèle 65B peut avoir les avantages suivants. Impact :

En termes de recherche et de développement, le 65B constituera un "grand levier" pour les nouvelles technologies. , de nouveaux outils, l'optimisation des performances et la sécurité des modèles, permettant à la communauté d'accumuler rapidement de l'expérience, et contribuant également à promouvoir l'objectif à long terme d'indépendance et de contrôlabilité scientifique et technologique nationale.

    Sur le plan commercial, un grand nombre de petites et moyennes entreprises peuvent utiliser des « gros outils » à un coût nul, qui peuvent dépasser les limites et promouvoir une innovation significative dans les applications. Yuanxiang fournit également des informations sur les cas d'utilisation, les déploiements de modèles de sécurité et les opportunités potentielles.
  • Dans l'écosystème des développeurs, la communauté peut faire jouer pleinement les avantages de la synergie organisationnelle et favoriser « l'explosion cambrienne » des applications R&D.
                                                    Le modèle de base VERSE-65B est formé à partir de zéro sur des données de haute qualité de 2,6 billions de jetons. la fenêtre contextuelle est étendue à 16 Ko et prend en charge plus de 40 langues, dont le chinois, l'anglais, russe et français.
Yuanxiang XVERSE-65B : le plus grand modèle open source de Chine est arrivé, avec des performances élevées et une utilisation commerciale gratuite et inconditionnelleYuanxiang adhère à un positionnement performant et a considérablement amélioré les capacités du 65B sous trois aspects :

Capacités de base telles que la compréhension, la génération, le raisonnement et la mémoire, jusqu'à la diversité, la créativité et la précision du modèle, d'excellent à puissant

Élargissement des capacités d'appel d'outils, d'explication de code, de réflexion et de correction, etc., établissant une base technique pour la construction d'agents intelligents et améliorant l'aspect pratique du modèle

Atténuant considérablement les problèmes d'hallucinations courants et potentiellement graves ; en 7B et 13B, réduction de l'illusion des grands modèles, augmentation de la précision et du professionnalisme.

    Les grandes séries de modèles Yuanxiang sont toutes auto-développées tout au long de la chaîne, couvrant un certain nombre de technologies clés et d'innovations R&D :
  • 1. Conception de systèmes distribués complexes : apprenez de la recherche et du développement de l'équipe sur Tencent Go AI » Art exquis", King of Glory AI "Excellent Art" Avec une riche expérience dans les grands systèmes tels que "Wu", nous avons des technologies clés auto-développées telles que des opérateurs efficaces, l'optimisation de la mémoire, les stratégies de planification parallèle, le chevauchement données-informatique-communication, et une collaboration entre plate-forme et cadre pour créer un système de formation efficace et stable. Le taux d'utilisation de l'énergie a atteint 58,5 %, se classant parmi les meilleurs du secteur.

  • 2. Améliorer complètement les performances : FlashAttention2 est utilisé pour accélérer les calculs dans la formation 65B, et la technologie de pipeline virtuel est utilisée sur la base du parallélisme 3D pour réduire le taux de bulles excessif généré par les longs pipelines et améliorer progressivement l'efficacité du raisonnement informatique ; augmenté de 8K La mise à niveau vers 16K lui permet non seulement d'accomplir avec succès des tâches complexes, notamment la compréhension de textes longs, la génération de textes longs et les dialogues ultra-longs, mais étend également les capacités d'appel d'outils, d'interprétation de code et de réflexion et de correction, lui permettant de mieux construire agents intelligents (agents IA).
  • 3. Améliorer considérablement la stabilité de la formation : en raison de l'énorme quantité de calculs, la congestion des communications, la surchauffe des puces ou les pannes de nœuds de calcul sont devenues la norme pour la formation 65B. Au début, il y avait jusqu'à huit pannes par semaine. Grâce à l'optimisation continue du fonctionnement de l'infrastructure du cluster, de la planification des ressources, du cadre de formation et de la collaboration entre les plateformes de planification, Yuanxiang a créé un système de formation offrant une stabilité élevée, une faible interruption et une forte tolérance aux pannes, augmentant le taux de formation effectif hebdomadaire à 98,6 %.

    De plus, au milieu de la formation du modèle avec près de 1,6 billion de jetons, la fonction de perte a produit des valeurs NaN, ce qui peut entraîner l'interruption de la formation. Normalement, l'industrie supprime généralement les intervalles de données pertinents après analyse. Sur la base de l'expérience, l'équipe a déterminé qu'il s'agissait de l'évolution naturelle du modèle, a choisi de ne pas supprimer les données et a directement ignoré les mises à jour des paramètres pertinents. Enfin, le problème de la valeur NaN a été résolu. Une analyse plus approfondie ultérieure des états intermédiaires tels que les valeurs des paramètres, les valeurs d'activation et les valeurs de gradient a montré que le problème peut être lié à la modification de la valeur maximale de la valeur d'activation du bloc de transformateur dans la dernière couche du modèle, et sera résolu par lui-même à mesure que la valeur maximale diminue progressivement.问题 Résoudre le problème de la valeur NAN Expérience de R&D

    Yuanxiang XVERSE-65B : le plus grand modèle open source de Chine est arrivé, avec des performances élevées et une utilisation commerciale gratuite et inconditionnelle

    L'évaluation complète des performances du 65B est comparable à GPT3.5 Pour garantir que l'industrie puisse avoir une connaissance complète, objective et à long terme des performances du modèle majeur. de l'éléphant. Chercheurs En référence à une série d'évaluations académiques faisant autorité, 11 normes d'évaluation faisant autorité couvrant six dimensions telles que les questions et réponses, la compréhension, les connaissances, le raisonnement, les mathématiques et le codage ont été développées et seront continuellement utilisées et itérées. XVERSE-65B n'a pas de modèle du même niveau en Chine à des fins de comparaison. Dans l'évaluation comparative avec les références étrangères, certains indicateurs ont dépassé et les performances globales étaient comparables à GPT3.5, elles ont largement dépassé les références open source Llama2-70B et ; Falcon-180B est toujours à égalité avec GPT4. Il y a un écart.

                                                          Améliore considérablement la limite supérieure des capacités des petits modèles. Il possède à la fois des arts et des sciences, conservant ses avantages dans les arts libéraux. Les questions et réponses se sont améliorées de 18 %, la science a fait de grands progrès, le codage s'est amélioré de 149 % et les mathématiques se sont améliorées de 198 %. a complètement dépassé les références open source nationales et étrangères telles que Llama2 et Baichuan2. ✨ Les modèles d'éléphants peuvent être recherchés pour "XVERSE" sur Github, Hugging Face, ModelScope et d'autres plateformes "Télécharger

    ,

    Après une simple inscription, vous pouvez l'utiliser gratuitement sans aucune condition. Il peut répondre à la plupart des besoins d'application et d'itération des petites et moyennes entreprises, des instituts de recherche scientifique et des développeurs individuels.

    Yuanxiang fournit également une gamme complète de services techniques tels que la formation de modèles, l'inférence, le déploiement et le réglage fin, permettant à diverses industries telles que le divertissement, la finance et les soins médicaux, et aidant à créer des services de pointe dans de multiples scénarios tels que comme un service client intelligent, une rédaction créative et des recommandations précises. En octobre 2023, Tencent Music a pris l'initiative d'annoncer une coopération stratégique avec Yuanxiang Model, a lancé conjointement le modèle accéléré lyraXVERSE et a complètement mis à niveau son assistant musical « AI Xiaoqin ». À l'avenir, il continuera à explorer l'IA et la découpe 3D. technologies de pointe pour diriger le divertissement musical Direction innovante. Yuanxiang XVERSE-65B : le plus grand modèle open source de Chine est arrivé, avec des performances élevées et une utilisation commerciale gratuite et inconditionnelle
    Yao Xing a déclaré : « L’intelligence perceptuelle (3D) et l’intelligence cognitive (IA) du monde réel sont le seul moyen d’explorer l’

    intelligence artificielle (AGI) générale, et sont également la force motrice qui permet à Yuanxiang de continuer à explorez la technologie de pointe. La série open source XVERSE s'engage à promouvoir la substitution nationale et l'innovation technologique continue des grands modèles, et à donner une forte impulsion au développement de l'économie réelle et de l'économie numérique. Nous sommes impatients de travailler avec les entreprises et les développeurs. pour ouvrir conjointement une nouvelle ère d'applications de grands modèles ! -plate-forme unique pour la production et la consommation de contenu 3D, avec la vision de « définir votre monde ».

    Yuanxiang XVERSE-65B : le plus grand modèle open source de Chine est arrivé, avec des performances élevées et une utilisation commerciale gratuite et inconditionnelle                                                                                                                                                                            Site officiel : www. Yao Xing, le fondateur de Yuanxiang, est l'ancien vice-président de Tencent et fondateur de Tencent AI Lab, et membre du comité consultatif stratégique sur l'intelligence artificielle de nouvelle génération du ministère de la Science et de la Technologie. Dans le domaine de la technologie 3D et IA, Yuanxiang a une accumulation profonde et une mise en page complète. Dans le domaine de la 3D, nous avons développé de manière indépendante la technologie interactive 3D de pointe de « collaboration appareil-cloud », créant une nouvelle expérience 3D (américaine) à seuil zéro (légère), unique (rapide) et de haute qualité ; le domaine de l'IA, open source Chine Le plus grand paramètre peut être utilisé commercialement, le grand modèle XVERSE-65B, qui vise à promouvoir le développement de la substitution nationale et l'application industrielle des grands modèles.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:jiqizhixin.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal