Yuanxiang XVERSE-65B : le plus grand modèle open source de Chine est arrivé, avec des performances élevées et une utilisation commerciale gratuite et inconditionnelle-IA-php.cn

Maison

Yuanxiang XVERSE-65B : le plus grand modèle open source de Chine est arrivé, avec des performances élevées et une utilisation commerciale gratuite et inconditionnelle

PHPz

Nov 06, 2023 pm 03:33 PM

产业 xverse-65b Yuanxiang xverse

Un certain nombre de grands modèles avec 7 à 13 milliards de paramètres ont déjà été open source en Chine, et les résultats de la mise en œuvre ont émergé, et l'écosystème open source a été initialement établi. À mesure que la complexité et le volume de données des tâches telles que celles des agents augmentent, la demande de l'industrie et de la communauté pour des modèles plus grands devient de plus en plus urgente.

La recherche montre que plus le nombre de paramètres est élevé et plus les données d'entraînement sont de haute qualité, plus les performances des grands modèles peuvent être continuellement améliorées. Le consensus général dans l'industrie est que ce n'est que lorsque le seuil de paramètres de 50 à 60 milliards est atteint que les grands modèles peuvent « émerger intelligemment » et démontrer de puissantes performances en multitâche. Cependant, la formation d’un modèle de cette ampleur est coûteuse et nécessite des compétences techniques élevées. Actuellement, elle est principalement proposée sous forme de modèle payant et fermé. Dans l'écosystème open source étranger, les modèles de référence tels que Llama2-70B et Falcon-180B sont conditionnellement open source, avec des limites commerciales supérieures sur les utilisateurs actifs mensuels ou les revenus, et présentent des lacunes évidentes dans les capacités en langue chinoise en raison du manque de données de formation. . En outre, l'interdiction des puces IA récemment promulguée aux États-Unis pourrait restreindre davantage la vitesse de développement de la grande industrie chinoise du modélisme. L'industrie réclame de toute urgence un modèle national à grande échelle et hautes performances pour combler le fossé écologique et fournir des capacités de compréhension, de raisonnement et de génération de textes longs plus puissantes pour les applications chinoises. Dans ce contexte, la société Yuanxiang XVERSE a annoncé

open source le grand modèle universel XVERSE-65B hautes performances de 65 milliards de paramètres

, et une utilisation commerciale inconditionnellement gratuite, ce qui est la première fois dans l'industrie. De plus, le modèle 13B a été entièrement mis à niveau pour augmenter la limite supérieure des capacités des petits modèles. Cela permettra à un grand nombre de petites et moyennes entreprises, de chercheurs et de développeurs d'IA de prendre conscience plus tôt de la liberté des grands modèles. Ils pourront librement utiliser, modifier ou distiller les grands modèles Yuanxiang en fonction de leur puissance de calcul, de leurs contraintes de ressources et des exigences spécifiques des tâches. , favorisant les percées dans la recherche et l’innovation.

Adresse du modèle : https://huggingface.co/xverse/XVERSE-65B

Yuanxiang, a développé plusieurs modèles 7B et 13B hautes performances en trois mois et a présenté pour la première fois un modèle 65B prometteur à la communauté. temps, créant une triple valeur pour la recherche, les affaires et l'écologie. "

Yuanxiang XVERSE-65B : le plus grand modèle open source de Chine est arrivé, avec des performances élevées et une utilisation commerciale gratuite et inconditionnelle

Plus précisément, le modèle 65B peut avoir les avantages suivants. Impact :

En termes de recherche et de développement, le 65B constituera un "grand levier" pour les nouvelles technologies. , de nouveaux outils, l'optimisation des performances et la sécurité des modèles, permettant à la communauté d'accumuler rapidement de l'expérience, et contribuant également à promouvoir l'objectif à long terme d'indépendance et de contrôlabilité scientifique et technologique nationale.

Le modèle de base VERSE-65B est formé à partir de zéro sur des données de haute qualité de 2,6 billions de jetons. la fenêtre contextuelle est étendue à 16 Ko et prend en charge plus de 40 langues, dont le chinois, l'anglais, russe et français.

Yuanxiang adhère à un positionnement performant et a considérablement amélioré les capacités du 65B sous trois aspects :

^{Capacités de base telles que la compréhension, la génération, le raisonnement et la mémoire, jusqu'à la diversité, la créativité et la précision du modèle, d'excellent à puissant}

Élargissement des capacités d'appel d'outils, d'explication de code, de réflexion et de correction, etc., établissant une base technique pour la construction d'agents intelligents et améliorant l'aspect pratique du modèle

Atténuant considérablement les problèmes d'hallucinations courants et potentiellement graves ; en 7B et 13B, réduction de l'illusion des grands modèles, augmentation de la précision et du professionnalisme.

1. Conception de systèmes distribués complexes : apprenez de la recherche et du développement de l'équipe sur Tencent Go AI » Art exquis", King of Glory AI "Excellent Art" Avec une riche expérience dans les grands systèmes tels que "Wu", nous avons des technologies clés auto-développées telles que des opérateurs efficaces, l'optimisation de la mémoire, les stratégies de planification parallèle, le chevauchement données-informatique-communication, et une collaboration entre plate-forme et cadre pour créer un système de formation efficace et stable. Le taux d'utilisation de l'énergie a atteint 58,5 %, se classant parmi les meilleurs du secteur.
3. Améliorer considérablement la stabilité de la formation : en raison de l'énorme quantité de calculs, la congestion des communications, la surchauffe des puces ou les pannes de nœuds de calcul sont devenues la norme pour la formation 65B. Au début, il y avait jusqu'à huit pannes par semaine. Grâce à l'optimisation continue du fonctionnement de l'infrastructure du cluster, de la planification des ressources, du cadre de formation et de la collaboration entre les plateformes de planification, Yuanxiang a créé un système de formation offrant une stabilité élevée, une faible interruption et une forte tolérance aux pannes, augmentant le taux de formation effectif hebdomadaire à 98,6 %.

De plus, au milieu de la formation du modèle avec près de 1,6 billion de jetons, la fonction de perte a produit des valeurs NaN, ce qui peut entraîner l'interruption de la formation. Normalement, l'industrie supprime généralement les intervalles de données pertinents après analyse. Sur la base de l'expérience, l'équipe a déterminé qu'il s'agissait de l'évolution naturelle du modèle, a choisi de ne pas supprimer les données et a directement ignoré les mises à jour des paramètres pertinents. Enfin, le problème de la valeur NaN a été résolu. Une analyse plus approfondie ultérieure des états intermédiaires tels que les valeurs des paramètres, les valeurs d'activation et les valeurs de gradient a montré que le problème peut être lié à la modification de la valeur maximale de la valeur d'activation du bloc de transformateur dans la dernière couche du modèle, et sera résolu par lui-même à mesure que la valeur maximale diminue progressivement.问题 Résoudre le problème de la valeur NAN Expérience de R&D

L'évaluation complète des performances du 65B est comparable à GPT3.5 Pour garantir que l'industrie puisse avoir une connaissance complète, objective et à long terme des performances du modèle majeur. de l'éléphant. Chercheurs En référence à une série d'évaluations académiques faisant autorité, 11 normes d'évaluation faisant autorité couvrant six dimensions telles que les questions et réponses, la compréhension, les connaissances, le raisonnement, les mathématiques et le codage ont été développées et seront continuellement utilisées et itérées. ^{XVERSE-65B n'a pas de modèle du même niveau en Chine à des fins de comparaison. Dans l'évaluation comparative avec les références étrangères, certains indicateurs ont dépassé et les performances globales étaient comparables à GPT3.5, elles ont largement dépassé les références open source Llama2-70B et ; Falcon-180B est toujours à égalité avec GPT4. Il y a un écart.}

Améliore considérablement la limite supérieure des capacités des petits modèles. Il possède à la fois des arts et des sciences, conservant ses avantages dans les arts libéraux. Les questions et réponses se sont améliorées de 18 %, la science a fait de grands progrès, le codage s'est amélioré de 149 % et les mathématiques se sont améliorées de 198 %. a complètement dépassé les références open source nationales et étrangères telles que Llama2 et Baichuan2. ✨ Les modèles d'éléphants peuvent être recherchés pour "XVERSE" sur Github, Hugging Face, ModelScope et d'autres plateformes "Télécharger
,
Après une simple inscription, vous pouvez l'utiliser gratuitement sans aucune condition. Il peut répondre à la plupart des besoins d'application et d'itération des petites et moyennes entreprises, des instituts de recherche scientifique et des développeurs individuels.

Yuanxiang fournit également une gamme complète de services techniques tels que la formation de modèles, l'inférence, le déploiement et le réglage fin, permettant à diverses industries telles que le divertissement, la finance et les soins médicaux, et aidant à créer des services de pointe dans de multiples scénarios tels que comme un service client intelligent, une rédaction créative et des recommandations précises. En octobre 2023, Tencent Music a pris l'initiative d'annoncer une coopération stratégique avec Yuanxiang Model, a lancé conjointement le modèle accéléré lyraXVERSE et a complètement mis à niveau son assistant musical « AI Xiaoqin ». À l'avenir, il continuera à explorer l'IA et la découpe 3D. technologies de pointe pour diriger le divertissement musical Direction innovante.
Yao Xing a déclaré : « L’intelligence perceptuelle (3D) et l’intelligence cognitive (IA) du monde réel sont le seul moyen d’explorer l’
intelligence artificielle (AGI) générale, et sont également la force motrice qui permet à Yuanxiang de continuer à explorez la technologie de pointe. La série open source XVERSE s'engage à promouvoir la substitution nationale et l'innovation technologique continue des grands modèles, et à donner une forte impulsion au développement de l'économie réelle et de l'économie numérique. Nous sommes impatients de travailler avec les entreprises et les développeurs. pour ouvrir conjointement une nouvelle ère d'applications de grands modèles ! -plate-forme unique pour la production et la consommation de contenu 3D, avec la vision de « définir votre monde ».
^{Site officiel : www. Yao Xing, le fondateur de Yuanxiang, est l'ancien vice-président de Tencent et fondateur de Tencent AI Lab, et membre du comité consultatif stratégique sur l'intelligence artificielle de nouvelle génération du ministère de la Science et de la Technologie.}Dans le domaine de la technologie 3D et IA, Yuanxiang a une accumulation profonde et une mise en page complète. Dans le domaine de la 3D, nous avons développé de manière indépendante la technologie interactive 3D de pointe de « collaboration appareil-cloud », créant une nouvelle expérience 3D (américaine) à seuil zéro (légère), unique (rapide) et de haute qualité ; le domaine de l'IA, open source Chine Le plus grand paramètre peut être utilisé commercialement, le grand modèle XVERSE-65B, qui vise à promouvoir le développement de la substitution nationale et l'application industrielle des grands modèles.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

Assassin's Creed Shadows: Solution d'énigmes de coquille

3 Il y a quelques semaines By DDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

2 Il y a quelques semaines By DDD

Où trouver la courte de la grue à atomide atomique

3 Il y a quelques semaines By DDD

Économie dans R.E.P.O. Expliqué (et enregistrer des fichiers)

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows - Comment trouver le forgeron et déverrouiller les armes et la personnalisation des armes

4 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7569

Tutoriel CakePHP

1386

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

107

Afficher plus

Related knowledge

Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains Aug 09, 2024 pm 04:01 PM

Mais peut-être qu’il ne pourra pas vaincre le vieil homme dans le parc ? Les Jeux Olympiques de Paris battent leur plein et le tennis de table suscite beaucoup d'intérêt. Dans le même temps, les robots ont également réalisé de nouvelles avancées dans le domaine du tennis de table. DeepMind vient tout juste de proposer le premier agent robot apprenant capable d'atteindre le niveau des joueurs amateurs humains de tennis de table de compétition. Adresse papier : https://arxiv.org/pdf/2408.03906 Quelle est la capacité du robot DeepMind à jouer au tennis de table ? Probablement à égalité avec les joueurs amateurs humains : tant en coup droit qu'en revers : l'adversaire utilise une variété de styles de jeu, et le robot peut également résister : recevoir des services avec des tours différents : Cependant, l'intensité du jeu ne semble pas aussi intense que le vieil homme dans le parc. Pour les robots, le tennis de table

La première griffe mécanique ! Yuanluobao est apparu à la World Robot Conference 2024 et a lancé le premier robot d'échecs pouvant entrer dans la maison Aug 21, 2024 pm 07:33 PM

Le 21 août, la Conférence mondiale sur les robots 2024 s'est tenue en grande pompe à Pékin. La marque de robots domestiques de SenseTime, "Yuanluobot SenseRobot", a dévoilé toute sa famille de produits et a récemment lancé le robot de jeu d'échecs Yuanluobot AI - Chess Professional Edition (ci-après dénommé "Yuanluobot SenseRobot"), devenant ainsi le premier robot d'échecs au monde pour le maison. En tant que troisième produit robot jouant aux échecs de Yuanluobo, le nouveau robot Guoxiang a subi un grand nombre de mises à niveau techniques spéciales et d'innovations en matière d'IA et de machines d'ingénierie. Pour la première fois, il a réalisé la capacité de ramasser des pièces d'échecs en trois dimensions. grâce à des griffes mécaniques sur un robot domestique et effectuer des fonctions homme-machine telles que jouer aux échecs, tout le monde joue aux échecs, réviser la notation, etc.

Claude aussi est devenu paresseux ! Internaute : apprenez à vous accorder des vacances Sep 02, 2024 pm 01:56 PM

La rentrée scolaire est sur le point de commencer, et ce ne sont pas seulement les étudiants qui sont sur le point de commencer le nouveau semestre qui doivent prendre soin d’eux-mêmes, mais aussi les grands modèles d’IA. Il y a quelque temps, Reddit était rempli d'internautes se plaignant de la paresse de Claude. « Son niveau a beaucoup baissé, il fait souvent des pauses et même la sortie devient très courte. Au cours de la première semaine de sortie, il pouvait traduire un document complet de 4 pages à la fois, mais maintenant il ne peut même plus produire une demi-page. !" https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ dans un post intitulé "Totalement déçu par Claude", plein de

Lors de la World Robot Conference, ce robot domestique porteur de « l'espoir des futurs soins aux personnes âgées » a été entouré Aug 22, 2024 pm 10:35 PM

Lors de la World Robot Conference qui se tient à Pékin, l'exposition de robots humanoïdes est devenue le centre absolu de la scène. Sur le stand Stardust Intelligent, l'assistant robot IA S1 a réalisé trois performances majeures de dulcimer, d'arts martiaux et de calligraphie. un espace d'exposition, capable à la fois d'arts littéraires et martiaux, a attiré un grand nombre de publics professionnels et de médias. Le jeu élégant sur les cordes élastiques permet au S1 de démontrer un fonctionnement fin et un contrôle absolu avec vitesse, force et précision. CCTV News a réalisé un reportage spécial sur l'apprentissage par imitation et le contrôle intelligent derrière "Calligraphy". Le fondateur de la société, Lai Jie, a expliqué que derrière les mouvements soyeux, le côté matériel recherche le meilleur contrôle de la force et les indicateurs corporels les plus humains (vitesse, charge). etc.), mais du côté de l'IA, les données réelles de mouvement des personnes sont collectées, permettant au robot de devenir plus fort lorsqu'il rencontre une situation forte et d'apprendre à évoluer rapidement. Et agile

Annonce des prix ACL 2024 : l'un des meilleurs articles sur le déchiffrement Oracle par HuaTech, GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

Les contributeurs ont beaucoup gagné de cette conférence ACL. L'ACL2024, d'une durée de six jours, se tient à Bangkok, en Thaïlande. ACL est la plus grande conférence internationale dans le domaine de la linguistique informatique et du traitement du langage naturel. Elle est organisée par l'Association internationale pour la linguistique informatique et a lieu chaque année. L'ACL s'est toujours classée première en termes d'influence académique dans le domaine de la PNL, et c'est également une conférence recommandée par le CCF-A. La conférence ACL de cette année est la 62e et a reçu plus de 400 travaux de pointe dans le domaine de la PNL. Hier après-midi, la conférence a annoncé le meilleur article et d'autres récompenses. Cette fois, il y a 7 Best Paper Awards (deux inédits), 1 Best Theme Paper Award et 35 Outstanding Paper Awards. La conférence a également décerné 3 Resource Paper Awards (ResourceAward) et Social Impact Award (

Hongmeng Smart Travel S9 et conférence de lancement de nouveaux produits avec scénario complet, un certain nombre de nouveaux produits à succès ont été lancés ensemble Aug 08, 2024 am 07:02 AM

Cet après-midi, Hongmeng Zhixing a officiellement accueilli de nouvelles marques et de nouvelles voitures. Le 6 août, Huawei a organisé la conférence de lancement de nouveaux produits Hongmeng Smart Xingxing S9 et Huawei, réunissant la berline phare intelligente panoramique Xiangjie S9, le nouveau M7Pro et Huawei novaFlip, MatePad Pro 12,2 pouces, le nouveau MatePad Air, Huawei Bisheng With de nombreux nouveaux produits intelligents tous scénarios, notamment la série d'imprimantes laser X1, FreeBuds6i, WATCHFIT3 et l'écran intelligent S5Pro, des voyages intelligents, du bureau intelligent aux vêtements intelligents, Huawei continue de construire un écosystème intelligent complet pour offrir aux consommateurs une expérience intelligente du Internet de tout. Hongmeng Zhixing : Autonomisation approfondie pour promouvoir la modernisation de l'industrie automobile intelligente Huawei s'associe à ses partenaires de l'industrie automobile chinoise pour fournir

L'équipe de Li Feifei a proposé ReKep pour donner aux robots une intelligence spatiale et intégrer GPT-4o Sep 03, 2024 pm 05:18 PM

Intégration profonde de la vision et de l'apprentissage des robots. Lorsque deux mains de robot travaillent ensemble en douceur pour plier des vêtements, verser du thé et emballer des chaussures, associées au robot humanoïde 1X NEO qui a fait la une des journaux récemment, vous pouvez avoir le sentiment : nous semblons entrer dans l'ère des robots. En fait, ces mouvements soyeux sont le produit d’une technologie robotique avancée + d’une conception de cadre exquise + de grands modèles multimodaux. Nous savons que les robots utiles nécessitent souvent des interactions complexes et exquises avec l’environnement, et que l’environnement peut être représenté comme des contraintes dans les domaines spatial et temporel. Par exemple, si vous souhaitez qu'un robot verse du thé, le robot doit d'abord saisir la poignée de la théière et la maintenir verticalement sans renverser le thé, puis la déplacer doucement jusqu'à ce que l'embouchure de la théière soit alignée avec l'embouchure de la tasse. , puis inclinez la théière selon un certain angle. ce

Conférence sur l'intelligence artificielle distribuée Appel à communications DAI 2024 : Agent Day, Richard Sutton, le père de l'apprentissage par renforcement, sera présent ! Yan Shuicheng, Sergey Levine et les scientifiques de DeepMind prononceront des discours d'ouverture Aug 22, 2024 pm 08:02 PM

Introduction à la conférence Avec le développement rapide de la science et de la technologie, l'intelligence artificielle est devenue une force importante dans la promotion du progrès social. À notre époque, nous avons la chance d’être témoins et de participer à l’innovation et à l’application de l’intelligence artificielle distribuée (DAI). L’intelligence artificielle distribuée est une branche importante du domaine de l’intelligence artificielle, qui a attiré de plus en plus d’attention ces dernières années. Les agents basés sur de grands modèles de langage (LLM) ont soudainement émergé. En combinant les puissantes capacités de compréhension du langage et de génération des grands modèles, ils ont montré un grand potentiel en matière d'interaction en langage naturel, de raisonnement par connaissances, de planification de tâches, etc. AIAgent reprend le grand modèle de langage et est devenu un sujet brûlant dans le cercle actuel de l'IA. Au

See all articles