Maison > Périphériques technologiques > IA > Le modèle MoE open source le plus puissant au monde est ici, avec des capacités chinoises comparables à celles du GPT-4, et le prix ne représente que près d'un pour cent de celui du GPT-4-Turbo.

Le modèle MoE open source le plus puissant au monde est ici, avec des capacités chinoises comparables à celles du GPT-4, et le prix ne représente que près d'un pour cent de celui du GPT-4-Turbo.

PHPz
Libérer: 2024-05-07 16:13:20
avant
943 Les gens l'ont consulté

Imaginez un modèle d'intelligence artificielle qui a non seulement la capacité de surpasser l'informatique traditionnelle, mais qui permet également d'obtenir des performances plus efficaces à moindre coût. Ce n’est pas de la science-fiction, DeepSeek-V2[1], le modèle MoE open source le plus puissant au monde est là.

全球最强开源 MoE 模型来了,中文能力比肩 GPT-4,价格仅为 GPT-4-Turbo 的近百分之一

DeepSeek-V2 est un puissant mélange de modèle de langage d'experts (MoE) avec les caractéristiques d'une formation économique et d'une inférence efficace. Il est constitué de 236B paramètres, dont 21B servent à activer chaque tag. Par rapport à DeepSeek 67B, DeepSeek-V2 offre des performances plus élevées, tout en économisant 42,5 % des coûts de formation, en réduisant le cache KV de 93,3 % et en augmentant le débit de génération maximal à 5,76 fois.

DeepSeek est une entreprise qui explore la nature de l'intelligence artificielle générale (AGI) et s'engage à intégrer la recherche, l'ingénierie et les affaires.

Capacités complètes de DeepSeek-V2

Dans la liste actuelle des grands modèles, DeepSeek-V2 fonctionne bien :

  • Le plus puissant des modèles open source chinois aux capacités complètes (AlignBench) : avec GPT-4-Turbo, les modèles open source tels que Wenxin 4.0 sont au même échelon dans l'évaluation
  • La capacité complète en anglais (MT-Bench) est au premier échelon : la capacité complète en anglais (MT-Bench) est au même échelon que le modèle open source le plus puissant LLaMA3-70B, Dépassant le modèle open source MoE le plus puissant Mixtral 8x22B
  • Classement parmi les meilleurs en matière de connaissances, mathématiques, raisonnement, programmation et autres listes
  • Prise en charge de 128 000 fenêtres contextuelles

全球最强开源 MoE 模型来了,中文能力比肩 GPT-4,价格仅为 GPT-4-Turbo 的近百分之一

Nouvelle structure de modèle

Quand le potentiel de l’IA est constamment exploré En creusant, nous ne pouvons nous empêcher de nous demander : quelle est la clé pour promouvoir un progrès intelligent ? DeepSeek-V2 donne la réponse : la combinaison parfaite entre architecture innovante et rentabilité.

"DeepSeek-V2 est une version améliorée. Avec un paramètre total de 236B et une activation de 21B, il atteint enfin la capacité du modèle Dense 70B~110B. Dans le même temps, la consommation de mémoire n'est que de 1/5~1/ 100 du même modèle de niveau. Sur la machine H800 à 8 cartes, il peut traiter l'entrée de plus de 100 000 jetons par seconde et produire plus de 50 000 jetons par seconde. Il s'agit non seulement d'un saut technologique, mais aussi d'une révolution. contrôle des coûts. "

Avec le développement rapide de la technologie de l'IA. Aujourd'hui, l'émergence de DeepSeek-V2 représente non seulement une avancée technologique, mais annonce également la vulgarisation des applications intelligentes. Il abaisse le seuil de l’IA et permet à davantage d’entreprises et de particuliers de profiter des avantages de services intelligents efficaces. Dans le même temps, cela annonce également la vulgarisation des applications intelligentes. Il abaisse le seuil de l’IA et permet à davantage d’entreprises et de particuliers de profiter des avantages de services intelligents efficaces.

Capacité chinoise VS Prix

En termes de capacité chinoise, DeepSeek-V2 est en tête du classement AlignBench tout en offrant des prix d'API extrêmement compétitifs.

全球最强开源 MoE 模型来了,中文能力比肩 GPT-4,价格仅为 GPT-4-Turbo 的近百分之一全球最强开源 MoE 模型来了,中文能力比肩 GPT-4,价格仅为 GPT-4-Turbo 的近百分之一

Le modèle et le papier sont tous deux open source

DeepSeek-V2 n'est pas seulement un modèle, c'est la clé d'un monde plus intelligent. Il ouvre un nouveau chapitre dans les applications d’IA avec un coût inférieur et des performances supérieures. L'open source de DeepSeek-V2 est la meilleure preuve de cette conviction. Il inspirera l'esprit d'innovation d'un plus grand nombre de personnes et promouvra conjointement l'avenir de l'intelligence humaine.

  • Poids des modèles : https://huggingface.co/deepseek-ai
  • Adresse open source : https://github.com/deepseek-ai/DeepSeek-V2

Aujourd'hui, alors que l'IA continue d'évoluer, que faire vous pensez à DeepSeek -Comment la V2 va-t-elle changer notre monde ? Attendons de voir. Si vous êtes intéressé, vous pouvez visiter chat.deepseek.com pour découvrir par vous-même les changements technologiques apportés par DeepSeek-V2.

Références

[1]

DeepSeek-V2:https://www.php.cn/link/b2651c9921723afdfd04ed61ec302a6b

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:51cto.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal