L'année dernière, le Deepseek LLM a fait des vagues avec ses impressionnants paramètres de 67 milliards de dollars, méticuleusement formés sur un ensemble de données étendu de 2 billions de jetons en anglais et en compréhension chinoise. Fixant de nouvelles références pour la collaboration de recherche, Deepseek a enrôlé la communauté de l'IA en ouverte à la fois ses modèles de base 7b / 67b. Maintenant, que se passe-t-il si je vous dis qu'il y a une IA avec 685 milliards de paramètres et qu'il surpasse presque tous les modèles de l'espace AI et est open source? Cela semble intrigant, non? Deepseek faisant un saut géant en avant avec la sortie de Deepseek V3 , développé par le laboratoire chinois à Deepseek, repoussant encore les limites de l'innovation de l'IA. Il s'agit d'un modèle de langage de mélange de mélange puissant (MOE) avec des paramètres totaux 671b avec 37b activé pour chaque jeton.
La partie impressionnante ici est - elle a atteint une rentabilité remarquable avec sa formation pour seulement 5,5 millions de dollars !!!
Libéré sous une licence permissive, Deepseek V3 permet aux développeurs de télécharger, modifier et intégrer le modèle dans diverses applications, y compris les applications commerciales. Sa polyvalence s'étend sur une gamme de tâches textuelles telles que le codage, la traduction et la génération d'essais ou de courriels à partir d'invites descriptives, ce qui en fait un outil puissant pour les développeurs et les entreprises.
De plus, Deepseek V3 surpasse les modèles AI disponibles et fermés ouvertement dans plusieurs domaines clés. Dans une programmation compétitive sur les forces de code, Deepseek V3 surpasse les rivaux, notamment Meta's Llama 3.1 405b , GPT-4O d'Openai et Qwen 2.5 72b d'Alibaba. Le modèle excelle également dans les tests Aider Polyglot (2e place dans le classement), démontrant une capacité inégalée à générer un nouveau code qui s'intègre de manière transparente aux projets existants.
Le plus grand saut à ce jour:
Savez-vous qu'avec 685 milliards de paramètres (671b des poids principaux du modèle et 14B des poids de module de prédiction multi-toenking (MTP).), Deepseek V3 peut se rappeler combien de bières que vous avez effondrées en 2017? Impressionnant non? De plus, selon les créateurs, ils ont dépensé 5,5 millions de dollars pour former Deepseek V3 et si nous comparons cela avec Openai - le PDG d'Openai, Sam Altman, a mentionné que le coût d'entraînement pour GPT-4 était plus de 100 millions de dollars . Ce contraste frappant met en évidence les dépenses de Deepseek V3, réalisant des performances de pointe.
Dee Deepseek-V3 semble également être un modèle plus fort à seulement 2,8 m de GPU (~ 11x moins de calcul) par rapport à LLAMA 3 405B qui utilise 30,8 m de GPU.
Deepseek (Chinese AI Co), ce qui rend la sortie facile aujourd'hui avec une version ouverte d'un LLM de qualité frontalière formée sur une blague de budget (2048 GPU pour 2 mois, 6 millions de dollars).
- Andrej Karpathy (@Karpathy) 26 décembre 2024
Pour référence, ce niveau de capacité est censé nécessiter des clusters de plus près de 16k GPU, ceux étant… https://t.co/ew7q2pq94b
Deepseek V3 représente un saut monumental dans l'architecture de l'IA et l'efficacité de la formation, repoussant les limites des modèles de langage à grande échelle. Ce modèle open source offre non seulement des performances de pointe, mais le fait avec une efficacité et une évolutivité remarquables. Voici ce qui fait de Deepseek V3 une innovation hors concours:
Deepseek V3 s'appuie sur des cadres éprouvés de son prédécesseur, Deepseek V2, adoptant l'attention latente multi-tête (MLA) et l'architecture de pointe Deepseekmoe. Ces innovations garantissent une inférence efficace et une formation rentable. De plus, Deepseek V3 utilise une stratégie d'équilibrage de charges sans perte auxiliaire, éliminant les compromis de performances typiques associés aux mécanismes d'équilibrage de charge.
Le modèle intègre également un objectif de prédiction multi-token (MTP), améliorant sa capacité à prédire plusieurs jetons simultanément. Cela stimule non seulement les performances, mais permet également le décodage spéculatif, accélérant considérablement les vitesses d'inférence.
Deepseek V3 est pré-formé sur un ensemble de données expansif de 14,8 billions de jetons divers de haute qualité (pour mieux le comprendre, 1 million de jetons sont d'environ 750 000 mots), une échelle qui dépasse de loin ses prédécesseurs. Cette pré-formation est réalisée en utilisant un cadre révolutionnaire de formation de précision mixte FP8, marquant la première application réussie de FP8 dans un modèle à échelle ultra-large. Les résultats incluent:
Deepseek V3 intègre un pipeline de distillation de connaissances innovant, tirant parti des capacités de raisonnement à partir de modèles de la série R1 Deepseek. Ce pipeline intègre des modèles avancés de vérification et de réflexion dans le modèle, améliorant considérablement ses performances de raisonnement. De plus, le style de sortie et la longueur sont méticuleusement contrôlés pour assurer la polyvalence et la cohérence entre les tâches.
Des évaluations approfondies confirment que Deepseek V3 surpasse tous les modèles open source et rivalise en tête des systèmes d'IA source fermée. Malgré son échelle et sa complexité massives, le processus de formation était exceptionnellement stable, sans pics de perte irrégulière ou enroulements tout au long du cycle.
Deepseek V3 témoigne de la puissance de l'innovation et de la collaboration, offrant aux développeurs et aux chercheurs un outil puissant, évolutif et rentable pour relever un large éventail de défis dans l'IA et au-delà. Sa nature open source assure l'accessibilité, ouvrant la voie aux percées dans le codage, le raisonnement et les applications multimodales.
Voici les liens à télécharger:
Modèle | Paramètres totaux | Durée du contexte | Télécharger |
Fond de profondeur | 671b | 128K | Étreinte |
Deepseek-V3 | 671b | 128K | Étreinte |
Cette évaluation met en évidence les capacités supérieures de Deepseek-V3 pour gérer le raisonnement complexe, les mathématiques avancées et les tâches de programmation compétitives.
Voici également l'évaluation de la génération ouverte:
Modèle | Arène dure | Alpacaeval 2.0 |
Deepseek-V2.5-0905 | 76.2 | 50.5 |
QWEN2.5-72B-INSTRUCT | 81.2 | 49.1 |
Lama-3.1 405b | 69.3 | 40.5 |
GPT-4O-0513 | 80.4 | 51.1 |
Claude-Sonnet-3.5-1022 | 85.2 | 52.0 |
Deepseek-V3 | 85,5 | 70.0 |
Vous pouvez également vous référer à cela pour mieux comprendre l'évaluation:
Lien vers le github Deepseek v3
Voici les résultats de référence Aider Polyglot , qui évaluent les modèles sur leur capacité à effectuer correctement les tâches. L'évaluation est divisée en deux formats de sortie:
Cela reflète finalement la polyvalence et les forces spécialisées de différents systèmes d'IA pour accomplir les tâches de référence.
Si vous préférez ne pas utiliser l'interface utilisateur de chat et que vous souhaitez travailler directement avec le modèle, il existe une alternative pour vous. Le modèle, Deepseek-V3, a tous ses poids libérés sur le visage étreint. Vous pouvez y accéder les fichiers Safettensor.
Taille du modèle et exigences matérielles:
Premièrement, le modèle est massif, avec 671 milliards de paramètres, ce qui rend difficile le fonctionnement du matériel standard de qualité grand public. Si votre matériel n'est pas assez puissant, il est recommandé d'utiliser la plate-forme Deepseek pour un accès direct. Attendez un espace facial étreint si l'on devient disponible.
Si vous avez suffisamment de matériel, vous pouvez exécuter le modèle localement à l'aide de la démo Deepseek-infer, SGlang, LMDeploy, Tensorrt-llm, Vllm, AMD GPU, Huawei Ascend NPU.
Convertissez le modèle en une version quantifiée pour réduire les exigences de la mémoire, ce qui est particulièrement utile pour les systèmes bas de gamme.
Voici comment vous pouvez convertir les poids FP8 en BF16:
Script de conversion si vous avez besoin de BF16
inférence du CD python fp8_cast_bf16.py - Input-fp8-hf-path / path / to / fp8_weights --output-bf16-hf-path / path / to / bf16_weights
La bibliothèque Transformers de Hugging Face ne supporte pas encore directement le modèle. Pour le configurer, vous devrez:
Clone Le référentiel Deepseek AI GitHub :
git clone https://github.com/deepseek-ai/deepseek-v3.git
Installez les dépendances requises:
CD Deepseek-V3 / Inférence pip install -r exigences.txt
Téléchargez les points de contrôle des étreintes et exécutez le modèle localement.
Reportez-vous à ceci: Deepseek V3
Recommandation:
Vous pouvez également utiliser le plugin LLM-Deepseek pour accéder au modèle:
# Étape 1: Installez le package LLM ! Pip install llm # Étape 2: Installez le plugin Deepseek ! llm installer llm-deepseek # Étape 3: Définissez la clé API Deepseek ! LLM Keys Set Deepseek # Collez votre clé API lorsque vous avez invité # Étape 4: Exécutez le modèle de chat Deepseek ! llm -m deepseek-chat 'cinq grands noms pour un animal de compagnie' # Étape 5: Exécutez le modèle de codeur Deepseek ! llm -m deepseek-coder «Comment inverser une liste liée dans Python»
Sur la plate-forme Deepseek, vous pouvez explorer le Web et vous engager dans un raisonnement approfondi pour résoudre des problèmes complexes, similaires à l'approche d'Openai.
Voici quelques invites et sorties:
Invite: générer un SVG d'un enfant et un football
Voici une simple représentation SVG d'un enfant jouant avec un football. Tu peux
Copiez et collez ce code dans un fichier HTML ou une visionneuse SVG pour voir le
image:
<svg xmlns="http://www.w3.org/2000/svg" viewbox="0 0 200 200" width="200" height="200"> <cercle cx="100" cy="70" r="20" fill="# ffcc99"></cercle> <rect x="90" y="90" width="20" height="40" fill="# 4caf50"></rect> <line x1="80" y1="100" x2="60" y2="110" tron trad-width="5"></line> <line x1="120" y1="100" x2="140" y2="110" ramp="# 4CAF50" trad-width="5"></line> <line x1="95" y1="130" x2="85" y2="160" ramp="# 4CAF50" trad-width="5"></line> <line x1="105" y1="130" x2="115" y2="160" tron trad-width="5"></line> <ellipse cx="140" cy="140" rx="10" ry="5" fill="# 8b4513"></ellipse> <line x1="135" y1="140" x2="145" y2="140" tron ffffff trad-width="2"></line> <line x1="140" y1="137" x2="140" y2="143" ramp="# ffffff" trad-width="2"></line> </svg> Explication: L'enfant est représenté avec des formes simples: un cercle pour la tête, un rectangle pour le corps et les lignes pour les bras et les jambes. Le football est une ellipse avec deux lignes blanches pour imiter le football classique conception. Vous pouvez ajuster les couleurs, les tailles et les positions pour personnaliser l'image plus loin. Faites-moi savoir si vous souhaitez améliorer ou modifier cela!
Invite: Créez le jeu de serpent classique
La création du jeu de serpent classique implique l'utilisation de HTML, CSS et JavaScript
. Vous trouverez ci-dessous une simple implémentation:
<adal> <meta charset="utf-8"> <meta name="Viewport" content="width = Device-width, initial-scale = 1.0"> <title> Snake Game </title> <style> corps { Affichage: flex; Justification-contenu: centre; Align-Items: Centre; Hauteur: 100VH; marge: 0; Color d'arrière-plan: # 000; } toile { Border: 1px solide #fff; } </ style> </ head> <body> <canvas width = "400" height = "400"> </ canvas> <script src = "snake.js"> </ script> JavaScript (Snake.js) const canvas = document.getElementById ("GameCanvas"); const ctx = canvas.getContext ("2d"); const GridSize = 20; const tileCount = canvas.width / gridSize; Laissez Snake = [{x: 10, y: 10}]; Laissez Direction = {x: 0, y: 0}; Laissez la nourriture = {x: math.floor (math.random () * tileCount), y: Math.floor (math.random () * tileCount)}; Soit Score = 0; fonction gameloop () { mise à jour(); dessiner(); setTimeout (Gameloop, 100); } Function Update () { const head = {x: Snake [0] .x Direction.x, y: Snake [0] .y Direction.y}; // Vérifiez la collision avec les murs ou lui-même if (head.x <0 || head.x> = tileCount || head.y <0 || head.y> = tileCount || Snake.some (segment => segment.x === head.x && segment.y === head.y)) { resetgame (); retour; } Snake.unshift (tête); // Vérifiez si le serpent mange la nourriture if (head.x === aliments.x && head.y === aliments.y) { score ; aliments = {x: math.floor (math.random () * tileCount), y: Math.floor (math.random () * tileCount)}; } autre { Snake.pop (); } } fonction Draw () { // effacer la toile ctx.fillStyle = "# 000"; ctx.fillrect (0, 0, canvas.width, canvas.height); // dessine le serpent ctx.fillStyle = "# 0f0"; Snake.ForEach (segment => ctx.fillrect (segment.x * gridSize, segment.y * GridSize, GridSize, GridSize)); // dessine la nourriture ctx.fillStyle = "# f00"; CTX.Fillrect (Food.x * GridSize, aliments.y * GridSize, GridSize, GridSize); // dessine le score ctx.fillStyle = "#fff"; ctx.font = "20px arial"; CTX.FillText ("Score:" Score, 10, 30); } fonction resetgame () { Snake = [{x: 10, y: 10}]; direction = {x: 0, y: 0}; score = 0; aliments = {x: math.floor (math.random () * tileCount), y: Math.floor (math.random () * tileCount)}; } window.addeventListener ("keydown", e => { commutateur (e.key) { cas "Arrowup": if (direction.y === 0) direction = {x: 0, y: -1}; casser; cas "Arrowdown": if (direction.y === 0) direction = {x: 0, y: 1}; casser; cas "Arrowleft": if (direction.x === 0) direction = {x: -1, y: 0}; casser; cas "Arrowright": if (direction.x === 0) direction = {x: 1, y: 0}; casser; } }); gameloop (); Comment ça marche: Configuration du canevas: le jeu est dessiné sur un élément <lebvas>. Mouvement du serpent: le serpent est représenté comme un tableau de segments. La tête se déplace en fonction de la direction et la queue suit. Nourriture: Une position aléatoire est générée pour la nourriture. Lorsque le serpent mange le La nourriture, elle grandit et le score augmente. Détection de collision: le jeu vérifie si le serpent entre en collision avec les murs ou lui-même, et réinitialise si c'est le cas. Contrôles: Les touches fléchées sont utilisées pour modifier la direction du serpent. Comment courir: Enregistrez le code HTML et JavaScript dans des fichiers (index.html et snake.js). Ouvrez le fichier index.html dans un navigateur. Utilisez les touches fléchées pour contrôler le serpent. Faites-moi savoir si vous souhaitez ajouter plus de fonctionnalités ou améliorer le jeu! </style></adal>
Invite: Comment cloner le référentiel GIT?
Tout d'abord, il réfléchit pendant 6 secondes puis donne la sortie
Le clonage d'un référentiel GIT implique la création d'une copie d'un référentiel existant<br> d'un emplacement éloigné (comme Github, Gitlab ou Bitbucket) à votre local<br> machine. Cette copie comprend tous les fichiers du projet, commettre l'historique et<br> branches.<br><br> Voici les étapes pour cloner un référentiel git:<br><br> 1. Installer Git<br> Assurez-vous que GIT est installé sur votre machine. S'il n'est pas installé, téléchargez<br> et l'installez à partir du site officiel de Git.<br><br> 2. Terminal ouvert ou invite de commande<br> Ouvrez votre terminal (Linux / Mac) ou l'invite de commande (Windows).<br><br> 3. Accédez au répertoire souhaité<br> Utilisez la commande CD pour accéder au répertoire où vous souhaitez cloner le<br> dépôt.<br><br> frapper<br> Copie<br> CD / PATH / TO / RÉPERTOIRE<br> 4. Clone le référentiel<br> Utilisez la commande Git Clone suivie de l'URL du référentiel.<br><br> frapper<br> Copie<br> git clone https://github.com/username/repository.git<br> Remplacez https://github.com/username/repository.git par l'URL réelle de la<br> Référentiel que vous souhaitez cloner.<br><br> 5. Entrez le répertoire cloné<br> Après le clonage, accédez au répertoire du référentiel.<br><br> frapper<br> Copie<br> référentiel de CD<br> 6. Vérifiez le clone<br> Vous pouvez vérifier que le référentiel a été cloné correctement en vérifiant le<br> URL distante.<br><br> frapper<br> Copie<br> git distors -v<br> Cela devrait afficher l'URL du référentiel distant.<br><br> Exemple<br> frapper<br> Copie<br> # Accédez au répertoire souhaité<br> CD ~ / documents<br><br> # Cloner le référentiel<br> git clone https://github.com/username/repository.git<br><br> # Entrez le répertoire du référentiel<br> référentiel de CD<br><br> # Vérifiez l'URL distante<br> git distors -v<br> Facultatif: clonage à l'aide de SSH<br> Si vous avez configuré des touches SSH, vous pouvez cloner le référentiel à l'aide d'une URL SSH:<br><br> frapper<br> Copie<br> GIT CLONE [Protégé par e-mail]: nom d'utilisateur / Repository.git<br> Facultatif: clone peu profond<br> Si vous n'avez besoin que d'une partie de l'histoire (par exemple, le dernier engagement), vous pouvez<br> Effectuer un clone peu profond:<br><br> frapper<br> Copie<br> Git Clone - Depth 1 https://github.com/username/repository.git<br> Ceci est utile pour les grands référentiels où vous n'avez pas besoin de toute l'histoire.<br><br> Conclusion<br> Vous avez maintenant réussi un référentiel GIT à votre machine locale. Toi<br> Peut commencer à travailler sur le projet, apporter des modifications et les engager au besoin.
‼ Chat Deepseek est alimenté par V3 et est puissant‼
- Ivan Fioravanti ᯅ (@ivanfioravanti) 25 décembre 2024
Ici, un MVP de jeu des astéroïdes avec les logos des sociétés d'IA. Entièrement construit avec lui en quelques minutes!
Sonnet 3.5 n'est pas le roi? plus? ️
Anthropic c'est votre tour!
? Artefact créé dans le commentaire pic.twitter.com/fcmztb52fq
Toutes les sorties sont à la hauteur et la vitesse de sortie était assez impressionnante. De plus, Deepseek vous permet de poser des questions de raisonnement au modèle, ce qui en fait un outil polyvalent et efficace pour la résolution de problèmes complexes et une analyse approfondie.
Lire aussi: Deepseek V3 vs GPT-4O: L'Open-source AI peut-il rivaliser avec le pouvoir de GPT-4O?
Deepseek V3 est une réalisation monumentale dans l'évolution des modèles d'IA à grande échelle, combinant une échelle sans précédent avec une efficacité inégalée. Avec son architecture innovante, sa formation rentable et ses 685 milliards de paramètres impressionnants, Deepseek V3 redéfinit ce qui est possible dans l'espace de l'IA. La capacité du modèle à exceller dans divers repères, surpassant à la fois les concurrents open-source et à source fermée, met en évidence ses capacités extraordinaires.
Non seulement Deepseek V3 offre des performances de pointe dans des tâches telles que le codage, le raisonnement et la résolution de problèmes mathématiques, mais il démocratise également l'accès à une IA de pointe avec sa disponibilité open source. Les développeurs, les chercheurs et les entreprises peuvent tirer parti de son immense pouvoir, soutenu par une licence permissive qui favorise l'innovation et la collaboration.
En obtenant des résultats exceptionnels avec un coût de formation de seulement 5,5 millions de dollars, Deepseek V3 prouve que l'évolutivité et l'efficacité peuvent coexister, établissant une nouvelle norme pour l'avenir du développement de l'IA. Cette version marque un bond en avant, non seulement pour Deepseek, mais pour toute la communauté de l'IA, ouvrant la voie à des percées dans l'apprentissage automatique, le traitement du langage naturel et au-delà.
Commencez avec Deepseek et déverrouillez son plein potentiel! Rejoignez notre cours pour débutant pour explorer ses fonctionnalités et ses techniques clés de maîtrise.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!