Cette année a été pleine de sorties passionnantes dans l'espace Genai, de Claude Sonnet 3.5 à l'O1 d'Openai à Meta's Llama 3.3 et bien d'autres. Avec tant de choses qui se produisent, il est assez difficile de choisir un modèle qui n'a pas une meilleure alternative. Le récent lancement de Deepseek V3 a secoué le monde du Genai avec ses capacités impressionnantes, et il serait le meilleur modèle open source disponible aujourd'hui. J'ai donc décidé de le mettre à l'épreuve contre Claude 3.5 Sonnet. Dans cet article, je testerai ces modèles avec les mêmes invites pour voir qui fournit une meilleure réponse! Alors, commençons notre bataille Deepseek V3 vs Claude Sonnet 3.5!
Invite: vous êtes pressé de travailler. Vous vous versez une tasse de café noir, mais il fait trop chaud. Vous avez l'intention d'y ajouter une quantité fixe de lait froid, mais vous savez que même après cela, le café devra se rafraîchir quelques minutes avant de pouvoir le boire.
Dans ce cas, le café se refroidit davantage:
1) Ajouter le lait immédiatement, puis attendre quelques minutes avant de boire.
2) Attendez quelques minutes, puis ajoutez du lait juste avant de boire.
Deepseek V3:
Claude Sonnet 3.5:
Observation:
Deepseek V3 suggère d'ajouter du lait froid immédiatement, faisant valoir que la température du café baisse immédiatement, puis continue de refroidir. En revanche, Claude Sonnet 3.5 dit qu'il est préférable de laisser le café noir refroidir d'abord - car un liquide plus chaud perd la chaleur plus rapidement - puis ajouter du lait juste avant de boire pour une baisse de température supplémentaire. La plupart des explications basées sur la physique favorisent Claude Sonnet 3.5. Lorsque le café reste plus chaud au départ, il perd plus de chaleur par le refroidissement plus rapide en raison de la plus grande différence de température avec l'environnement. L'ajout de lait à la fin fournit un refroidissement final final, ce qui entraîne une température globale inférieure au temps de consommation.
Verdict:
Deepseek v3 ❌ | Claude Sonnet 3,5 ✅
Pormpt: Créez un tableau de flux logique pour le modèle de conception multi-agents. Il s'agit des étapes suivantes:
1. Brisez la tâche: définissez l'objectif global et divisez-le en sous-tâches plus petites, en identifiant comment elles dépendent les unes des autres.
2. Attribuez des rôles: attribuez chaque sous-tâche à l'agent le mieux adapté, décrivant les responsabilités et les livrables. 3. Plane Communication: décidez si les agents communiquent directement ou via un superviseur, en utilisant des formats cohérents.
4. Exécuter: exécutez des agents en parallèle ou en séquence, en suivant leurs sorties pour l'exhaustivité et la précision.
5. Valider et intégrer: combiner tous les résultats de l'agent dans une réponse finale, en vérifiant les erreurs ou les incohérences.
6. Affinez: Rassemblez les commentaires pour améliorer les rôles ou les processus et mettre à jour les instructions ou les workflows au besoin.
Sortie Deepseek V3:
-----------------------------------------<br> | Commencez |<br> -----------------------------------------<br> |<br> V<br> -----------------------------------------<br> | 1. Brisez la tâche |<br> | - Définissez l'objectif global |<br> | - Divisez l'objectif en sous-tâches plus petites |<br> | - Identifier les dépendances entre les sous-tâches |<br> -----------------------------------------<br> |<br> V<br> -----------------------------------------<br> | 2. Attribuez des rôles |<br> | - Attribuez chaque sous-tâche aux meilleurs adaptés |<br> | agent |<br> | - Responsabilités et livrables de contour |<br> -----------------------------------------<br> |<br> V<br> -----------------------------------------<br> | 3. Plan Communication |<br> | - Décidez si les agents communiquent directement |<br> | ou par le biais d'un superviseur |<br> | - Utiliser des formats de communication cohérents |<br> -----------------------------------------<br> |<br> V<br> -----------------------------------------<br> | 4. Exécuter |<br> | - Exécuter des agents en parallèle ou en séquence |<br> | - Suivre les sorties pour l'exhaustivité et |<br> | Exactitude |<br> -----------------------------------------<br> |<br> V<br> -----------------------------------------<br> | 5. Valider et intégrer |<br> | - Combinez tous les résultats de l'agent en un |<br> | Réponse finale |<br> | - Vérifiez les erreurs ou les incohérences |<br> -----------------------------------------<br> |<br> V<br> -----------------------------------------<br> | 6. Affiner |<br> | - Rassemblez les commentaires pour améliorer les rôles ou |<br> | Processus |<br> | - Mettre à jour les instructions ou les workflows comme |<br> | nécessaire |<br> -----------------------------------------<br> |<br> V<br> -----------------------------------------<br> | Fin |<br> -----------------------------------------
Claude Sonnet 3.5 Sortie:
Observation:
Claude Sonnet 3.5 est meilleur car il montre des points de décision et des boucles de rétroaction. Les systèmes multi-agents nécessitent souvent des étapes de re-vérification et de raffinage. Si vous n'avez besoin que d'une liste simple, Deepseek V3 pourrait suffire. Pour les workflows réels nécessitant des améliorations itératives et des branches, Claude Sonnet 3.5 fournit une structure plus claire et plus complète.
Verdict:
Deepseek v3 ❌ | Claude Sonnet 3,5 ✅
Invite: analysez le contenu ci-dessous et répertoriez le nombre d'erreurs grammaticales dans le texte.
Malgré la nature éphémère de l'existence, beaucoup restent obstinés dans leurs illusions. Indubitablement, les décalages éphémères dans les nuances cosmiques soulignent la complexité labyrinthique confrontée même les esprits les plus érudits. Jusqu'à ce que nous fusions nos énergies collectives pour surmonter ces subtilités onéreuses, l'humanité restera captivée par les perplexités au-delà de la mesure. Pourtant, sommes-nous vraiment prédestinés pour rester embourbés dans des conflagrations existentielles. En tant qu'espèce anthromorphe, notre plus grande folie est peut-être la complaisance artistique, se manifestant lorsque la clarté fait signe. Le fardeau repose sur l'introspection, car la reconnaissance des contraintes intangibles favorise la libération. Le président de la connaissance nous supplie, forgeant un chemin incertain mais indispensable. Prendre attention.
Sortie Deepseek V3:
Voici une liste d'erreurs dans le paragraphe:
Liste des erreurs:
[«Existence», «souligne», «jusqu'à ce queClaude Sonnet 3.5 Sortie:
Voici toutes les erreurs trouvées dans le paragraphe, répertoriées par ordre d'apparence:
Le paragraphe contient 8 erreurs distinctes, principalement constituées d'erreurs d'orthographe, de problèmes d'accord de verbe par sujet et d'erreurs de ponctuation.
Observation:
La réponse de Claude Sonnet 3.5 est meilleure car elle pose plus de problèmes. Il souligne non seulement l'orthographe et les erreurs de sujet-verbe, comme le fait Deepseek V3, mais note également un point d'interrogation manquant et suggère une amélioration stylistique pour «tenir compte». Cette couverture plus large en fait une analyse plus approfondie dans son ensemble.
Verdict:
Deepseek v3 ❌ | Claude Sonnet 3,5 ✅
Invite: Quelle est la probabilité de victoire pour chaque équipe de ce jeu?
Sortie Deepseek V3:
Claude Sonnet 3.5 Sortie:
Observation:
Claude Sonnet 3.5 fournit une lecture plus précise et contextuellement cohérente du tableau de bord et des exigences de chasse à l'exécution, conduisant à une estimation de probabilité plus réaliste. Il est facteur dans les overs restants et le taux d'exécution requis. Deepseek V3 interprète mal la situation du match, donc sa conclusion est moins fiable. Par conséquent, la réponse de Claude Sonnet 3.5 est meilleure car elle s'aligne sur les détails de la correspondance corrects et la logique de poursuite de cricket standard.
Verdict:
Deepseek v3 ❌ | Claude Sonnet 3,5 ✅
Invite: une chaîne en apesanteur relie deux boules métalliques identiques. Le milieu de la chaîne est sur le bord d'une table. Vous lâchez les deux balles en même temps. Que se passera-t-il plus tôt: la balle 1 volant de la table ou la balle 2 frappant son côté?
Sortie Deepseek V3:
Comprendre la configuration
Forces agissant sur les balles
Ce qui se passe plus tôt?
Claude Sonnet 3.5 Sortie:
Configuration initiale
Quand les balles sont libérées
La physique
Le résultat
Obervation:
Claude Sonnet 3.5 est plus correct. Dans des conditions idéales (sans friction), chaque balle parcourt la même distance horizontale avec la même accélération horizontale, donc la balle 1 vole exactement lorsque la balle 2 frappe le côté. Deepseek V3 priorise incorrectement la traction vers le bas de la gravité sur la balle 2, mais le facteur clé est la traction horizontale de la corde, qui est symétrique pour les deux balles. Par conséquent, ils atteignent simultanément le bord / côté de la table dans un scénario de physique pure.
Verdict:
Deepseek v3 ❌ | Claude Sonnet 3,5 ✅
Tâche | Gagnant |
---|---|
Tâche 1: résoudre un puzzle | Claude Sonnet 3.5 |
Tâche 2: Créer un tableau de flux | Claude Sonnet 3.5 |
Tâche 3: Trouvez des erreurs de grammaire | Claude Sonnet 3.5 |
Tâche 4: Calculer la probabilité gagnante | Claude Sonnet 3.5 |
Tâche 5: Problème de physique | Claude Sonnet 3.5 |
Lisez également:
Les tâches de cet article donnent un aperçu des capacités de Deepseek V3 vs Claude 3.5 Sonnet, mais ce ne sont qu'une petite partie de ce que ces modèles peuvent faire. Évitez de les juger uniquement en fonction de ces résultats. Au lieu de cela, explorez et utilisez chaque modèle en fonction de vos besoins et exigences spécifiques.
Avez-vous essayé Deepseek V3 ou Claude 3.5 Sonnet? Partagez vos expériences et vos idées dans les commentaires ci-dessous!
Apprenez à utiliser Deepseek avec notre cours «Get Starting with Deepseek»! Comprenez ses fonctionnalités, comparez-la avec d'autres modèles d'IA et obtenez des informations pratiques pour démarrer rapidement.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!