Maison > Périphériques technologiques > IA > Après Deepseek, Kimi K1.5 surpasse Openai O1

Après Deepseek, Kimi K1.5 surpasse Openai O1

Christopher Nolan
Libérer: 2025-03-07 11:34:09
original
238 Les gens l'ont consulté

Kimi K1.5: Un modèle de raisonnement AI génératif remodelant le paysage

Les récentes percées dans l'apprentissage par renforcement (RL) et les modèles de langues importants (LLM) ont culminé dans la création de Kimi K1.5, un modèle prêt à révolutionner le raisonnement générateur d'IA. Cet article plonge dans les caractéristiques clés de Kimi K1.5, les innovations et l'impact potentiel, tirant des informations sur la recherche qui l'accompagne.

Table des matières:

  • Qu'est-ce que Kimi K1.5?
  • Kimi K1.5 Formation
  • Kimi K1.5 Benchmarks
  • Kimi K1.5 Key Innovations
  • Kimi K1.5 contre Deepseek R1
  • Accès à Kimi K1.5 via API
  • Conclusion

Qu'est-ce que Kimi K1.5?

Kimi K1.5 représente un bond en avant substantiel dans la mise à l'échelle de RL avec des LLM. Contrairement aux modèles conventionnels s'appuyant sur des méthodes complexes comme la recherche de Monte Carlo Tree, il utilise une approche rationalisée centrée sur la prédiction autorégressive et les techniques RL. Sa conception lui permet de gérer les tâches multimodales, présentant des performances exceptionnelles dans des références comme Math Vista et Live Code Bench.

Kimi K1.5 Formation

La formation de Kimi K1.5 est un processus en plusieurs étapes conçu pour améliorer le raisonnement via RL et l'intégration multimodale:

  1. pré-entraînement: Le modèle est pré-entraîné sur un vaste ensemble de données multimodal de haute qualité englobant du texte (anglais, chinois, code, mathématiques, connaissances générales) et données visuelles, rigoureusement filtrées pour la pertinence et la diversité.

  2. Affinement fin supervisé (SFT): Cela implique deux phases: Vanilla SFT en utilisant ~ 1 million d'exemples sur diverses tâches, et SFT de la chain de ce qui concerne (COT) pour la formation de voies de raisonnement complexes.

  3. Apprentissage par renforcement (RL): Un ensemble invite soigneusement organisé entraîne la formation RL. Le modèle apprend à générer des solutions à travers une séquence d'étapes de raisonnement, guidée par un modèle de récompense évaluant la précision de la réponse. La descente de miroir en ligne optimise la politique.

  4. Déployages partiels: Pour gérer efficacement les contextes longs, Kimi K1.5 utilise des déploiements partiels, économisant des parties inachevées pour la continuation ultérieure.

  5. Pénalité de longueur et échantillonnage: Une pénalité de longueur encourage les réponses concises, tandis que le programme d'échantillonnage et la priorité des stratégies d'échantillonnage concentrent la formation sur les tâches plus faciles en premier.

  6. Évaluation et itération: Évaluation continue contre les références guides les mises à jour du modèle itératif.

Kimi K1.5 Présentation du système et diagrammes de déploiement partiel:

After DeepSeek, Kimi k1.5 Outshines OpenAI o1 After DeepSeek, Kimi k1.5 Outshines OpenAI o1

Kimi K1.5 Benchmarks

Kimi K1.5 démontre des performances de pointe dans diverses tâches:

  • Mathématiques: a obtenu un score parfait de 77,5 sur Aime 2024, dépassant Openai O1 (74,4) et Openai O1 Mini (63,6). Marqué 96.2 sur Math-500.
  • CODING: a obtenu un score de 94 sur lesforces de code, correspondant à OpenAI O1 et dépassant l'aperçu O1-MINI et QWQ 72B.
  • Raisonnement visuel: a marqué 74.9 sur MathVista_Test, dépassant QVQ 72B (71.4) et Openai O1-MinI (71).
  • Connaissances générales: a marqué 87,4 sur MMLU (EM), surperformant Openai 4O (87.2).

Diagramme des stratégies de raisonnement:

After DeepSeek, Kimi k1.5 Outshines OpenAI o1

Kimi K1.5 Innovations clés

  • Échelle de contexte long: traite jusqu'à 128 000 jetons, améliorant l'efficacité grâce à des déploiements partiels.
  • Chaîne de pensée Raisonnement: combine des stratégies de COT long et courtes pour l'adaptabilité.
  • pipeline d'apprentissage du renforcement: Un pipeline RL raffiné avec des invites organisées, un réglage fin supervisé et une optimisation de politique.
  • Gestion des données multimodales: traite efficacement les données de texte et visuelles.

Kimi K1.5 contre Deepseek R1

Kimi K1.5 et Deepseek R1 représentent différentes approches du développement de LLM. L'architecture rationalisée de Kimi K1.5, la RL intégrée et la manipulation du contexte long la distinguent-elles des méthodes plus traditionnelles de Deepseek R1. Les différences ont un impact sur leurs performances sur les tâches complexes et lourdes de contexte.

Accès à Kimi K1.5 via API

L'accès à l'API nécessite un enregistrement sur la console de gestion de Kimi. Un exemple de l'extrait de code Python montre l'interaction API:

# ... (API key setup and message preparation) ...

stream = client.chat.completions.create(
    model="kimi-k1.5-preview",
    messages=messages,
    temperature=0.3,
    stream=True,
    max_tokens=8192,
)

# ... (streaming response handling) ...
Copier après la connexion

Conclusion

Kimi K1.5 représente une progression significative du raisonnement générateur d'IA, simplifiant la conception de RL tout en obtenant des résultats de pointe. Ses innovations dans la mise à l'échelle du contexte et la gestion des données multimodales la positionnent comme un modèle de premier plan avec de grandes implications dans diverses industries.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal