QWQ-32B de Qwen: petit modèle avec un énorme potentiel

QWQ-32B de Qwen: petit modèle avec un énorme potentiel - Analytics Vidhya

William Shakespeare

Libérer： 2025-03-21 09:38:10

original

245 Les gens l'ont consulté

Les prouesses de l'IA en Chine se développent rapidement, avec des modèles comme Deepseek et Qwen défier les leaders mondiaux. Deepseek, un rival de Chatgpt, a attiré une attention significative, tandis que le chatbot polyvalent de Qwen, l'intégration de la vision, du raisonnement et du codage, fait des progrès impressionnants. QWQ 32B, le dernier modèle de raisonnement de QWEN, est un concurrent de taille moyenne, en concurrence avec des modèles de haut niveau comme Deepseek-R1 et O1-MinI, démontrant des progrès remarquables de l'IA de la Chine.

Table des matières

Comprendre QWQ 32B de QWEN
Benchmarks de performance
Accéder à QWQ 32B:
- La méthode la plus simple: chat qwen
- Déploiement local via le visage étreint
- Configuration locale simplifiée avec Olllama
QWQ 32B en action
Conclusion

Comprendre QWQ 32B de QWEN

QWQ-32B, un modèle de paramètres de 32 milliards de la famille QWEN, exploite l'apprentissage de renforcement (RL) pour améliorer ses capacités de raisonnement et de résolution de problèmes. Ses performances rivalisent avec celles de modèles plus grands tels que Deepseek-R1, adaptant son raisonnement en fonction de la rétroaction et de l'utilisation efficace des outils. Poids ouvert et disponible sous la licence Apache 2.0 sur Hugging Face et Modelscope, il est également accessible par le chat QWen, présentant le potentiel de RL pour augmenter considérablement les performances de l'IA.

Benchmarks de performance

Les compétences de raisonnement mathématique, de codage et de résolution de résolution de problèmes de QWQ-32B ont été rigoureusement testées sur divers repères. Les comparaisons suivantes mettent en évidence ses performances avec les principaux modèles comme Deepseek-R1-Distillé-QWEN-32B, Deepseek-R1-distillé-llama-70b, O1-MinI et l'original Deepseek-R1.

QWQ-32B de Qwen: petit modèle avec un énorme potentiel - Analytics Vidhya

LiveBench scores, évaluant le raisonnement à travers diverses tâches, positionnez QWQ-32B entre R1 et O3-MinI, mais à un coût nettement inférieur (environ 1 / 10e). Les estimations des prix, basées sur les données API ou OpenRouter, placent QWQ-Preview à 0,18 $ par jeton de sortie sur Deepinfra, soulignant sa rentabilité.

QWQ-32B de Qwen: petit modèle avec un énorme potentiel - Analytics Vidhya

Le QWQ-32B d'Alibaba obtient un score de 59% sur le diamant GPQA (raisonnement scientifique) et 86% sur AIME 2024 (mathématiques). Tout en excellant en mathématiques, son raisonnement scientifique est à la traîne des meilleurs concurrents.

QWQ-32B de Qwen: petit modèle avec un énorme potentiel - Analytics Vidhya

Actuellement tendance n ° 1 sur HuggingFace.

QWQ-32B de Qwen: petit modèle avec un énorme potentiel - Analytics Vidhya

En savoir plus via notre cours QWQ 32B gratuit!

Accéder à QWQ 32B

L'accès au QWQ-32B offre plusieurs options en fonction de vos besoins et de votre expertise technique.

Via le chat Qwen (approche la plus simple)

Visitez https://www.php.cn/link/e3524b4d458e3625befde27f60809f34 .
Créer un compte (si nécessaire).
Sélectionnez "QWQ-32B" dans le menu de sélection du modèle.
Commencez à interagir avec le modèle.

Déploiement local via le visage étreint

Prérequis:

GPU haut de gamme (24 Go de VRAM minimum; 80 Go pour le FP16 non qualifié; environ 20 Go pour les versions quantifiées).
Python 3.8, git, pip ou conda.
Bibliothèque de transformateurs de face étreintes (4.37.0).

Installation et utilisation: (Les extraits de code fournis dans le texte d'origine sont conservés ici)

 <code>pip install transformers torch</code>

Copier après la connexion

 <code>from transformers import AutoModelForCausalLM, AutoTokenizer model_name = "Qwen/QwQ-32B" model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto") tokenizer = AutoTokenizer.from_pretrained(model_name)</code>

Copier après la connexion

 <code>prompt = "How many r's are in the word 'strawberry'?" messages = [{"role": "user", "content": prompt}] text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True) model_inputs = tokenizer([text], return_tensors="pt").to(model.device) generated_ids = model.generate(**model_inputs, max_new_tokens=512) response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0] print(response)</code>

Copier après la connexion

Configuration locale simplifiée avec Olllama

Téléchargez et installez Olllama depuis olllama.com.
Tirez le modèle: ollama pull qwq:32b
Exécutez le modèle: ollama run qwq:32b

QWQ 32B en action

(Des exemples avec des vidéos intégrés sont conservés du texte original)

Invite: Créez une page Web statique avec une bougie éclairante avec des étincelles autour de la flamme

Invite: développez un jeu assis où vous pouvez tirer des missiles dans toutes les directions. Au début, la vitesse de l'ennemi est très lente, mais après avoir vaincu trois ennemis, la vitesse augmente progressivement. Implémentation dans P5.JS

Invite: Écrivez un programme Python qui montre une balle rebondissant à l'intérieur d'un hexagone tournante. La balle doit être affectée par la gravité et la friction, et elle doit rebondir de manière réaliste des murs rotatifs .

Conclusion

QWQ-32B représente une progression substantielle du raisonnement de l'IA, offrant des performances comparables aux modèles top à une fraction du coût. Ses forts scores Livebench et sa rentabilité (0,18 $ par jeton de sortie) en font une solution pratique et accessible pour diverses applications. Ce progrès signifie que le potentiel d'IA à haute performance devient plus abordable et largement accessible, favorisant une plus grande innovation.

En savoir plus sur l'utilisation de QWQ 32B dans vos projets avec notre cours gratuit!

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!