Maison Périphériques technologiques IA VLLM: Configuration de VllM localement et sur Google Cloud pour CPU

VLLM: Configuration de VllM localement et sur Google Cloud pour CPU

Mar 01, 2025 am 09:36 AM

VLLM (modèle virtuel de grande langue): un guide complet du déploiement local et cloud

VLLM est une bibliothèque puissante pour héberger des modèles de grandes langues (LLM), offrant un contrôle sur la confidentialité des données, les options de personnalisation et des coûts potentiellement inférieurs à la compréhension uniquement des API. Ce guide détaille la configuration de VLLM localement à l'aide de Docker et le déploiement sur Google Cloud, fournissant des solutions évolutives pour divers besoins.

Configuration du processeur local avec docker

Pour les utilisateurs sans accès aux GPU haut de gamme, VLLM propose une image Docker optimisée par le CPU. Cela simplifie le processus, éliminant le besoin d'installation manuelle et de problèmes de compatibilité potentiels.

Étape 1: Construire l'image docker

Commencez par cloner le référentiel VllM. Utilisez le dockerfile approprié (dockerfile.cpu pour les processeurs standard, dockerfile.arm pour les processeurs basés sur des bras comme ceux des Mac):

git clone https://github.com/vllm-project/vllm.git
cd vllm
docker build -f Dockerfile.arm -t vllm-cpu --shm-size=4g .  # Or Dockerfile.cpu
Copier après la connexion
Copier après la connexion

Étape 2: Configuration du visage étreint

  1. Créez un compte de visage étreint et obtenez un jeton API.
  2. demander l'accès à un modèle (par exemple, meta-llama/Llama-3.2-1B-Instruct pour les tests).

Étape 3: Exécution du conteneur Docker

Exécutez la commande suivante, en remplaçant <your_hugging_face_token></your_hugging_face_token> par votre jeton réel:

docker run -it --rm -p 8000:8000 \
--env "HUGGING_FACE_HUB_TOKEN=<your_hugging_face_token>" \
vllm-cpu --model meta-llama/Llama-3.2-1B-Instruct \
--dtype float16</your_hugging_face_token>
Copier après la connexion

Le serveur commencera; Une fois que vous voyez «le démarrage d'application terminé», il est prêt.

Interagir avec le LLM

La compatibilité API OpenAI de

Vllm permet une interaction transparente en utilisant le code OpenAI existant. Modifiez l'URL de base vers http://localhost:8000/v1 dans votre client OpenAI. L'authentification facultative de la clé API peut être ajoutée via le drapeau --api-key dans la commande docker run.

Déplacement de cloud Google

Déployer VllM sur Google Cloud offre une évolutivité.

Étape 1: Configuration de Google Cloud

Créez un nouveau projet Google Cloud (par exemple, "VllM-Demo") et activez le service de registre Artefact.

vLLM: Setting Up vLLM Locally and on Google Cloud for CPU vLLM: Setting Up vLLM Locally and on Google Cloud for CPU vLLM: Setting Up vLLM Locally and on Google Cloud for CPU vLLM: Setting Up vLLM Locally and on Google Cloud for CPU

Étape 2: Créez un référentiel d'artefact

Créer un référentiel Docker nommé "Vllm-CPU" dans le registre des artefacts.

vLLM: Setting Up vLLM Locally and on Google Cloud for CPU vLLM: Setting Up vLLM Locally and on Google Cloud for CPU

Étape 3: construire et pousser l'image docker

Utilisez le shell cloud pour construire et pousser l'image docker:

git clone https://github.com/vllm-project/vllm.git
cd vllm
docker build -f Dockerfile.arm -t vllm-cpu --shm-size=4g .  # Or Dockerfile.cpu
Copier après la connexion
Copier après la connexion

Étape 4: Déploiement vers Cloud Run

Créez un service Cloud Run, spécifiant l'image poussée, le port 8000, le jeton de face étreint en tant que variable d'environnement, le nom du modèle et les ressources suffisantes (par exemple, 16 GIB Memory, 4 CPU). Gardez au moins une instance en vie pour minimiser les démarrages du froid.

vLLM: Setting Up vLLM Locally and on Google Cloud for CPU vLLM: Setting Up vLLM Locally and on Google Cloud for CPU vLLM: Setting Up vLLM Locally and on Google Cloud for CPU

Interaction avec le LLM LLM

déployé

Mettez à jour l'URL de base de votre client OpenAI vers l'URL du service d'exécution du cloud.

Considérations de coûts: N'oubliez pas de gérer votre facturation Google Cloud pour éviter les frais inattendus.

Prise en charge du GPU (Google Cloud): La prise en charge du GPU sur Google Cloud Run est disponible sur demande. L'utilisation de l'image vllm/vllm-openai:latest est recommandée lorsque la prise en charge du GPU est activée.

Hébergement alternatif (RunPod): Les services comme Runpod offrent un déploiement plus simple mais souvent à un coût plus élevé.

vLLM: Setting Up vLLM Locally and on Google Cloud for CPU

Ce guide fournit un aperçu complet du déploiement VLLM. N'oubliez pas de choisir la configuration qui correspond le mieux à vos ressources et à votre budget. Surveillez toujours soigneusement vos coûts de cloud.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Meilleurs générateurs d'art AI (gratuit & amp; payé) pour des projets créatifs Meilleurs générateurs d'art AI (gratuit & amp; payé) pour des projets créatifs Apr 02, 2025 pm 06:10 PM

L'article passe en revue les meilleurs générateurs d'art AI, discutant de leurs fonctionnalités, de leur aptitude aux projets créatifs et de la valeur. Il met en évidence MidJourney comme la meilleure valeur pour les professionnels et recommande Dall-E 2 pour un art personnalisable de haute qualité.

Début avec Meta Llama 3.2 - Analytics Vidhya Début avec Meta Llama 3.2 - Analytics Vidhya Apr 11, 2025 pm 12:04 PM

META'S LLAMA 3.2: un bond en avant dans l'IA multimodal et mobile Meta a récemment dévoilé Llama 3.2, une progression importante de l'IA avec de puissantes capacités de vision et des modèles de texte légers optimisés pour les appareils mobiles. S'appuyer sur le succès o

Meilleurs chatbots AI comparés (Chatgpt, Gemini, Claude & amp; plus) Meilleurs chatbots AI comparés (Chatgpt, Gemini, Claude & amp; plus) Apr 02, 2025 pm 06:09 PM

L'article compare les meilleurs chatbots d'IA comme Chatgpt, Gemini et Claude, en se concentrant sur leurs fonctionnalités uniques, leurs options de personnalisation et leurs performances dans le traitement et la fiabilité du langage naturel.

Assistants d'écriture de l'IA pour augmenter votre création de contenu Assistants d'écriture de l'IA pour augmenter votre création de contenu Apr 02, 2025 pm 06:11 PM

L'article traite des meilleurs assistants d'écriture d'IA comme Grammarly, Jasper, Copy.ai, WireSonic et Rytr, en se concentrant sur leurs fonctionnalités uniques pour la création de contenu. Il soutient que Jasper excelle dans l'optimisation du référencement, tandis que les outils d'IA aident à maintenir le ton

Vendre une stratégie d'IA aux employés: le manifeste du PDG de Shopify Vendre une stratégie d'IA aux employés: le manifeste du PDG de Shopify Apr 10, 2025 am 11:19 AM

La récente note du PDG de Shopify Tobi Lütke déclare hardiment la maîtrise de l'IA une attente fondamentale pour chaque employé, marquant un changement culturel important au sein de l'entreprise. Ce n'est pas une tendance éphémère; C'est un nouveau paradigme opérationnel intégré à P

AV Bytes: Meta & # 039; S Llama 3.2, Google's Gemini 1.5, et plus AV Bytes: Meta & # 039; S Llama 3.2, Google's Gemini 1.5, et plus Apr 11, 2025 pm 12:01 PM

Le paysage de l'IA de cette semaine: un tourbillon de progrès, de considérations éthiques et de débats réglementaires. Les principaux acteurs comme Openai, Google, Meta et Microsoft ont déclenché un torrent de mises à jour, des nouveaux modèles révolutionnaires aux changements cruciaux de LE

10 extensions de codage générateur AI dans le code vs que vous devez explorer 10 extensions de codage générateur AI dans le code vs que vous devez explorer Apr 13, 2025 am 01:14 AM

Hé là, codant ninja! Quelles tâches liées au codage avez-vous prévues pour la journée? Avant de plonger plus loin dans ce blog, je veux que vous réfléchissiez à tous vos malheurs liés au codage - les énumérez. Fait? - Let & # 8217

Choisir le meilleur générateur de voix d'IA: les meilleures options examinées Choisir le meilleur générateur de voix d'IA: les meilleures options examinées Apr 02, 2025 pm 06:12 PM

L'article examine les meilleurs générateurs de voix d'IA comme Google Cloud, Amazon Polly, Microsoft Azure, IBM Watson et Descript, en se concentrant sur leurs fonctionnalités, leur qualité vocale et leur aptitude à différents besoins.

See all articles