vllm (virtuelles großes Sprachmodell): Eine umfassende Anleitung zur lokalen und Cloud -Bereitstellung
vllm ist eine leistungsstarke Bibliothek für das Hosting von großsprachigen Modellen (LLMs), das die Kontrolle über Datenschutz, Anpassungsoptionen und möglicherweise niedrigere Kosten bietet als nur auf APIs. Diese Handbuchdetails Einrichten von VLLM lokal mit Docker und Bereitstellen in Google Cloud, die skalierbare Lösungen für verschiedene Anforderungen bereitstellen.
Lokales CPU -Setup mit Docker
für Benutzer ohne Zugriff auf High-End-GPUs bietet VLLM ein CPU-optimiertes Docker-Image. Dies vereinfacht den Prozess und beseitigt die Notwendigkeit einer manuellen Installation und potenzielle Kompatibilitätsprobleme.
Schritt 1: Erstellen des Docker -Bildes
Beginnen Sie mit dem Klonen des VLLM -Repositorys. Verwenden Sie die entsprechende Dockerfile (Dockerfile.cpu für Standard-CPUs, Dockerfile.ARM für ARM-basierte CPUs wie die in Macs):
git clone https://github.com/vllm-project/vllm.git cd vllm docker build -f Dockerfile.arm -t vllm-cpu --shm-size=4g . # Or Dockerfile.cpu
Schritt 2: Umarmung der Gesichtskonfiguration
meta-llama/Llama-3.2-1B-Instruct
zum Testen). Schritt 3: Ausführen des Docker -Containers
Führen Sie den folgenden Befehl aus und ersetzen Sie <your_hugging_face_token></your_hugging_face_token>
durch Ihr tatsächliches Token:
docker run -it --rm -p 8000:8000 \ --env "HUGGING_FACE_HUB_TOKEN=<your_hugging_face_token>" \ vllm-cpu --model meta-llama/Llama-3.2-1B-Instruct \ --dtype float16</your_hugging_face_token>
Der Server startet; Sobald Sie "Anwendungsstart abgeschlossen" sehen, ist es fertig.
mit dem LLM
interagieren Die OpenAI -API -Kompatibilität von vllm ermöglicht eine nahtlose Interaktion mithilfe des vorhandenen OpenAI -Code. Ändern Sie die Basis -URL in Ihrem OpenAI -Kunden in http://localhost:8000/v1
. Die optionale API -Schlüsselauthentifizierung kann über das Flag --api-key
im Befehl docker run
hinzugefügt werden.
Google Cloud -Bereitstellung
Bereitstellen von VLLM in Google Cloud bietet Skalierbarkeit.
Schritt 1: Google Cloud Setup
Erstellen Sie ein neues Google Cloud-Projekt (z. B. "Vllm-Demo") und aktivieren Sie den Artefaktregistrierungsdienst.
Schritt 2: Erstellen Sie ein Artefakt -Repository
Erstellen Sie ein Docker-Repository mit dem Namen "vllm-cpu" in der Artefaktregistrierung.
Schritt 3: Erstellen und drücken Sie das Docker -Bild
Verwenden Sie die Cloud -Shell, um das Docker -Bild zu erstellen und zu schieben:
git clone https://github.com/vllm-project/vllm.git cd vllm docker build -f Dockerfile.arm -t vllm-cpu --shm-size=4g . # Or Dockerfile.cpu
Schritt 4: Bereitstellen in Cloud -Ausführen
Erstellen Sie einen Cloud -Lauf -Dienst, der das Pushed -Bild, Port 8000, das umarmende Gesichts -Token als Umgebungsvariable, den Modellnamen und ausreichende Ressourcen (z. B. 16 GIB -Speicher, 4 CPUs) angeben. Halten Sie mindestens eine Instanz am Leben, um die Erkältungsstarts zu minimieren.
interagieren mit dem bereitgestellten LLM
aktualisieren
Kostenüberlegungen: Denken Sie daran, Ihre Google Cloud -Abrechnung zu verwalten, um unerwartete Gebühren zu vermeiden.
GPU -Unterstützung (Google Cloud): GPU -Unterstützung auf Google Cloud -Lauf ist auf Anfrage verfügbar. Die Verwendung des Bildes wird empfohlen, wenn die GPU -Unterstützung aktiviert ist. vllm/vllm-openai:latest
Alternatives Hosting (RunPod): Dienste wie RunPod bieten eine einfachere Bereitstellung, aber häufig zu höheren Kosten.
Das obige ist der detaillierte Inhalt vonVLLM: Einrichten von VLLM lokal und auf Google Cloud für CPU. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!