vllm (Model Bahasa Besar Maya): Panduan Komprehensif untuk Penyebaran Tempatan dan Awan
VLLM adalah perpustakaan yang kuat untuk menganjurkan model bahasa besar (LLM), yang menawarkan kawalan ke atas privasi data, pilihan penyesuaian, dan kos yang berpotensi lebih rendah berbanding dengan hanya bergantung pada API. Butiran panduan ini menyediakan VLLM secara tempatan menggunakan Docker dan menggunakannya di Google Cloud, menyediakan penyelesaian berskala untuk pelbagai keperluan.
Persediaan CPU tempatan dengan DockerBagi pengguna tanpa akses kepada GPU mewah, VLLM menawarkan imej docker yang dioptimumkan CPU. Ini memudahkan proses, menghapuskan keperluan pemasangan manual dan isu keserasian yang berpotensi.
Langkah 1: Membina Imej Docker
Mulailah dengan mengkloning repositori VLLM. Gunakan DockerFile yang sesuai (dockerfile.cpu untuk CPU standard, dockerfile.arm untuk CPU berasaskan lengan seperti yang ada di Mac):
git clone https://github.com/vllm-project/vllm.git cd vllm docker build -f Dockerfile.arm -t vllm-cpu --shm-size=4g . # Or Dockerfile.cpu
Buat akaun muka yang memeluk dan dapatkan token API.
meta-llama/Llama-3.2-1B-Instruct
jalankan arahan berikut, menggantikan
dengan token sebenar anda:
<your_hugging_face_token></your_hugging_face_token>
docker run -it --rm -p 8000:8000 \ --env "HUGGING_FACE_HUB_TOKEN=<your_hugging_face_token>" \ vllm-cpu --model meta-llama/Llama-3.2-1B-Instruct \ --dtype float16</your_hugging_face_token>
Berinteraksi dengan LLM
keserasian API OpenAI VLLM membolehkan interaksi lancar menggunakan kod OpenAI yang sedia ada. Ubah suai URL asas ke
di klien terbuka anda. Pengesahan utama API pilihan boleh ditambah melalui bendera dalam perintah http://localhost:8000/v1
. --api-key
docker run
Menggunakan VLLM di Google Cloud menawarkan skalabilitas.
Langkah 1: Persediaan Awan Google
Buat projek Google Cloud baru (mis., "VLLM-Demo") dan aktifkan Perkhidmatan Pendaftaran Artifak.
Buat repositori Docker bernama "VLLM-CPU" dalam pendaftaran Artifak.
Langkah 3: Bina dan tolak imej Docker
Gunakan shell awan untuk membina dan menolak imej Docker:
git clone https://github.com/vllm-project/vllm.git cd vllm docker build -f Dockerfile.arm -t vllm-cpu --shm-size=4g . # Or Dockerfile.cpu
Langkah 4: Deploy to Cloud Run
Buat perkhidmatan run Cloud, menyatakan imej yang ditolak, port 8000, token muka yang memeluk sebagai pembolehubah persekitaran, nama model, dan sumber yang mencukupi (mis., 16 memori gib, 4 cpus). Pastikan sekurang -kurangnya satu contoh hidup untuk meminimumkan permulaan yang sejuk.
Berinteraksi dengan LLM yang digunakan
Kemas kini URL asas klien Openai anda ke URL Perkhidmatan Awan Run.
Pertimbangan Kos: Ingatlah untuk menguruskan bil Google Cloud anda untuk mengelakkan caj yang tidak dijangka.
Sokongan GPU (Google Cloud): Sokongan GPU di Google Cloud Run tersedia atas permintaan. Menggunakan imej vllm/vllm-openai:latest
disyorkan apabila sokongan GPU diaktifkan.
hosting alternatif (RUNPOD): Perkhidmatan seperti RUNPOD menawarkan penempatan yang lebih mudah tetapi sering pada kos yang lebih tinggi.
Atas ialah kandungan terperinci VLLM: Menyediakan VLLM secara tempatan dan di Google Cloud untuk CPU. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!