首页 > 科技周边 > 人工智能 > VLLM:在本地设置VLLM,并在Google Cloud上为CPU设置

VLLM:在本地设置VLLM,并在Google Cloud上为CPU设置

Joseph Gordon-Levitt
发布: 2025-03-01 09:36:11
原创
420 人浏览过

vllm(虚拟大语言模型):本地和云部署的综合指南

VLLM是一个强大的库,用于托管大型语言模型(LLM),与仅依靠API相比,对数据隐私,自定义选项的控制权,定制选项以及可能较低的成本。 本指南详细信息使用Docker在本地设置VLLM并将其部署在Google Cloud上,为各种需求提供可扩展的解决方案。

>

> docker的本地CPU设置

对于无访问高端GPU的用户,VLLM提供了CPU优化的Docker映像。这简化了过程,消除了对手动安装和潜在兼容性问题的需求。

>步骤1:构建Docker Image

> 首先克隆VLLM存储库。 使用适当的dockerfile(dockerfile.cpu用于标准CPU,dockerfile.arm,用于基于ARM的CPU,例如Macs中的CPU):>

>

步骤2:拥抱脸配置
git clone https://github.com/vllm-project/vllm.git
cd vllm
docker build -f Dockerfile.arm -t vllm-cpu --shm-size=4g .  # Or Dockerfile.cpu
登录后复制
登录后复制

> 创建一个拥抱的脸部帐户并获得一个API令牌。

>
    >请求访问模型(例如,
  1. 进行测试)。
  2. >
  3. meta-llama/Llama-3.2-1B-Instruct>
  4. 步骤3:运行Docker容器

> 运行以下命令,用您的实际令牌替换

>

<your_hugging_face_token></your_hugging_face_token>服务器将启动;一旦看到“应用程序启动完成”,就已经准备就绪。

与llm
docker run -it --rm -p 8000:8000 \
--env "HUGGING_FACE_HUB_TOKEN=<your_hugging_face_token>" \
vllm-cpu --model meta-llama/Llama-3.2-1B-Instruct \
--dtype float16</your_hugging_face_token>
登录后复制

> VLLM的OpenAI API兼容性允许使用现有OpenAI代码的无缝交互。 将基本URL修改为OpenAI客户端中的

。 可以通过>命令中的flag添加可选的API密钥身份验证。

http://localhost:8000/v1 Google Cloud部署--api-keydocker run 在Google Cloud上部署VLLM提供可伸缩性。

>步骤1:Google Cloud Setup

>创建一个新的Google云项目(例如,“ VLLM-DEMO”),并启用工件注册表服务。

>vLLM: Setting Up vLLM Locally and on Google Cloud for CPU 步骤2:创建一个伪影存储库vLLM: Setting Up vLLM Locally and on Google Cloud for CPU vLLM: Setting Up vLLM Locally and on Google Cloud for CPU > vLLM: Setting Up vLLM Locally and on Google Cloud for CPU 创建一个名为“ Vllm-cpu”的Docker存储库。

>

vLLM: Setting Up vLLM Locally and on Google Cloud for CPU vLLM: Setting Up vLLM Locally and on Google Cloud for CPU

>>步骤3:构建并推动Docker Image

>

>使用云外壳来构建和推动Docker映像:

git clone https://github.com/vllm-project/vllm.git
cd vllm
docker build -f Dockerfile.arm -t vllm-cpu --shm-size=4g .  # Or Dockerfile.cpu
登录后复制
登录后复制

>步骤4:部署到云运行

>

>创建一个云运行服务,指定了推送的图像,端口8000,拥抱面象代币作为环境变量,模型名称和足够的资源(例如16 GIB内存,4 CPU)。 保持至少一个实例,以最大程度地减少寒冷的开始。

vLLM: Setting Up vLLM Locally and on Google Cloud for CPU vLLM: Setting Up vLLM Locally and on Google Cloud for CPU vLLM: Setting Up vLLM Locally and on Google Cloud for CPU

与已部署的LLM

> >将您的OpenAI客户端的基本URL更新为云运行服务URL。

成本注意事项:

记住要管理您的Google Cloud账单以避免出现意外费用。

GPU支持(Google cloud):

GPU在Google Cloud上可以根据要求提供。 启用GPU支持时,建议使用

>图像。> > vllm/vllm-openai:latest替代托管(runpod):

像runpod这样的服务提供更简单的部署,但通常以较高的成本为本。>

>本指南提供了VLLM部署的全面概述。 切记选择最适合您的资源和预算的设置。 始终仔细监视您的云成本。

以上是VLLM:在本地设置VLLM,并在Google Cloud上为CPU设置的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
作者最新文章
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板