vllm (가상 대형 언어 모델) : 로컬 및 클라우드 배치에 대한 포괄적 인 안내서
docker가있는 로컬 CPU 설정
고급 GPU에 액세스 할 수없는 사용자의 경우 VLLM은 CPU 최적화 된 Docker 이미지를 제공합니다. 이는 프로세스를 단순화하여 수동 설치 및 잠재적 호환성 문제를 제거합니다.
1 단계 : Docker Image 구축
vllm 저장소를 클로닝하여 시작하십시오. Mac과 같은 ARM 기반 CPU의 경우 표준 CPU의 경우 적절한 dockerfile (Dockerfile.cpu, dockerfile.arm)을 사용하십시오.
2 단계 : 포옹 얼굴 구성
포옹 페이스 계정을 만들고 API 토큰을 얻으십시오.
모델에 대한 액세스를 요청합니다 (예 : 테스트의 경우
)
3 단계 : Docker 컨테이너를 실행하는
를 실제 토큰으로 대체하여 다음 명령을 실행하십시오.
서버가 시작됩니다. "애플리케이션 시작 완료"가 표시되면 준비되었습니다.
llm 와 상호 작용합니다
vllm의 OpenAI API 호환성은 기존 OpenAI 코드를 사용한 원활한 상호 작용을 허용합니다. OpenAI 클라이언트에서 기본 URL을
로 수정하십시오. 옵션 API 키 인증은 명령의 플래그를 통해 추가 할 수 있습니다.
Google 클라우드 배포 git clone https://github.com/vllm-project/vllm.git
cd vllm
docker build -f Dockerfile.arm -t vllm-cpu --shm-size=4g . # Or Dockerfile.cpu
로그인 후 복사
로그인 후 복사
Google Cloud에 vllm을 배포하면 확장 성이 제공됩니다
1 단계 : Google 클라우드 설정
새로운 Google Cloud 프로젝트 (예 : "Vllm-Demo")를 만들고 Artifact Registry 서비스를 활성화합니다.
2 단계 : 아티팩트 리포지토리 생성 -
Artifact Registry에서 "vllm-cpu"라는 Docker 저장소 생성.
3 단계 : Docker 이미지를 빌드하고 밀어 넣으십시오
클라우드 쉘을 사용하여 Docker 이미지를 빌드하고 밀어 넣습니다.
4 단계 : 클라우드 런에 배포
클라우드 실행 서비스를 작성하고 푸시 된 이미지, 포트 8000, 포옹 페이스 토큰을 환경 변수, 모델 이름 및 충분한 리소스 (예 : 16 gib 메모리, 4 CPU)로 지정합니다. 콜드 스타트를 최소화하려면 적어도 하나의 인스턴스를 유지하십시오.
배포 된 llm 와 상호 작용합니다
OpenAi 클라이언트의 기본 URL을 클라우드 실행 서비스 URL로 업데이트하십시오.
비용 고려 사항 :
예상치 못한 요금을 피하기 위해 Google 클라우드 청구를 관리해야합니다.
GPU 지원 (Google Cloud) : Google Cloud Run의 GPU 지원은 요청시 제공됩니다. GPU 지원이 활성화 될 때는 이미지를 사용하는 것이 좋습니다.
대체 호스팅 (runpod) : runpod와 같은 서비스는 더 간단한 배포를 제공하지만 종종 더 높은 비용으로 제공합니다.
git clone https://github.com/vllm-project/vllm.git
cd vllm
docker build -f Dockerfile.arm -t vllm-cpu --shm-size=4g . # Or Dockerfile.cpu
로그인 후 복사
로그인 후 복사
이 안내서는 vllm 배포에 대한 포괄적 인 개요를 제공합니다. 자원과 예산에 가장 적합한 설정을 선택하십시오. 클라우드 비용을 항상 신중하게 모니터링하십시오
위 내용은 VLLM : CPU 용 Google Cloud에서 VLL 설정의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!