Saya mempunyai kluster yang tidak disambungkan ke internet walaupun terdapat repositori berat yang tersedia. Saya perlu menjalankan inferens LLM padanya.
Satu-satunya pilihan yang saya temui setakat ini ialah menggunakan perisian transformers
和 langchain
模块的组合,但我不想调整模型的超参数。我遇到了 ollama
, tetapi saya tidak boleh memasang apa-apa pada kluster, kecuali perpustakaan python. Jadi, secara semula jadi saya tertanya-tanya, apakah pilihan untuk menjalankan inferens LLM? Masih ada beberapa soalan.
ollama-python
pakej tanpa memasang perisian Linux mereka? Atau adakah saya memerlukan kedua-duanya untuk menjalankan penaakulan saya? ollama
,如何为模型提供预训练权重?如果有帮助,它们存储在(有时多个).bin
dalam fail Anda sebenarnya tidak perlu memasang model ollama
。相反,您可以直接本地运行 llm,例如 mistral
llm = gpt4all( model="/home/jeff/.cache/huggingface/hub/gpt4all/mistral-7b-openorca.q4_0.gguf", device='gpu', n_threads=8, callbacks=callbacks, verbose=true)
atau untuk falcon
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline import torch model_id = "tiiuae/falcon-7b-instruct" tokenizer = AutoTokenizer.from_pretrained(model_id) pipeline = pipeline( "text-generation", model=model_id, tokenizer=tokenizer, torch_dtype=torch.bfloat16, # trust_remote_code=True, device_map="auto", max_new_tokens=100, # max_length=200, ) from langchain_community.llms.huggingface_pipeline import HuggingFacePipeline llm = HuggingFacePipeline(pipeline=pipeline)
Saya mempunyai memori 16g nvidia 4090 dipasang pada komputer riba saya, yang boleh menyokong 2 model di atas untuk dijalankan secara tempatan.
Atas ialah kandungan terperinci Apakah pilihan untuk menjalankan LLM secara tempatan menggunakan pemberat pra-latihan?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!