我有一個集群,雖然有一個可用的權重儲存庫,但未連接到互聯網。我需要對其運行 LLM 推理。
到目前為止,我發現的唯一選擇是使用 transformers
和 langchain
模組的組合,但我不想調整模型的超參數。我遇到了 ollama
軟體,但我無法在叢集上安裝任何東西,除了 python 庫之外。所以,我自然想知道,運行 LLM 推理有哪些選擇?還有一些問題。
ollama-python
軟體包而不安裝他們的 Linux 軟體嗎?或者我需要兩者來運行我的推理嗎? ollama
,如何為模型提供預訓練權重?如果有幫助,它們儲存在(有時多個).bin
檔案中您實際上不必安裝 ollama
。相反,您可以直接本地運行 llm,例如 mistral
模型
llm = gpt4all( model="/home/jeff/.cache/huggingface/hub/gpt4all/mistral-7b-openorca.q4_0.gguf", device='gpu', n_threads=8, callbacks=callbacks, verbose=true)
或對於 falcon
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline import torch model_id = "tiiuae/falcon-7b-instruct" tokenizer = AutoTokenizer.from_pretrained(model_id) pipeline = pipeline( "text-generation", model=model_id, tokenizer=tokenizer, torch_dtype=torch.bfloat16, # trust_remote_code=True, device_map="auto", max_new_tokens=100, # max_length=200, ) from langchain_community.llms.huggingface_pipeline import HuggingFacePipeline llm = HuggingFacePipeline(pipeline=pipeline)
我的筆記型電腦上安裝了 16g 記憶體 nvidia 4090,可以支援上述 2 個型號本地運行。
以上是使用預訓練權重在本地運行法學碩士有哪些選擇?的詳細內容。更多資訊請關注PHP中文網其他相關文章!