Maison > développement back-end > Tutoriel Python > Quelles sont les options pour exécuter LLM localement à l'aide de poids pré-entraînés ?

Quelles sont les options pour exécuter LLM localement à l'aide de poids pré-entraînés ?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
Libérer: 2024-02-22 12:34:09
avant
672 Les gens l'ont consulté

Quelles sont les options pour exécuter LLM localement à laide de poids pré-entraînés ?

Contenu de la question

J'ai un cluster qui n'est pas connecté à internet bien qu'un référentiel de poids soit disponible. Je dois exécuter l'inférence LLM dessus.

La seule option que j'ai trouvée jusqu'à présent est d'utiliser le logiciel transformerslangchain 模块的组合,但我不想调整模型的超参数。我遇到了 ollama, mais je ne peux rien installer sur le cluster, à l'exception de la bibliothèque python. Alors, naturellement, je me suis demandé quelles sont les options pour exécuter l’inférence LLM ? Il reste encore quelques questions.

  1. Puis-je simplement installer ollama-python packages sans installer leur logiciel Linux ? Ou ai-je besoin des deux pour mener mon raisonnement ?
  2. Si j'arrive à installer ollama,如何为模型提供预训练权重?如果有帮助,它们存储在(有时多个).bin sur ce cluster

Bonne réponse


Vous n'êtes pas réellement obligé d'installer le ollama。相反,您可以直接本地运行 llm,例如 mistral modèle

llm = gpt4all(
    model="/home/jeff/.cache/huggingface/hub/gpt4all/mistral-7b-openorca.q4_0.gguf",
    device='gpu', n_threads=8,
    callbacks=callbacks, verbose=true)
Copier après la connexion

ou pour falcon

from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
import torch

model_id = "tiiuae/falcon-7b-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id)
pipeline = pipeline(
    "text-generation",
    model=model_id,
    tokenizer=tokenizer,
    torch_dtype=torch.bfloat16,
    # trust_remote_code=True,
    device_map="auto",
    max_new_tokens=100,
    # max_length=200,
)


from langchain_community.llms.huggingface_pipeline import HuggingFacePipeline
llm = HuggingFacePipeline(pipeline=pipeline)
Copier après la connexion

J'ai 16 Go de mémoire nvidia 4090 installée sur mon ordinateur portable, qui peut prendre en charge les 2 modèles ci-dessus pour fonctionner localement.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal