Rumah > pembangunan bahagian belakang > Tutorial Python > Apakah pilihan untuk menjalankan LLM secara tempatan menggunakan pemberat pra-latihan?

Apakah pilihan untuk menjalankan LLM secara tempatan menggunakan pemberat pra-latihan?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
Lepaskan: 2024-02-22 12:34:09
ke hadapan
694 orang telah melayarinya

Apakah pilihan untuk menjalankan LLM secara tempatan menggunakan pemberat pra-latihan?

Kandungan soalan

Saya mempunyai kluster yang tidak disambungkan ke internet walaupun terdapat repositori berat yang tersedia. Saya perlu menjalankan inferens LLM padanya.

Satu-satunya pilihan yang saya temui setakat ini ialah menggunakan perisian transformerslangchain 模块的组合,但我不想调整模型的超参数。我遇到了 ollama, tetapi saya tidak boleh memasang apa-apa pada kluster, kecuali perpustakaan python. Jadi, secara semula jadi saya tertanya-tanya, apakah pilihan untuk menjalankan inferens LLM? Masih ada beberapa soalan.

  1. Bolehkah saya memasang ollama-python pakej tanpa memasang perisian Linux mereka? Atau adakah saya memerlukan kedua-duanya untuk menjalankan penaakulan saya?
  2. Jika saya berjaya memasang pada kluster ini ollama,如何为模型提供预训练权重?如果有帮助,它们存储在(有时多个).bin dalam fail

Jawapan betul


Anda sebenarnya tidak perlu memasang model ollama。相反,您可以直接本地运行 llm,例如 mistral

llm = gpt4all(
    model="/home/jeff/.cache/huggingface/hub/gpt4all/mistral-7b-openorca.q4_0.gguf",
    device='gpu', n_threads=8,
    callbacks=callbacks, verbose=true)
Salin selepas log masuk

atau untuk falcon

from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
import torch

model_id = "tiiuae/falcon-7b-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id)
pipeline = pipeline(
    "text-generation",
    model=model_id,
    tokenizer=tokenizer,
    torch_dtype=torch.bfloat16,
    # trust_remote_code=True,
    device_map="auto",
    max_new_tokens=100,
    # max_length=200,
)


from langchain_community.llms.huggingface_pipeline import HuggingFacePipeline
llm = HuggingFacePipeline(pipeline=pipeline)
Salin selepas log masuk

Saya mempunyai memori 16g nvidia 4090 dipasang pada komputer riba saya, yang boleh menyokong 2 model di atas untuk dijalankan secara tempatan.

Atas ialah kandungan terperinci Apakah pilihan untuk menjalankan LLM secara tempatan menggunakan pemberat pra-latihan?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan