Rumah > pembangunan bahagian belakang > Tutorial Python > Apakah pilihan untuk menjalankan LLM secara tempatan menggunakan pemberat pra-latihan?

Apakah pilihan untuk menjalankan LLM secara tempatan menggunakan pemberat pra-latihan?

WBOY
Lepaskan: 2024-02-22 12:34:09
ke hadapan
629 orang telah melayarinya

Apakah pilihan untuk menjalankan LLM secara tempatan menggunakan pemberat pra-latihan?

Kandungan soalan

Saya mempunyai kluster yang tidak disambungkan ke internet walaupun terdapat repositori berat yang tersedia. Saya perlu menjalankan inferens LLM padanya.

Satu-satunya pilihan yang saya temui setakat ini ialah menggunakan perisian transformerslangchain 模块的组合,但我不想调整模型的超参数。我遇到了 ollama, tetapi saya tidak boleh memasang apa-apa pada kluster, kecuali perpustakaan python. Jadi, secara semula jadi saya tertanya-tanya, apakah pilihan untuk menjalankan inferens LLM? Masih ada beberapa soalan.

  1. Bolehkah saya memasang ollama-python pakej tanpa memasang perisian Linux mereka? Atau adakah saya memerlukan kedua-duanya untuk menjalankan penaakulan saya?
  2. Jika saya berjaya memasang pada kluster ini ollama,如何为模型提供预训练权重?如果有帮助,它们存储在(有时多个).bin dalam fail

Jawapan betul


Anda sebenarnya tidak perlu memasang model ollama。相反,您可以直接本地运行 llm,例如 mistral

llm = gpt4all(
    model="/home/jeff/.cache/huggingface/hub/gpt4all/mistral-7b-openorca.q4_0.gguf",
    device='gpu', n_threads=8,
    callbacks=callbacks, verbose=true)
Salin selepas log masuk

atau untuk falcon

from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
import torch

model_id = "tiiuae/falcon-7b-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id)
pipeline = pipeline(
    "text-generation",
    model=model_id,
    tokenizer=tokenizer,
    torch_dtype=torch.bfloat16,
    # trust_remote_code=True,
    device_map="auto",
    max_new_tokens=100,
    # max_length=200,
)


from langchain_community.llms.huggingface_pipeline import HuggingFacePipeline
llm = HuggingFacePipeline(pipeline=pipeline)
Salin selepas log masuk

Saya mempunyai memori 16g nvidia 4090 dipasang pada komputer riba saya, yang boleh menyokong 2 model di atas untuk dijalankan secara tempatan.

Atas ialah kandungan terperinci Apakah pilihan untuk menjalankan LLM secara tempatan menggunakan pemberat pra-latihan?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:stackoverflow.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan