Baiklah, gunakan tali pinggang kerana kami menyelami penyelesaian yang cepat dan kotor untuk menjalankan LLM (Model Bahasa) tempatan dan membuat permintaan API — sama seperti yang dilakukan oleh penyelesaian komersial yang mewah. kenapa? Nah, kenapa tidak? Hanya dalam kira-kira tiga minit, anda boleh mempunyai sistem yang sangat baik berjalan secara tempatan untuk kebanyakan ujian anda. Dan jika anda merasakan keperluan untuk meningkatkan ke awan sekali lagi, beralih kembali boleh dikatakan mudah.
Berikut ialah dokumentasi yang akan kami ikuti, kebanyakannya supaya anda boleh mendakwa anda telah membacanya:
Khususnya, kami akan menumpukan pada membuat permintaan seperti ini:
curl https://api.openai.com/v1/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer $OPENAI_API_KEY" \ -d '{ "model": "gpt-4o-mini", "messages": [{"role": "user", "content": "Say this is a test!"}], "temperature": 0.7 }'
Setakat ini, sangat bagus, bukan? Tiada apa-apa yang pecah tanah. Tetapi di sinilah ia menjadi menyeronokkan…
Terdapat permata alat yang dipanggil LM Studio](https://lmstudio.ai/), yang menjadikan LLM tempatan lebih mudah dikendalikan. Selepas memasang dan menjalankan model anda, anda akan melihat tab dengan ikon konsol yang dipanggil Pembangun. Saya tahu, ia tidak kedengaran terlalu mengujakan pada mulanya, tetapi tahan, kerana ia menjadi lebih baik. Tab ini disertakan dengan contoh CURL berguna yang menunjukkan kepada anda cara menggunakan model tempatan anda dengan tepat. Dan, tidakkah anda tahu, ia kelihatan agak biasa!
curl http://localhost:1234/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "llama-3.1-8b-lexi-uncensored-v2", "messages": [ { "role": "system", "content": "Always answer in rhymes. Today is Thursday" }, { "role": "user", "content": "What day is it today?" } ], "temperature": 0.7, "max_tokens": -1, "stream": false }'
Nampak familiar kan? Ini adalah versi tempatan yang baru kami lihat. Anda mendapat persediaan yang sama seperti permintaan OpenAI API, kecuali ia dijalankan pada mesin tempatan anda. Selain itu, ia mempunyai sedikit bakat — seperti gesaan sistem "Sentiasa jawab dalam sajak". Puisi, sesiapa?
Jika anda lebih suka bekerja dengan Python (dan biar betul, siapa yang tidak?), berikut adalah cara anda menghantar permintaan yang sama menggunakan modul permintaan Python:
import requests import json url = "http://localhost:1234/v1/chat/completions" headers = { "Content-Type": "application/json" } data = { "model": "llama-3.1-8b-lexi-uncensored-v2", "messages": [ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "What is the capital of France?"} ], "temperature": 0.7, "max_tokens": -1, "stream": False } response = requests.post(url, headers=headers, data=json.dumps(data)) if response.status_code == 200: result = response.json() print(result["choices"][0]["message"]["content"]) else: print(f"Error: {response.status_code}")
Dan voilà! Anda kini bersedia untuk menghantar permintaan kepada LLM tempatan anda seperti yang anda lakukan dengan API komersial. Teruskan, uji, pecahkan, jadikan ia berirama — dunia (atau sekurang-kurangnya model anda) ialah tiram anda.
Atas ialah kandungan terperinci Panduan Pantas dan Kotor untuk Menjalankan LLM Tempatan dan Membuat Permintaan API. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!