Artikel ini memperincikan membina pelayan LLM tempatan yang didayakan suara dua hala menggunakan Python, perpustakaan Transformers, Qwen2-Audio-7B-Instruct dan Bark. Persediaan ini membenarkan interaksi suara yang diperibadikan.
Prasyarat:
Sebelum bermula, pastikan anda mempunyai Python 3.9 , PyTorch, Transformers, Accelerate (dalam beberapa kes), FFmpeg & pydub (pemprosesan audio), FastAPI (pelayan web), Uvicorn (pelayan FastAPI), Bark (teks ke pertuturan) ), Multipart, dan SciPy dipasang. Pasang FFmpeg menggunakan apt install ffmpeg
(Linux) atau brew install ffmpeg
(macOS). Kebergantungan Python boleh dipasang melalui pip install torch transformers accelerate pydub fastapi uvicorn bark python-multipart scipy
.
Langkah:
Persediaan Persekitaran: Mulakan persekitaran Python anda dan pilih peranti PyTorch (CUDA untuk GPU, CPU sebaliknya atau MPS untuk Apple Silicon, walaupun sokongan MPS mungkin terhad).
<code class="language-python">import torch device = 'cuda' if torch.cuda.is_available() else 'cpu'</code>
Pemuatan Model: Muatkan model dan pemproses Qwen2-Audio-7B-Instruct. Untuk kejadian GPU awan (Runpod, Vast), tetapkan HF_HOME
dan XDG_CACHE_HOME
pembolehubah persekitaran kepada storan volum anda sebelum muat turun model. Pertimbangkan untuk menggunakan enjin inferens yang lebih pantas seperti vLLM dalam pengeluaran.
<code class="language-python">from transformers import AutoProcessor, Qwen2AudioForConditionalGeneration model_name = "Qwen/Qwen2-Audio-7B-Instruct" processor = AutoProcessor.from_pretrained(model_name) model = Qwen2AudioForConditionalGeneration.from_pretrained(model_name, device_map="auto").to(device)</code>
Memuatkan Model Bark: Muatkan model teks-ke-ucapan Bark. Alternatif wujud, tetapi pilihan proprietari mungkin lebih mahal.
<code class="language-python">from bark import SAMPLE_RATE, generate_audio, preload_models preload_models()</code>
Penggunaan VRAM gabungan adalah lebih kurang 24GB; gunakan model Qwen terkuantisasi jika perlu.
Persediaan Pelayan FastAPI: Cipta pelayan FastAPI dengan /voice
dan /text
titik akhir masing-masing untuk input audio dan teks.
<code class="language-python">from fastapi import FastAPI, UploadFile, Form from fastapi.responses import StreamingResponse import uvicorn app = FastAPI() # ... (API endpoints defined later) ... if __name__ == "__main__": uvicorn.run(app, host="0.0.0.0", port=8000)</code>
Pemprosesan Input Audio: Gunakan FFmpeg dan pydub untuk memproses audio masuk ke dalam format yang sesuai untuk model Qwen. Fungsi audiosegment_to_float32_array
dan load_audio_as_array
mengendalikan penukaran ini.
Penjanaan Respons Qwen: Fungsi generate_response
mengambil perbualan (termasuk audio atau teks) dan menggunakan model Qwen untuk menjana respons teks. Ia mengendalikan kedua-dua input audio dan teks melalui templat sembang pemproses.
Penukaran Teks ke Pertuturan: Fungsi text_to_speech
menggunakan Bark untuk menukar teks yang dijana kepada fail audio WAV.
Penyepaduan Titik Akhir API: Titik akhir /voice
dan /text
dilengkapkan untuk mengendalikan input, menjana respons menggunakan generate_response
dan mengembalikan pertuturan yang disintesis menggunakan text_to_speech
sebagai StreamingResponse.
Ujian: Gunakan curl
untuk menguji pelayan:
<code class="language-python">import torch device = 'cuda' if torch.cuda.is_available() else 'cpu'</code>
Kod Lengkap: (Kod lengkap terlalu panjang untuk disertakan di sini, tetapi ia tersedia dalam gesaan asal. Coretan kod di atas menunjukkan bahagian utama.)
Aplikasi: Persediaan ini boleh digunakan sebagai asas untuk chatbots, ejen telefon, automasi sokongan pelanggan dan pembantu undang-undang.
Respon yang disemak ini memberikan penjelasan yang lebih berstruktur dan ringkas, menjadikannya lebih mudah untuk difahami dan dilaksanakan. Coretan kod lebih tertumpu pada aspek penting, sambil mengekalkan integriti maklumat asal.
Atas ialah kandungan terperinci Pengehosan LLM Buatan Sendiri dengan Sokongan Suara Dua Hala menggunakan Python, Transformers, Qwen dan Bark. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!