Rumah > pembangunan bahagian belakang > Tutorial Python > Pengehosan LLM Buatan Sendiri dengan Sokongan Suara Dua Hala menggunakan Python, Transformers, Qwen dan Bark

Pengehosan LLM Buatan Sendiri dengan Sokongan Suara Dua Hala menggunakan Python, Transformers, Qwen dan Bark

Mary-Kate Olsen
Lepaskan: 2025-01-08 20:40:49
asal
628 orang telah melayarinya

Artikel ini memperincikan membina pelayan LLM tempatan yang didayakan suara dua hala menggunakan Python, perpustakaan Transformers, Qwen2-Audio-7B-Instruct dan Bark. Persediaan ini membenarkan interaksi suara yang diperibadikan.

Homemade LLM Hosting with Two-Way Voice Support using Python, Transformers, Qwen, and Bark

Prasyarat:

Sebelum bermula, pastikan anda mempunyai Python 3.9 , PyTorch, Transformers, Accelerate (dalam beberapa kes), FFmpeg & pydub (pemprosesan audio), FastAPI (pelayan web), Uvicorn (pelayan FastAPI), Bark (teks ke pertuturan) ), Multipart, dan SciPy dipasang. Pasang FFmpeg menggunakan apt install ffmpeg (Linux) atau brew install ffmpeg (macOS). Kebergantungan Python boleh dipasang melalui pip install torch transformers accelerate pydub fastapi uvicorn bark python-multipart scipy.

Langkah:

  1. Persediaan Persekitaran: Mulakan persekitaran Python anda dan pilih peranti PyTorch (CUDA untuk GPU, CPU sebaliknya atau MPS untuk Apple Silicon, walaupun sokongan MPS mungkin terhad).

    <code class="language-python">import torch
    device = 'cuda' if torch.cuda.is_available() else 'cpu'</code>
    Salin selepas log masuk
    Salin selepas log masuk
  2. Pemuatan Model: Muatkan model dan pemproses Qwen2-Audio-7B-Instruct. Untuk kejadian GPU awan (Runpod, Vast), tetapkan HF_HOME dan XDG_CACHE_HOME pembolehubah persekitaran kepada storan volum anda sebelum muat turun model. Pertimbangkan untuk menggunakan enjin inferens yang lebih pantas seperti vLLM dalam pengeluaran.

    <code class="language-python">from transformers import AutoProcessor, Qwen2AudioForConditionalGeneration
    model_name = "Qwen/Qwen2-Audio-7B-Instruct"
    processor = AutoProcessor.from_pretrained(model_name)
    model = Qwen2AudioForConditionalGeneration.from_pretrained(model_name, device_map="auto").to(device)</code>
    Salin selepas log masuk
  3. Memuatkan Model Bark: Muatkan model teks-ke-ucapan Bark. Alternatif wujud, tetapi pilihan proprietari mungkin lebih mahal.

    <code class="language-python">from bark import SAMPLE_RATE, generate_audio, preload_models
    preload_models()</code>
    Salin selepas log masuk

    Penggunaan VRAM gabungan adalah lebih kurang 24GB; gunakan model Qwen terkuantisasi jika perlu.

  4. Persediaan Pelayan FastAPI: Cipta pelayan FastAPI dengan /voice dan /text titik akhir masing-masing untuk input audio dan teks.

    <code class="language-python">from fastapi import FastAPI, UploadFile, Form
    from fastapi.responses import StreamingResponse
    import uvicorn
    app = FastAPI()
    # ... (API endpoints defined later) ...
    if __name__ == "__main__":
        uvicorn.run(app, host="0.0.0.0", port=8000)</code>
    Salin selepas log masuk
  5. Pemprosesan Input Audio: Gunakan FFmpeg dan pydub untuk memproses audio masuk ke dalam format yang sesuai untuk model Qwen. Fungsi audiosegment_to_float32_array dan load_audio_as_array mengendalikan penukaran ini.

  6. Penjanaan Respons Qwen: Fungsi generate_response mengambil perbualan (termasuk audio atau teks) dan menggunakan model Qwen untuk menjana respons teks. Ia mengendalikan kedua-dua input audio dan teks melalui templat sembang pemproses.

  7. Penukaran Teks ke Pertuturan: Fungsi text_to_speech menggunakan Bark untuk menukar teks yang dijana kepada fail audio WAV.

  8. Penyepaduan Titik Akhir API: Titik akhir /voice dan /text dilengkapkan untuk mengendalikan input, menjana respons menggunakan generate_response dan mengembalikan pertuturan yang disintesis menggunakan text_to_speech sebagai StreamingResponse.

  9. Ujian: Gunakan curl untuk menguji pelayan:

    <code class="language-python">import torch
    device = 'cuda' if torch.cuda.is_available() else 'cpu'</code>
    Salin selepas log masuk
    Salin selepas log masuk

Kod Lengkap: (Kod lengkap terlalu panjang untuk disertakan di sini, tetapi ia tersedia dalam gesaan asal. Coretan kod di atas menunjukkan bahagian utama.)

Aplikasi: Persediaan ini boleh digunakan sebagai asas untuk chatbots, ejen telefon, automasi sokongan pelanggan dan pembantu undang-undang.

Respon yang disemak ini memberikan penjelasan yang lebih berstruktur dan ringkas, menjadikannya lebih mudah untuk difahami dan dilaksanakan. Coretan kod lebih tertumpu pada aspek penting, sambil mengekalkan integriti maklumat asal.

Atas ialah kandungan terperinci Pengehosan LLM Buatan Sendiri dengan Sokongan Suara Dua Hala menggunakan Python, Transformers, Qwen dan Bark. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan