


Pengehosan LLM Buatan Sendiri dengan Sokongan Suara Dua Hala menggunakan Python, Transformers, Qwen dan Bark
Artikel ini memperincikan membina pelayan LLM tempatan yang didayakan suara dua hala menggunakan Python, perpustakaan Transformers, Qwen2-Audio-7B-Instruct dan Bark. Persediaan ini membenarkan interaksi suara yang diperibadikan.
Prasyarat:
Sebelum bermula, pastikan anda mempunyai Python 3.9 , PyTorch, Transformers, Accelerate (dalam beberapa kes), FFmpeg & pydub (pemprosesan audio), FastAPI (pelayan web), Uvicorn (pelayan FastAPI), Bark (teks ke pertuturan) ), Multipart, dan SciPy dipasang. Pasang FFmpeg menggunakan apt install ffmpeg
(Linux) atau brew install ffmpeg
(macOS). Kebergantungan Python boleh dipasang melalui pip install torch transformers accelerate pydub fastapi uvicorn bark python-multipart scipy
.
Langkah:
-
Persediaan Persekitaran: Mulakan persekitaran Python anda dan pilih peranti PyTorch (CUDA untuk GPU, CPU sebaliknya atau MPS untuk Apple Silicon, walaupun sokongan MPS mungkin terhad).
import torch device = 'cuda' if torch.cuda.is_available() else 'cpu'
Salin selepas log masukSalin selepas log masuk -
Pemuatan Model: Muatkan model dan pemproses Qwen2-Audio-7B-Instruct. Untuk kejadian GPU awan (Runpod, Vast), tetapkan
HF_HOME
danXDG_CACHE_HOME
pembolehubah persekitaran kepada storan volum anda sebelum muat turun model. Pertimbangkan untuk menggunakan enjin inferens yang lebih pantas seperti vLLM dalam pengeluaran.from transformers import AutoProcessor, Qwen2AudioForConditionalGeneration model_name = "Qwen/Qwen2-Audio-7B-Instruct" processor = AutoProcessor.from_pretrained(model_name) model = Qwen2AudioForConditionalGeneration.from_pretrained(model_name, device_map="auto").to(device)
Salin selepas log masuk -
Memuatkan Model Bark: Muatkan model teks-ke-ucapan Bark. Alternatif wujud, tetapi pilihan proprietari mungkin lebih mahal.
from bark import SAMPLE_RATE, generate_audio, preload_models preload_models()
Salin selepas log masukPenggunaan VRAM gabungan adalah lebih kurang 24GB; gunakan model Qwen terkuantisasi jika perlu.
-
Persediaan Pelayan FastAPI: Cipta pelayan FastAPI dengan
/voice
dan/text
titik akhir masing-masing untuk input audio dan teks.from fastapi import FastAPI, UploadFile, Form from fastapi.responses import StreamingResponse import uvicorn app = FastAPI() # ... (API endpoints defined later) ... if __name__ == "__main__": uvicorn.run(app, host="0.0.0.0", port=8000)
Salin selepas log masuk -
Pemprosesan Input Audio: Gunakan FFmpeg dan pydub untuk memproses audio masuk ke dalam format yang sesuai untuk model Qwen. Fungsi
audiosegment_to_float32_array
danload_audio_as_array
mengendalikan penukaran ini. -
Penjanaan Respons Qwen: Fungsi
generate_response
mengambil perbualan (termasuk audio atau teks) dan menggunakan model Qwen untuk menjana respons teks. Ia mengendalikan kedua-dua input audio dan teks melalui templat sembang pemproses. -
Penukaran Teks ke Pertuturan: Fungsi
text_to_speech
menggunakan Bark untuk menukar teks yang dijana kepada fail audio WAV. -
Penyepaduan Titik Akhir API: Titik akhir
/voice
dan/text
dilengkapkan untuk mengendalikan input, menjana respons menggunakangenerate_response
dan mengembalikan pertuturan yang disintesis menggunakantext_to_speech
sebagai StreamingResponse. -
Ujian: Gunakan
curl
untuk menguji pelayan:import torch device = 'cuda' if torch.cuda.is_available() else 'cpu'
Salin selepas log masukSalin selepas log masuk
Kod Lengkap: (Kod lengkap terlalu panjang untuk disertakan di sini, tetapi ia tersedia dalam gesaan asal. Coretan kod di atas menunjukkan bahagian utama.)
Aplikasi: Persediaan ini boleh digunakan sebagai asas untuk chatbots, ejen telefon, automasi sokongan pelanggan dan pembantu undang-undang.
Respon yang disemak ini memberikan penjelasan yang lebih berstruktur dan ringkas, menjadikannya lebih mudah untuk difahami dan dilaksanakan. Coretan kod lebih tertumpu pada aspek penting, sambil mengekalkan integriti maklumat asal.
Atas ialah kandungan terperinci Pengehosan LLM Buatan Sendiri dengan Sokongan Suara Dua Hala menggunakan Python, Transformers, Qwen dan Bark. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Penyelesaian kepada Isu Kebenaran Semasa Melihat Versi Python di Terminal Linux Apabila anda cuba melihat versi Python di Terminal Linux, masukkan Python ...

Cara mengelakkan dikesan semasa menggunakan fiddlerevery di mana untuk bacaan lelaki-dalam-pertengahan apabila anda menggunakan fiddlerevery di mana ...

Apabila menggunakan Perpustakaan Pandas Python, bagaimana untuk menyalin seluruh lajur antara dua data data dengan struktur yang berbeza adalah masalah biasa. Katakan kita mempunyai dua DAT ...

Bagaimanakah Uvicorn terus mendengar permintaan HTTP? Uvicorn adalah pelayan web ringan berdasarkan ASGI. Salah satu fungsi terasnya ialah mendengar permintaan HTTP dan teruskan ...

Fastapi ...

Menggunakan Python di Terminal Linux ...

Bagaimana Mengajar Asas Pengaturcaraan Pemula Komputer Dalam masa 10 jam? Sekiranya anda hanya mempunyai 10 jam untuk mengajar pemula komputer beberapa pengetahuan pengaturcaraan, apa yang akan anda pilih untuk mengajar ...

Memahami Strategi Anti-Crawling of Investing.com Ramai orang sering cuba merangkak data berita dari Investing.com (https://cn.investing.com/news/latest-news) ...
