Gambaran Keseluruhan Projek
Dalam cabaran EnCode 2025, matlamat saya adalah untuk mencipta ejen jualan AI yang mampu menghasilkan interaksi suara yang berkualiti tinggi, semula jadi dan lancar serta berusaha untuk mencapai kependaman ultra-rendah, seperti pengalaman seperti bercakap dengan orang sebenar. Akhirnya, saya membina sistem yang boleh mengendalikan perbualan jualan lengkap untuk pusat bimbingan dalam talian, daripada menyapa bakal pelanggan kepada memahami keperluan mereka dan mengesyorkan kursus yang berkaitan, semuanya dalam suara yang positif, mesra, seperti manusia. Bayangkan seorang jurujual yang tidak jemu dan sentiasa kelihatan terbaik!
Timbunan teknologi
-
Pemprosesan Suara: Whisper Large V3 Turbo (memastikan pengecaman pertuturan yang jelas)
-
Logik teras: LLaMA 3.3 70B (merealisasikan dialog pintar)
-
Output suara: F5 TTS (menjana tindak balas suara yang semula jadi dan lancar)
-
Pangkalan Data: Pangkalan data vektor Pinecone (untuk pengurusan konteks dan mendapatkan maklumat)
-
Platform demo: Google Colab
Cara sistem berfungsi
Sistem mengikut tiga langkah utama:
- Ucapan ke teks (STT)
- Model Bahasa Skala Besar (LLM)
- Teks untuk Ucapan (TTS)
Carta Aliran: Pengguna -> LLM ->
Proses terperinci:
Pelanggan Bercakap -> Whisper menyalin teks. -
Pengurus fasa (menggunakan ungkapan biasa) menjejaki fasa perbualan. -
Pinecone mengekstrak data yang berkaitan daripada pangkalan data. -
LLaMA 3.3 70B Bina balasan yang sempurna. -
F5 TTS menukar teks kepada pertuturan semula jadi. -
Fungsi utama
- Pemilihan suara pintar: Menyediakan 6 suara AI yang berbeza (2 lelaki dan 4 perempuan)
- Balasan sedar konteks: Berdasarkan teknologi carian persamaan vektor
- Aliran dialog berstruktur: Dikawal oleh pengurus pentas khusus
Had semasa
- Persekitaran demo: Berjalan berdasarkan Google Colab.
- Had Memori: Had tetingkap konteks sebanyak 8k token.
- Pengkomputeran penggunaan sumber: Penggunaan sumber adalah besar.
- Ketergantungan API: Fungsi teras bergantung pada berbilang API.
- Kependaman tinggi: Terdapat masalah kependaman tertentu.
Ringkasan pengalaman
Aspek teknikal:
-
Aplikasi pangkalan data vektor: Menggunakan pangkalan data vektor Pinecone membolehkan saya menyedari cara pangkalan data vektor boleh mengubah peraturan permainan apabila tetingkap konteks adalah terhad. Fungsi carian persamaan peringkat milisaat boleh memproses sejarah perbualan dan data latihan dengan berkesan, dan sangat berkuasa.
-
Kepentingan Pengurusan Peringkat: Dengan menjelaskan peringkat perbualan, anda boleh dengan mudah memasukkan contoh yang berkaitan dengan peringkat itu, seperti cara melontarkan, soalan apa yang perlu ditanya, dsb.
-
Penyatuan Web: Menggunakan fastapi untuk interaksi data bahagian hadapan dan belakang yang cekap adalah penting. Dengan webhooks, kami dapat bertukar-tukar data sepanjang perbualan dan kekal berhubung sambil hanya memulakan panggilan AI sekali.
Reka bentuk sistem:
-
Kepentingan Chunking:Memecahkan audio kepada segmen sepanjang 5 saat untuk diproses dan bukannya menunggu ayat yang lengkap meningkatkan pengalaman pengguna dengan ketara dan mengurangkan masa pemprosesan. Ini memerlukan mencari keseimbangan terbaik antara ketepatan dan kelajuan.
-
Kelebihan seni bina modular: Mengurai sistem kepada perkhidmatan bebas (STT, LLM, TTS) sangat memudahkan proses pembangunan dan penyahpepijatan. Apabila masalah berlaku, anda boleh mencari bahagian yang perlu diperbaiki dengan cepat.
Had sebenar:
-
Kos API: Menguruskan berbilang panggilan API (Whisper, LLAMA) mengajar saya kepentingan mengoptimumkan penggunaan API. Meminimumkan bilangan panggilan API sambil mengekalkan kelajuan adalah satu cabaran besar.
-
Mengurangkan kependaman: Mengurangkan kependaman adalah sangat sukar apabila data sentiasa diambil dan diproses daripada internet. Pada masa hadapan, saya akan cuba meminimumkan bilangan kali saya memindahkan atau memuat turun data dari internet.
Cabaran yang tidak dijangka:
-
Kejuruteraan kata gesaan: Kejuruteraan kata gesaan adalah penting, ia menentukan sama ada model boleh menyatakan secara koheren seperti manusia, atau sama ada ia akan mengulangi ayat yang sama.
-
Had Tetingkap Konteks: Had token 8k memaksa saya mengurus konteks dengan bijak. Daripada menyimpan semua maklumat, mendapatkan bahagian yang berkaitan daripada pangkalan data vektor membolehkan saya mereka bentuk struktur untuk LLM yang mengandungi semua maklumat yang diperlukan.
Rancangan Masa Depan
- Gunakan teknologi berbilang benang untuk mengurangkan kependaman.
- Menambahkan sokongan berbilang bahasa.
- Tambahkan lebih banyak jenis bot, seperti "bot utama" untuk menghubungi pelanggan selepas petunjuk awal untuk menutup tawaran.
Projek Pengalaman
https://www.php.cn/link/55e2c9d06a7261846e96b8bb2d4e1fe5
GitHub ---
Selamat datang untuk mengemukakan cadangan berharga anda di ruang komen!
Atas ialah kandungan terperinci Membina Ejen Jualan AI: Dari Suara ke Pitch.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!