Rumah > pembangunan bahagian belakang > Tutorial Python > Membina Ejen Jualan AI: Dari Suara ke Pitch.

Membina Ejen Jualan AI: Dari Suara ke Pitch.

DDD
Lepaskan: 2025-01-18 18:13:11
asal
428 orang telah melayarinya

Building an AI Sales Agent: From Voice to Pitch.

Gambaran Keseluruhan Projek

Dalam cabaran EnCode 2025, matlamat saya adalah untuk mencipta ejen jualan AI yang mampu menghasilkan interaksi suara yang berkualiti tinggi, semula jadi dan lancar serta berusaha untuk mencapai kependaman ultra-rendah, seperti pengalaman seperti bercakap dengan orang sebenar. Akhirnya, saya membina sistem yang boleh mengendalikan perbualan jualan lengkap untuk pusat bimbingan dalam talian, daripada menyapa bakal pelanggan kepada memahami keperluan mereka dan mengesyorkan kursus yang berkaitan, semuanya dalam suara yang positif, mesra, seperti manusia. Bayangkan seorang jurujual yang tidak jemu dan sentiasa kelihatan terbaik!

Timbunan teknologi

  • Pemprosesan Suara: Whisper Large V3 Turbo (memastikan pengecaman pertuturan yang jelas)
  • Logik teras: LLaMA 3.3 70B (merealisasikan dialog pintar)
  • Output suara: F5 TTS (menjana tindak balas suara yang semula jadi dan lancar)
  • Pangkalan Data: Pangkalan data vektor Pinecone (untuk pengurusan konteks dan mendapatkan maklumat)
  • Platform demo: Google Colab

Cara sistem berfungsi

Sistem mengikut tiga langkah utama:

  1. Ucapan ke teks (STT)
  2. Model Bahasa Skala Besar (LLM)
  3. Teks untuk Ucapan (TTS)

Carta Aliran: Pengguna -> LLM ->

Proses terperinci:

    Pelanggan Bercakap -> Whisper menyalin teks.
  1. Pengurus fasa (menggunakan ungkapan biasa) menjejaki fasa perbualan.
  2. Pinecone mengekstrak data yang berkaitan daripada pangkalan data.
  3. LLaMA 3.3 70B Bina balasan yang sempurna.
  4. F5 TTS menukar teks kepada pertuturan semula jadi.

Fungsi utama

  • Pemilihan suara pintar: Menyediakan 6 suara AI yang berbeza (2 lelaki dan 4 perempuan)
  • Balasan sedar konteks: Berdasarkan teknologi carian persamaan vektor
  • Aliran dialog berstruktur: Dikawal oleh pengurus pentas khusus

Had semasa

  • Persekitaran demo: Berjalan berdasarkan Google Colab.
  • Had Memori: Had tetingkap konteks sebanyak 8k token.
  • Pengkomputeran penggunaan sumber: Penggunaan sumber adalah besar.
  • Ketergantungan API: Fungsi teras bergantung pada berbilang API.
  • Kependaman tinggi: Terdapat masalah kependaman tertentu.

Ringkasan pengalaman

Aspek teknikal:

  • Aplikasi pangkalan data vektor: Menggunakan pangkalan data vektor Pinecone membolehkan saya menyedari cara pangkalan data vektor boleh mengubah peraturan permainan apabila tetingkap konteks adalah terhad. Fungsi carian persamaan peringkat milisaat boleh memproses sejarah perbualan dan data latihan dengan berkesan, dan sangat berkuasa.
  • Kepentingan Pengurusan Peringkat: Dengan menjelaskan peringkat perbualan, anda boleh dengan mudah memasukkan contoh yang berkaitan dengan peringkat itu, seperti cara melontarkan, soalan apa yang perlu ditanya, dsb.
  • Penyatuan Web: Menggunakan fastapi untuk interaksi data bahagian hadapan dan belakang yang cekap adalah penting. Dengan webhooks, kami dapat bertukar-tukar data sepanjang perbualan dan kekal berhubung sambil hanya memulakan panggilan AI sekali.

Reka bentuk sistem:

  • Kepentingan Chunking:Memecahkan audio kepada segmen sepanjang 5 saat untuk diproses dan bukannya menunggu ayat yang lengkap meningkatkan pengalaman pengguna dengan ketara dan mengurangkan masa pemprosesan. Ini memerlukan mencari keseimbangan terbaik antara ketepatan dan kelajuan.
  • Kelebihan seni bina modular: Mengurai sistem kepada perkhidmatan bebas (STT, LLM, TTS) sangat memudahkan proses pembangunan dan penyahpepijatan. Apabila masalah berlaku, anda boleh mencari bahagian yang perlu diperbaiki dengan cepat.

Had sebenar:

  • Kos API: Menguruskan berbilang panggilan API (Whisper, LLAMA) mengajar saya kepentingan mengoptimumkan penggunaan API. Meminimumkan bilangan panggilan API sambil mengekalkan kelajuan adalah satu cabaran besar.
  • Mengurangkan kependaman: Mengurangkan kependaman adalah sangat sukar apabila data sentiasa diambil dan diproses daripada internet. Pada masa hadapan, saya akan cuba meminimumkan bilangan kali saya memindahkan atau memuat turun data dari internet.

Cabaran yang tidak dijangka:

  • Kejuruteraan kata gesaan: Kejuruteraan kata gesaan adalah penting, ia menentukan sama ada model boleh menyatakan secara koheren seperti manusia, atau sama ada ia akan mengulangi ayat yang sama.
  • Had Tetingkap Konteks: Had token 8k memaksa saya mengurus konteks dengan bijak. Daripada menyimpan semua maklumat, mendapatkan bahagian yang berkaitan daripada pangkalan data vektor membolehkan saya mereka bentuk struktur untuk LLM yang mengandungi semua maklumat yang diperlukan.

Rancangan Masa Depan

  • Gunakan teknologi berbilang benang untuk mengurangkan kependaman.
  • Menambahkan sokongan berbilang bahasa.
  • Tambahkan lebih banyak jenis bot, seperti "bot utama" untuk menghubungi pelanggan selepas petunjuk awal untuk menutup tawaran.

Projek Pengalaman

https://www.php.cn/link/55e2c9d06a7261846e96b8bb2d4e1fe5

GitHub ---

Selamat datang untuk mengemukakan cadangan berharga anda di ruang komen!

Atas ialah kandungan terperinci Membina Ejen Jualan AI: Dari Suara ke Pitch.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan