Créer un agent commercial IA : de la voix au pitch.
Aperçu du projet
Dans le défi EnCode 2025, mon objectif est de créer un agent commercial IA capable d'une interaction vocale de haute qualité, naturelle et fluide, et de m'efforcer d'atteindre une latence ultra-faible, comme une expérience comme parler à une personne réelle. En fin de compte, j'ai construit un système capable de gérer une conversation commerciale complète pour un centre de coaching en ligne, depuis l'accueil d'un client potentiel jusqu'à la compréhension de ses besoins et la recommandation de cours pertinents, le tout d'une voix positive, amicale et humaine. Imaginez une vendeuse infatigable et toujours à son meilleur !
Pile technologique
- Traitement vocal : Whisper Large V3 Turbo (garantit une reconnaissance vocale claire)
- Logique de base : LLaMA 3.3 70B (réalisation d'un dialogue intelligent)
- Sortie vocale : F5 TTS (génère des réponses vocales naturelles et fluides)
- Base de données : Base de données vectorielles Pinecone (pour la gestion du contexte et la récupération d'informations)
- Plateforme de démonstration : Google Colab
Comment fonctionne le système
Le système suit trois étapes principales :
- Parole vers texte (STT)
- Modèle linguistique à grande échelle (LLM)
- Texte en parole (TTS)
Organigramme : Utilisateur -> STT -> LLM -> Utilisateur
Processus détaillé :
- Le client parle -> Whisper transcrit le texte.
- Le gestionnaire de phases (utilisant des expressions régulières) suit les phases de conversation.
- Pinecone extrait les données pertinentes de la base de données.
- LLaMA 3.3 70B Créez la réponse parfaite.
- F5 TTS convertit le texte en parole naturelle.
Fonctions principales
- Sélection intelligente des voix : Fournit 6 voix IA différentes (2 masculines et 4 féminines)
- Réponse contextuelle : Basée sur la technologie de recherche de similarité vectorielle
- Flux de dialogue structuré : Contrôlé par un régisseur dédié
Limites actuelles
- Environnement de démonstration : Fonctionnement basé sur Google Colab.
- Limite de mémoire : Limite de fenêtre contextuelle de 8 000 jetons.
- Consommation des ressources informatiques : L'utilisation des ressources est importante.
- Dépendances API : La fonctionnalité de base dépend de plusieurs API.
- Latence élevée : Il y a un certain problème de latence.
Résumé de l'expérience
Aspects techniques :
- Application de la base de données vectorielles : L'utilisation de la base de données vectorielles Pinecone m'a permis de réaliser comment la base de données vectorielles peut changer les règles du jeu lorsque la fenêtre contextuelle est limitée. La fonction de recherche de similarité au niveau de la milliseconde peut traiter efficacement l'historique des conversations et les données de formation, et est très puissante.
- Importance de la gestion de la scène : En clarifiant l'étape de la conversation, vous pouvez facilement incorporer des exemples pertinents à cette étape, tels que la façon de présenter, les questions à poser, etc.
- Intégration Web : L'utilisation de fastapi pour une interaction efficace des données front-end et back-end est cruciale. Grâce aux webhooks, nous pouvons échanger des données tout au long de la conversation et rester connectés tout en lançant un seul appel IA.
Conception du système :
- Importance du découpage :Diviser l'audio en segments de 5 secondes pour le traitement au lieu d'attendre des phrases complètes améliore considérablement l'expérience utilisateur et réduit le temps de traitement. Cela nécessite de trouver le meilleur équilibre entre précision et vitesse.
- Avantages de l'architecture modulaire : La décomposition du système en services indépendants (STT, LLM, TTS) simplifie grandement le processus de développement et de débogage. Lorsqu'un problème survient, vous pouvez localiser rapidement la pièce à réparer.
Limites réelles :
- Coût API : La gestion de plusieurs appels API (Whisper, LAMA) m'a appris l'importance d'optimiser l'utilisation de l'API. Minimiser le nombre d’appels API tout en maintenant la vitesse est un défi de taille.
- Réduire la latence : Réduire la latence est très difficile lorsque les données sont constamment récupérées et traitées sur Internet. À l’avenir, j’essaierai de minimiser le nombre de fois où je transférerai ou téléchargerai des données depuis Internet.
Défis inattendus :
- Ingénierie de mots rapides : L'ingénierie de mots rapides est cruciale, elle détermine si le modèle peut s'exprimer de manière cohérente comme un humain, ou s'il répétera les mêmes phrases.
- Limitation de la fenêtre de contexte : La limite de 8 000 jetons m'oblige à gérer le contexte intelligemment. Au lieu de stocker toutes les informations, obtenir les éléments pertinents d'une base de données vectorielles m'a permis de concevoir une structure pour le LLM contenant toutes les informations nécessaires.
Projets futurs
- Utilisez la technologie multithread pour réduire la latence.
- Ajout du support multilingue.
- Ajoutez d'autres types de robots, tels que les « robots principaux » pour contacter les clients après un premier prospect afin de conclure une transaction.
Projet d'expérience
https://www.php.cn/link/55e2c9d06a7261846e96b8bb2d4e1fe5
GitHub ---
Bienvenue pour proposer vos précieuses suggestions dans la zone de commentaires !
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Solution aux problèmes d'autorisation Lors de la visualisation de la version Python dans Linux Terminal Lorsque vous essayez d'afficher la version Python dans Linux Terminal, entrez Python ...

Comment éviter d'être détecté lors de l'utilisation de FiddlereVerywhere pour les lectures d'homme dans le milieu lorsque vous utilisez FiddlereVerywhere ...

Lorsque vous utilisez la bibliothèque Pandas de Python, comment copier des colonnes entières entre deux frames de données avec différentes structures est un problème courant. Supposons que nous ayons deux dats ...

Comment enseigner les bases de la programmation novice en informatique dans les 10 heures? Si vous n'avez que 10 heures pour enseigner à l'informatique novice des connaissances en programmation, que choisissez-vous d'enseigner ...

Comment Uvicorn écoute-t-il en permanence les demandes HTTP? Uvicorn est un serveur Web léger basé sur ASGI. L'une de ses fonctions principales est d'écouter les demandes HTTP et de procéder ...

Fastapi ...

Utilisation de Python dans Linux Terminal ...

Comprendre la stratégie anti-rampe d'investissement.com, Beaucoup de gens essaient souvent de ramper les données d'actualités sur Investing.com (https://cn.investing.com/news/latest-news) ...
