Créer un agent commercial IA : de la voix au pitch.-Tutoriel Python-php.cn

Maison

développement back-end

Tutoriel Python

Créer un agent commercial IA : de la voix au pitch.

DDD

Jan 18, 2025 pm 06:13 PM

Building an AI Sales Agent: From Voice to Pitch.

Aperçu du projet

Dans le défi EnCode 2025, mon objectif est de créer un agent commercial IA capable d'une interaction vocale de haute qualité, naturelle et fluide, et de m'efforcer d'atteindre une latence ultra-faible, comme une expérience comme parler à une personne réelle. En fin de compte, j'ai construit un système capable de gérer une conversation commerciale complète pour un centre de coaching en ligne, depuis l'accueil d'un client potentiel jusqu'à la compréhension de ses besoins et la recommandation de cours pertinents, le tout d'une voix positive, amicale et humaine. Imaginez une vendeuse infatigable et toujours à son meilleur !

Pile technologique

Traitement vocal : Whisper Large V3 Turbo (garantit une reconnaissance vocale claire)
Logique de base : LLaMA 3.3 70B (réalisation d'un dialogue intelligent)
Sortie vocale : F5 TTS (génère des réponses vocales naturelles et fluides)
Base de données : Base de données vectorielles Pinecone (pour la gestion du contexte et la récupération d'informations)
Plateforme de démonstration : Google Colab

Comment fonctionne le système

Le système suit trois étapes principales :

Parole vers texte (STT)
Modèle linguistique à grande échelle (LLM)
Texte en parole (TTS)

Organigramme : Utilisateur -> STT -> LLM -> Utilisateur

Processus détaillé :

Le client parle -> Whisper transcrit le texte.
Le gestionnaire de phases (utilisant des expressions régulières) suit les phases de conversation.
Pinecone extrait les données pertinentes de la base de données.
LLaMA 3.3 70B Créez la réponse parfaite.
F5 TTS convertit le texte en parole naturelle.

Fonctions principales

Sélection intelligente des voix : Fournit 6 voix IA différentes (2 masculines et 4 féminines)
Réponse contextuelle : Basée sur la technologie de recherche de similarité vectorielle
Flux de dialogue structuré : Contrôlé par un régisseur dédié

Limites actuelles

Environnement de démonstration : Fonctionnement basé sur Google Colab.
Limite de mémoire : Limite de fenêtre contextuelle de 8 000 jetons.
Consommation des ressources informatiques : L'utilisation des ressources est importante.
Dépendances API : La fonctionnalité de base dépend de plusieurs API.
Latence élevée : Il y a un certain problème de latence.

Résumé de l'expérience

Aspects techniques :

Application de la base de données vectorielles : L'utilisation de la base de données vectorielles Pinecone m'a permis de réaliser comment la base de données vectorielles peut changer les règles du jeu lorsque la fenêtre contextuelle est limitée. La fonction de recherche de similarité au niveau de la milliseconde peut traiter efficacement l'historique des conversations et les données de formation, et est très puissante.
Importance de la gestion de la scène : En clarifiant l'étape de la conversation, vous pouvez facilement incorporer des exemples pertinents à cette étape, tels que la façon de présenter, les questions à poser, etc.
Intégration Web : L'utilisation de fastapi pour une interaction efficace des données front-end et back-end est cruciale. Grâce aux webhooks, nous pouvons échanger des données tout au long de la conversation et rester connectés tout en lançant un seul appel IA.

Conception du système :

Importance du découpage :Diviser l'audio en segments de 5 secondes pour le traitement au lieu d'attendre des phrases complètes améliore considérablement l'expérience utilisateur et réduit le temps de traitement. Cela nécessite de trouver le meilleur équilibre entre précision et vitesse.
Avantages de l'architecture modulaire : La décomposition du système en services indépendants (STT, LLM, TTS) simplifie grandement le processus de développement et de débogage. Lorsqu'un problème survient, vous pouvez localiser rapidement la pièce à réparer.

Limites réelles :

Coût API : La gestion de plusieurs appels API (Whisper, LAMA) m'a appris l'importance d'optimiser l'utilisation de l'API. Minimiser le nombre d’appels API tout en maintenant la vitesse est un défi de taille.
Réduire la latence : Réduire la latence est très difficile lorsque les données sont constamment récupérées et traitées sur Internet. À l’avenir, j’essaierai de minimiser le nombre de fois où je transférerai ou téléchargerai des données depuis Internet.

Défis inattendus :

Ingénierie de mots rapides : L'ingénierie de mots rapides est cruciale, elle détermine si le modèle peut s'exprimer de manière cohérente comme un humain, ou s'il répétera les mêmes phrases.
Limitation de la fenêtre de contexte : La limite de 8 000 jetons m'oblige à gérer le contexte intelligemment. Au lieu de stocker toutes les informations, obtenir les éléments pertinents d'une base de données vectorielles m'a permis de concevoir une structure pour le LLM contenant toutes les informations nécessaires.

Projets futurs

Utilisez la technologie multithread pour réduire la latence.
Ajout du support multilingue.
Ajoutez d'autres types de robots, tels que les « robots principaux » pour contacter les clients après un premier prospect afin de conclure une transaction.

Projet d'expérience

https://www.php.cn/link/55e2c9d06a7261846e96b8bb2d4e1fe5

GitHub ---

Bienvenue pour proposer vos précieuses suggestions dans la zone de commentaires !

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Assassin's Creed Shadows: Solution d'énigmes de coquille

1 Il y a quelques mois By DDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

3 Il y a quelques semaines By DDD

Où trouver la courte de la grue à atomide atomique

1 Il y a quelques mois By DDD

Comment réparer KB5055523 ne parvient pas à s'installer dans Windows 11?

2 Il y a quelques semaines By DDD

Inzoi: Comment postuler à l'école et à l'université

3 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7759

Tutoriel Java

1644

Tutoriel CakePHP

1399

Tutoriel Laravel

1293

Tutoriel PHP

1234

Afficher plus

Related knowledge

Comment résoudre le problème des autorisations rencontré lors de la visualisation de la version Python dans le terminal Linux? Apr 01, 2025 pm 05:09 PM

Solution aux problèmes d'autorisation Lors de la visualisation de la version Python dans Linux Terminal Lorsque vous essayez d'afficher la version Python dans Linux Terminal, entrez Python ...

Comment éviter d'être détecté par le navigateur lors de l'utilisation de Fiddler partout pour la lecture de l'homme au milieu? Apr 02, 2025 am 07:15 AM

Comment éviter d'être détecté lors de l'utilisation de FiddlereVerywhere pour les lectures d'homme dans le milieu lorsque vous utilisez FiddlereVerywhere ...

Comment copier efficacement la colonne entière d'une dataframe dans une autre dataframe avec différentes structures dans Python? Apr 01, 2025 pm 11:15 PM

Lorsque vous utilisez la bibliothèque Pandas de Python, comment copier des colonnes entières entre deux frames de données avec différentes structures est un problème courant. Supposons que nous ayons deux dats ...

Comment enseigner les bases de la programmation novice en informatique dans le projet et les méthodes axées sur les problèmes dans les 10 heures? Apr 02, 2025 am 07:18 AM

Comment enseigner les bases de la programmation novice en informatique dans les 10 heures? Si vous n'avez que 10 heures pour enseigner à l'informatique novice des connaissances en programmation, que choisissez-vous d'enseigner ...

Comment Uvicorn écoute-t-il en permanence les demandes HTTP sans servir_forever ()? Apr 01, 2025 pm 10:51 PM

Comment Uvicorn écoute-t-il en permanence les demandes HTTP? Uvicorn est un serveur Web léger basé sur ASGI. L'une de ses fonctions principales est d'écouter les demandes HTTP et de procéder ...

Comment gérer les paramètres de requête de liste séparés par les virgules dans FastAPI? Apr 02, 2025 am 06:51 AM

Fastapi ...

Comment résoudre les problèmes d'autorisation lors de l'utilisation de la commande python --version dans le terminal Linux? Apr 02, 2025 am 06:36 AM

Utilisation de Python dans Linux Terminal ...

Comment obtenir des données d'information en contournant le mécanisme anti-frawler d'Investing.com? Apr 02, 2025 am 07:03 AM

Comprendre la stratégie anti-rampe d'investissement.com, Beaucoup de gens essaient souvent de ramper les données d'actualités sur Investing.com (https://cn.investing.com/news/latest-news) ...

See all articles