


Construisez un chiffon audio avec Assemblyai, Qdrant et Deepseek-R1
Ce guide démontre la construction d'un chatbot alimenté par l'IA qui transforme les enregistrements audio (réunions, podcasts, interviews) en conversations interactives. Il exploite l'assemblage de transcription, QDRANT pour un stockage efficace de données et Deepseek-R1 via le cloud Sambanova pour des réponses intelligentes, créant un système de génération augmentée (RAG) de récupération. Le chatbot répond aux questions comme "Qu'est-ce que [le locuteur] a dit?" ou "Résumez ce segment". Une interface Web rationalisée permet aux utilisateurs de télécharger l'audio, d'afficher les transcriptions et d'interagir avec le chatbot en temps réel.
Caractéristiques clés et objectifs d'apprentissage:
- Transcription audio précise: utilisez l'API Assemblyai pour une transcription précise avec diarisation de l'enceinte, convertissant les conversations audio en données de texte structurées.
- Base de données vectorielle efficace: Utilisez QDRANT pour stocker et récupérer rapidement les intégres du contenu audio transcrit à l'aide de modèles de visage étreintes.
- Réponses de contexte: Implémentez le chiffon avec le modèle Deepseek-R1 (via le cloud Sambanova) pour générer des réponses de chatbot contextuellement pertinentes.
- Interface Web interactive: développez une application Web rationalisée pour que les utilisateurs puissent télécharger des fichiers audio, visualiser les transcriptions et s'engager avec le chatbot dynamiquement.
- Flux de travail de bout en bout: intégrer un flux de travail complet combinant le traitement audio, la gestion de la base de données vectorielle et la génération de réponse dirigée par l'IA pour une application de chat basée sur le son évolutive.
Cet article fait partie du blogathon des sciences des données.
Table des matières:
- Présentation de l'Assemblyai
- Sambanova Cloud a expliqué
- QDRANT: Une base de données vectorielle à grande vitesse
- Deepseek-R1: un modèle de langue puissant
- Construire le modèle de chiffon: Assemblyai et Deepseek-R1
- Condition préalable
- Mise en œuvre de la génération augmentée (RAG) de récupération
- Rationaliser le développement des applications
- Conclusion
- Questions fréquemment posées
Présentation de l'Assemblyai:
Assemblyai est un outil puissant pour extraire des informations exploitables de l'audio. Son moteur de la parole à texte parole axé sur l'IA fournit des transcriptions très précises, même la manipulation des accents et le bruit de fond efficacement. Cela le rend idéal pour transcrire des podcasts, analyser les appels clients ou générer des légendes vidéo.
Cloud Sambanova:
Sambanova Cloud vous permet d'exécuter de grands modèles open source comme Deepseek-R1 (paramètres 671b) nettement plus rapidement que les méthodes traditionnelles, éliminant la gestion complexe des infrastructures. Il utilise des unités de flux de données reconfigurables (RDU) pour des performances supérieures à travers:
- Stockage élevé en mémoire: élimine le rechargement constant du modèle.
- Flow de données optimisé: conçu pour les tâches à haut débit.
- Commutation de modèle instantanée: Commutation entre les modèles en microsecondes.
- Déploiement Simplified Deepseek-R1: Aucune configuration compliquée nécessaire.
- Formation unifiée / réglage fin: le tout dans une seule plate-forme.
QDRANT: Une base de données vectorielle à grande vitesse:
QDRANT est une base de données vectorielle remarquablement rapide optimisée pour les applications d'IA. Il excelle dans les recherches de similitude, ce qui le rend parfait pour les tâches comme les systèmes de recommandation, la recherche d'images et les chatbots. QDrant trouve rapidement les correspondances les plus proches pour des données complexes telles que les incorporations de texte ou les fonctionnalités visuelles.
Deepseek-R1: un modèle de langue puissant:
Deepseek-R1 est un modèle de langage avancé qui combine l'adaptabilité de type humain avec l'IA de pointe. Sa force réside dans sa capacité à comprendre le contexte, le ton et l'intention, produisant des réponses intuitives et précises. Il est très efficace pour diverses tâches de traitement du langage naturel, notamment la création de contenu, la traduction, le débogage du code et le résumé des rapports.
Construire le modèle de chiffon: Assemblyai et Deepseek-R1
Cette section détaille la construction du système de chiffon.
1. Prérequis:
Clone The Repository: git clone https://github.com/karthikponna/chat_with_audios.git
Créez et activez un environnement virtuel (instructions fournies pour MacOS / Linux et Windows).
Installer les dépendances: pip install -r requirements.txt
Configurez les variables d'environnement (touches API Assemblyai et Sambanova) dans un fichier .env
.
2. Implémentation de la génération augmentée (RAG) de récupération:
Le code (dans rag_code.py
) est structuré à l'aide de l'index de lama et comprend des fonctions pour:
- Traitement et intégration par lots: gère efficacement les grands ensembles de données.
- Interaction de la base de données QDRANT: configure et gère la base de données vectorielle QDRANT.
- Incorporation et récupération de requête: transforme les requêtes en intégres et récupère les résultats pertinents de QDRANT.
- Assistant Rag Smart Query: combine la récupération et le Sambanova Cloud LLM pour les réponses au contexte.
- Transcription audio avec assemblyai: transcrit des fichiers audio avec diarisation du haut-parleur.
(Les extraits de code détaillés sont omis pour la concision, mais la réponse originale fournit le code complet.)
3. Ration à rationaliser le développement des applications:
Le fichier app.py
crée une application Web Streamlit avec des fonctionnalités pour:
- Téléchargement de fichiers audio: les utilisateurs téléchargent des fichiers audio (MP3, WAV, M4A).
- Affichage de la transcription: montre la transcription générée par l'assemblage.
- Interaction Chatbot: permet aux utilisateurs de poser des questions sur le contenu audio.
- Gestion de l'État de session: maintient l'historique du chat et la mise en cache des fichiers.
(Les extraits de code détaillés sont omis pour la concision, mais la réponse originale fournit le code complet.)
Conclusion:
Ce projet intègre avec succès Assemblyai, Sambanova Cloud, Qdrant et Deepseek-R1 pour créer un chatbot audio puissant utilisant RAG. Le code fourni et les instructions permettent aux utilisateurs de créer et de déployer cette application. Le référentiel GitHub offre des opportunités d'exploration et de personnalisation plus approfondies.
Github Repo: https://www.php.cn/link/4803eb7efe3ec7031867d3f9fe9f4dc5
Questions fréquemment posées (FAQ):
(La réponse d'origine contient des réponses aux FAQ sur le chiffon, la personnalisation du modèle d'incorporation, la modification du modèle d'invite et l'utilisation de Qdrant.)
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

L'article passe en revue les meilleurs générateurs d'art AI, discutant de leurs fonctionnalités, de leur aptitude aux projets créatifs et de la valeur. Il met en évidence MidJourney comme la meilleure valeur pour les professionnels et recommande Dall-E 2 pour un art personnalisable de haute qualité.

META'S LLAMA 3.2: un bond en avant dans l'IA multimodal et mobile Meta a récemment dévoilé Llama 3.2, une progression importante de l'IA avec de puissantes capacités de vision et des modèles de texte légers optimisés pour les appareils mobiles. S'appuyer sur le succès o

L'article compare les meilleurs chatbots d'IA comme Chatgpt, Gemini et Claude, en se concentrant sur leurs fonctionnalités uniques, leurs options de personnalisation et leurs performances dans le traitement et la fiabilité du langage naturel.

Chatgpt 4 est actuellement disponible et largement utilisé, démontrant des améliorations significatives dans la compréhension du contexte et la génération de réponses cohérentes par rapport à ses prédécesseurs comme Chatgpt 3.5. Les développements futurs peuvent inclure un interg plus personnalisé

L'article traite des meilleurs assistants d'écriture d'IA comme Grammarly, Jasper, Copy.ai, WireSonic et Rytr, en se concentrant sur leurs fonctionnalités uniques pour la création de contenu. Il soutient que Jasper excelle dans l'optimisation du référencement, tandis que les outils d'IA aident à maintenir le ton

2024 a été témoin d'un simple passage de l'utilisation des LLM pour la génération de contenu pour comprendre leur fonctionnement intérieur. Cette exploration a conduit à la découverte des agents de l'IA - les systèmes autonomes manipulant des tâches et des décisions avec une intervention humaine minimale. Construire

L'article examine les meilleurs générateurs de voix d'IA comme Google Cloud, Amazon Polly, Microsoft Azure, IBM Watson et Descript, en se concentrant sur leurs fonctionnalités, leur qualité vocale et leur aptitude à différents besoins.

La récente note du PDG de Shopify Tobi Lütke déclare hardiment la maîtrise de l'IA une attente fondamentale pour chaque employé, marquant un changement culturel important au sein de l'entreprise. Ce n'est pas une tendance éphémère; C'est un nouveau paradigme opérationnel intégré à P
