Construisez un chiffon audio avec Assemblyai, Qdrant et Deepseek-R1-IA-php.cn

Table des matières

Caractéristiques clés et objectifs d'apprentissage:

Maison

Périphériques technologiques

Construisez un chiffon audio avec Assemblyai, Qdrant et Deepseek-R1

William Shakespeare

Apr 23, 2025 am 10:48 AM

Ce guide démontre la construction d'un chatbot alimenté par l'IA qui transforme les enregistrements audio (réunions, podcasts, interviews) en conversations interactives. Il exploite l'assemblage de transcription, QDRANT pour un stockage efficace de données et Deepseek-R1 via le cloud Sambanova pour des réponses intelligentes, créant un système de génération augmentée (RAG) de récupération. Le chatbot répond aux questions comme "Qu'est-ce que [le locuteur] a dit?" ou "Résumez ce segment". Une interface Web rationalisée permet aux utilisateurs de télécharger l'audio, d'afficher les transcriptions et d'interagir avec le chatbot en temps réel.

Caractéristiques clés et objectifs d'apprentissage:

Transcription audio précise: utilisez l'API Assemblyai pour une transcription précise avec diarisation de l'enceinte, convertissant les conversations audio en données de texte structurées.
Base de données vectorielle efficace: Utilisez QDRANT pour stocker et récupérer rapidement les intégres du contenu audio transcrit à l'aide de modèles de visage étreintes.
Réponses de contexte: Implémentez le chiffon avec le modèle Deepseek-R1 (via le cloud Sambanova) pour générer des réponses de chatbot contextuellement pertinentes.
Interface Web interactive: développez une application Web rationalisée pour que les utilisateurs puissent télécharger des fichiers audio, visualiser les transcriptions et s'engager avec le chatbot dynamiquement.
Flux de travail de bout en bout: intégrer un flux de travail complet combinant le traitement audio, la gestion de la base de données vectorielle et la génération de réponse dirigée par l'IA pour une application de chat basée sur le son évolutive.

Cet article fait partie du blogathon des sciences des données.

Table des matières:

Présentation de l'Assemblyai
Sambanova Cloud a expliqué
QDRANT: Une base de données vectorielle à grande vitesse
Deepseek-R1: un modèle de langue puissant
Construire le modèle de chiffon: Assemblyai et Deepseek-R1
- Condition préalable
- Mise en œuvre de la génération augmentée (RAG) de récupération
- Rationaliser le développement des applications
Conclusion
Questions fréquemment posées

Présentation de l'Assemblyai:

Assemblyai est un outil puissant pour extraire des informations exploitables de l'audio. Son moteur de la parole à texte parole axé sur l'IA fournit des transcriptions très précises, même la manipulation des accents et le bruit de fond efficacement. Cela le rend idéal pour transcrire des podcasts, analyser les appels clients ou générer des légendes vidéo.

Construisez un chiffon audio avec Assemblyai, Qdrant et Deepseek-R1

Cloud Sambanova:

Sambanova Cloud vous permet d'exécuter de grands modèles open source comme Deepseek-R1 (paramètres 671b) nettement plus rapidement que les méthodes traditionnelles, éliminant la gestion complexe des infrastructures. Il utilise des unités de flux de données reconfigurables (RDU) pour des performances supérieures à travers:

Stockage élevé en mémoire: élimine le rechargement constant du modèle.
Flow de données optimisé: conçu pour les tâches à haut débit.
Commutation de modèle instantanée: Commutation entre les modèles en microsecondes.
Déploiement Simplified Deepseek-R1: Aucune configuration compliquée nécessaire.
Formation unifiée / réglage fin: le tout dans une seule plate-forme.

Construisez un chiffon audio avec Assemblyai, Qdrant et Deepseek-R1

QDRANT: Une base de données vectorielle à grande vitesse:

QDRANT est une base de données vectorielle remarquablement rapide optimisée pour les applications d'IA. Il excelle dans les recherches de similitude, ce qui le rend parfait pour les tâches comme les systèmes de recommandation, la recherche d'images et les chatbots. QDrant trouve rapidement les correspondances les plus proches pour des données complexes telles que les incorporations de texte ou les fonctionnalités visuelles.

Construisez un chiffon audio avec Assemblyai, Qdrant et Deepseek-R1

Deepseek-R1: un modèle de langue puissant:

Deepseek-R1 est un modèle de langage avancé qui combine l'adaptabilité de type humain avec l'IA de pointe. Sa force réside dans sa capacité à comprendre le contexte, le ton et l'intention, produisant des réponses intuitives et précises. Il est très efficace pour diverses tâches de traitement du langage naturel, notamment la création de contenu, la traduction, le débogage du code et le résumé des rapports.

Construisez un chiffon audio avec Assemblyai, Qdrant et Deepseek-R1

Construire le modèle de chiffon: Assemblyai et Deepseek-R1

Cette section détaille la construction du système de chiffon.

1. Prérequis:

Clone The Repository: git clone https://github.com/karthikponna/chat_with_audios.git

Créez et activez un environnement virtuel (instructions fournies pour MacOS / Linux et Windows).

Installer les dépendances: pip install -r requirements.txt

Configurez les variables d'environnement (touches API Assemblyai et Sambanova) dans un fichier .env .

2. Implémentation de la génération augmentée (RAG) de récupération:

Le code (dans rag_code.py ) est structuré à l'aide de l'index de lama et comprend des fonctions pour:

Traitement et intégration par lots: gère efficacement les grands ensembles de données.
Interaction de la base de données QDRANT: configure et gère la base de données vectorielle QDRANT.
Incorporation et récupération de requête: transforme les requêtes en intégres et récupère les résultats pertinents de QDRANT.
Assistant Rag Smart Query: combine la récupération et le Sambanova Cloud LLM pour les réponses au contexte.
Transcription audio avec assemblyai: transcrit des fichiers audio avec diarisation du haut-parleur.

(Les extraits de code détaillés sont omis pour la concision, mais la réponse originale fournit le code complet.)

3. Ration à rationaliser le développement des applications:

Le fichier app.py crée une application Web Streamlit avec des fonctionnalités pour:

Téléchargement de fichiers audio: les utilisateurs téléchargent des fichiers audio (MP3, WAV, M4A).
Affichage de la transcription: montre la transcription générée par l'assemblage.
Interaction Chatbot: permet aux utilisateurs de poser des questions sur le contenu audio.
Gestion de l'État de session: maintient l'historique du chat et la mise en cache des fichiers.

(Les extraits de code détaillés sont omis pour la concision, mais la réponse originale fournit le code complet.)

Conclusion:

Ce projet intègre avec succès Assemblyai, Sambanova Cloud, Qdrant et Deepseek-R1 pour créer un chatbot audio puissant utilisant RAG. Le code fourni et les instructions permettent aux utilisateurs de créer et de déployer cette application. Le référentiel GitHub offre des opportunités d'exploration et de personnalisation plus approfondies.

Github Repo: https://www.php.cn/link/4803eb7efe3ec7031867d3f9fe9f4dc5

Questions fréquemment posées (FAQ):

(La réponse d'origine contient des réponses aux FAQ sur le chiffon, la personnalisation du modèle d'incorporation, la modification du modèle d'invite et l'utilisation de Qdrant.)

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Assassin's Creed Shadows: Solution d'énigmes de coquille

1 Il y a quelques mois By DDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

3 Il y a quelques semaines By DDD

Où trouver la courte de la grue à atomide atomique

1 Il y a quelques mois By DDD

Comment réparer KB5055523 ne parvient pas à s'installer dans Windows 11?

2 Il y a quelques semaines By DDD

Inzoi: Comment postuler à l'école et à l'université

3 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7770

Tutoriel Java

1644

Tutoriel CakePHP

1399

Tutoriel Laravel

1296

Tutoriel PHP

1234

Afficher plus

Related knowledge

Meilleurs générateurs d'art AI (gratuit & amp; payé) pour des projets créatifs Apr 02, 2025 pm 06:10 PM

L'article passe en revue les meilleurs générateurs d'art AI, discutant de leurs fonctionnalités, de leur aptitude aux projets créatifs et de la valeur. Il met en évidence MidJourney comme la meilleure valeur pour les professionnels et recommande Dall-E 2 pour un art personnalisable de haute qualité.

Début avec Meta Llama 3.2 - Analytics Vidhya Apr 11, 2025 pm 12:04 PM

META'S LLAMA 3.2: un bond en avant dans l'IA multimodal et mobile Meta a récemment dévoilé Llama 3.2, une progression importante de l'IA avec de puissantes capacités de vision et des modèles de texte légers optimisés pour les appareils mobiles. S'appuyer sur le succès o

Meilleurs chatbots AI comparés (Chatgpt, Gemini, Claude & amp; plus) Apr 02, 2025 pm 06:09 PM

L'article compare les meilleurs chatbots d'IA comme Chatgpt, Gemini et Claude, en se concentrant sur leurs fonctionnalités uniques, leurs options de personnalisation et leurs performances dans le traitement et la fiabilité du langage naturel.

Chatgpt 4 o est-il disponible? Mar 28, 2025 pm 05:29 PM

Chatgpt 4 est actuellement disponible et largement utilisé, démontrant des améliorations significatives dans la compréhension du contexte et la génération de réponses cohérentes par rapport à ses prédécesseurs comme Chatgpt 3.5. Les développements futurs peuvent inclure un interg plus personnalisé

Assistants d'écriture de l'IA pour augmenter votre création de contenu Apr 02, 2025 pm 06:11 PM

L'article traite des meilleurs assistants d'écriture d'IA comme Grammarly, Jasper, Copy.ai, WireSonic et Rytr, en se concentrant sur leurs fonctionnalités uniques pour la création de contenu. Il soutient que Jasper excelle dans l'optimisation du référencement, tandis que les outils d'IA aident à maintenir le ton

Top 7 Système de chiffon agentique pour construire des agents d'IA Mar 31, 2025 pm 04:25 PM

2024 a été témoin d'un simple passage de l'utilisation des LLM pour la génération de contenu pour comprendre leur fonctionnement intérieur. Cette exploration a conduit à la découverte des agents de l'IA - les systèmes autonomes manipulant des tâches et des décisions avec une intervention humaine minimale. Construire

Choisir le meilleur générateur de voix d'IA: les meilleures options examinées Apr 02, 2025 pm 06:12 PM

L'article examine les meilleurs générateurs de voix d'IA comme Google Cloud, Amazon Polly, Microsoft Azure, IBM Watson et Descript, en se concentrant sur leurs fonctionnalités, leur qualité vocale et leur aptitude à différents besoins.

Vendre une stratégie d'IA aux employés: le manifeste du PDG de Shopify Apr 10, 2025 am 11:19 AM

La récente note du PDG de Shopify Tobi Lütke déclare hardiment la maîtrise de l'IA une attente fondamentale pour chaque employé, marquant un changement culturel important au sein de l'entreprise. Ce n'est pas une tendance éphémère; C'est un nouveau paradigme opérationnel intégré à P

See all articles