Maison développement back-end Tutoriel Python Comment créer votre propre NotebookLM de Google

Comment créer votre propre NotebookLM de Google

Dec 03, 2024 am 08:13 AM

Avec la popularité croissante de la consommation de contenu audio, la possibilité de convertir vos documents ou votre contenu écrit dans des formats audio réalistes est devenue une tendance plus récente.

Bien que NotebookLM de Google ait retenu l'attention dans ce domaine, je souhaitais explorer la création d'un système similaire à l'aide de services cloud modernes. Dans cet article, je vais vous expliquer comment j'ai créé un système cloud natif évolutif qui convertit les documents en podcasts de haute qualité à l'aide de FastAPI, Firebase, Google Cloud Pub/Sub et du service Text-to-Speech d'Azure.

Voici une vitrine à laquelle vous pouvez vous référer pour les résultats de ce système : MyPodify Showcase

Le défi

Convertir des documents en podcasts n'est pas aussi simple que de faire passer du texte via un moteur de synthèse vocale. Cela nécessite un traitement minutieux, une compréhension du langage naturel et la capacité de gérer différents formats de documents tout en conservant une expérience utilisateur fluide. Le système doit :

  • Traitez efficacement plusieurs formats de documents
  • Générez un son naturel avec plusieurs voix
  • Gérer le traitement de documents à grande échelle sans affecter l'expérience utilisateur
  • Fournir des mises à jour de statut en temps réel aux utilisateurs
  • Maintenir la haute disponibilité et l'évolutivité

Plongée en profondeur sur l'architecture

Décomposons les composants clés et comprenons comment ils fonctionnent ensemble :

How to Build your very own Google

1. Back-end FastAPI

FastAPI sert de framework backend, choisi pour plusieurs raisons impérieuses :

  • Prise en charge asynchrone : construites sur Starlette, les capacités asynchrones de FastAPI permettent une gestion efficace des requêtes simultanées
  • Documentation automatique OpenAPI : génère une documentation API interactive prête à l'emploi
  • Sécurité des types : exploite les astuces de type de Python pour la validation de l'exécution
  • Haute Performance : Comparable à Node.js et Go en termes de vitesse

Voici un aperçu détaillé de notre point de terminaison de téléchargement :

@app.post('/upload')
async def upload_files(
    token: Annotated[ParsedToken, Depends(verify_firebase_token)],
    project_name: str,
    description: str,
    website_link: str,
    host_count: int,
    files: Optional[List[UploadFile]] = File(None)
):
    # Validate token
    user_id = token['uid']

    # Generate unique identifiers
    project_id = str(uuid.uuid4())
    podcast_id = str(uuid.uuid4())

    # Process and store files
    file_urls = await process_uploads(files, user_id, project_id)

    # Create Firestore document
    await create_project_document(user_id, project_id, {
        'status': 'pending',
        'created_at': datetime.now(),
        'project_name': project_name,
        'description': description,
        'file_urls': file_urls
    })

    # Trigger async processing
    await publish_to_pubsub(user_id, project_id, podcast_id, file_urls)

    return {'project_id': project_id, 'status': 'processing'}
Copier après la connexion
Copier après la connexion
Copier après la connexion

2. Intégration de Firebase

Firebase fournit deux services cruciaux pour notre application :

Stockage Firebase

  • Gère les téléchargements de fichiers sécurisés avec mise à l'échelle automatique
  • Fournit une distribution basée sur CDN pour les fichiers audio générés
  • Prend en charge les téléchargements pouvant être repris pour les fichiers volumineux

Firestore

  • Base de données en temps réel pour le suivi de l'état du projet
  • Structure basée sur des documents parfaite pour les métadonnées du projet
  • Mise à l'échelle automatique sans partitionnement manuel requis

Voici comment nous mettons en œuvre des mises à jour de statut en temps réel :

async def update_status(user_id: str, project_id: str, status: str, metadata: dict = None):
    doc_ref = db.collection('projects').document(f'{user_id}/{project_id}')

    update_data = {
        'status': status,
        'updated_at': datetime.now()
    }

    if metadata:
        update_data.update(metadata)

    await doc_ref.update(update_data)
Copier après la connexion
Copier après la connexion

3. Google Cloud Pub/Sub

Pub/Sub sert de base de messagerie, permettant :

  • Architecture découplée pour une meilleure évolutivité
  • Garantie de livraison au moins une fois
  • Conservation et relecture automatiques des messages
  • Files d'attente de lettres mortes pour les messages ayant échoué

Exemple de structure de message :

@app.post('/upload')
async def upload_files(
    token: Annotated[ParsedToken, Depends(verify_firebase_token)],
    project_name: str,
    description: str,
    website_link: str,
    host_count: int,
    files: Optional[List[UploadFile]] = File(None)
):
    # Validate token
    user_id = token['uid']

    # Generate unique identifiers
    project_id = str(uuid.uuid4())
    podcast_id = str(uuid.uuid4())

    # Process and store files
    file_urls = await process_uploads(files, user_id, project_id)

    # Create Firestore document
    await create_project_document(user_id, project_id, {
        'status': 'pending',
        'created_at': datetime.now(),
        'project_name': project_name,
        'description': description,
        'file_urls': file_urls
    })

    # Trigger async processing
    await publish_to_pubsub(user_id, project_id, podcast_id, file_urls)

    return {'project_id': project_id, 'status': 'processing'}
Copier après la connexion
Copier après la connexion
Copier après la connexion

4. Génération vocale avec Azure Speech Service

Le cœur de notre génération audio utilise le SDK Cognitive Services Speech d'Azure. Voyons comment nous implémentons une synthèse vocale au son naturel :

async def update_status(user_id: str, project_id: str, status: str, metadata: dict = None):
    doc_ref = db.collection('projects').document(f'{user_id}/{project_id}')

    update_data = {
        'status': status,
        'updated_at': datetime.now()
    }

    if metadata:
        update_data.update(metadata)

    await doc_ref.update(update_data)
Copier après la connexion
Copier après la connexion

L'une des caractéristiques uniques de notre système est la possibilité de générer des podcasts multi-voix à l'aide de l'IA. Voici comment nous gérons la génération de scripts pour différents hôtes :

{
    'user_id': 'uid_123',
    'project_id': 'proj_456',
    'podcast_id': 'pod_789',
    'file_urls': ['gs://bucket/file1.pdf'],
    'description': 'Technical blog post about cloud architecture',
    'host_count': 2,
    'action': 'CREATE_PROJECT'
}
Copier après la connexion

Pour la synthèse vocale, nous mappons différents locuteurs sur des voix Azure spécifiques :

import azure.cognitiveservices.speech as speechsdk
from pathlib import Path

class SpeechGenerator:
    def __init__(self):
        self.speech_config = speechsdk.SpeechConfig(
            subscription=os.getenv("AZURE_SPEECH_KEY"),
            region=os.getenv("AZURE_SPEECH_REGION")
        )

    async def create_speech_segment(self, text, voice, output_file):
        try:
            self.speech_config.speech_synthesis_voice_name = voice
            synthesizer = speechsdk.SpeechSynthesizer(
                speech_config=self.speech_config,
                audio_config=None
            )

            # Generate speech from text
            result = synthesizer.speak_text_async(text).get()

            if result.reason == speechsdk.ResultReason.SynthesizingAudioCompleted:
                with open(output_file, "wb") as audio_file:
                    audio_file.write(result.audio_data)
                return True

            return False

        except Exception as e:
            logger.error(f"Speech synthesis failed: {str(e)}")
            return False
Copier après la connexion

5. Travailleur de traitement en arrière-plan

La composante travailleur s'occupe du gros travail :

  1. Analyse de documents

    • Extraire du texte de différents formats de documents
    • Analyser la structure et le contenu du document
    • Identifier les sujets et sections clés
  2. Traitement du contenu

    • Générer un flux de conversation naturel
    • Diviser le contenu en segments de haut-parleurs
    • Créer des transitions entre les sujets
  3. Génération audio

    • Convertir la synthèse vocale à l'aide des voix neuronales d'Azure
    • Gérer les voix de plusieurs locuteurs
    • Appliquer le post-traitement audio

Voici une vue simplifiée de notre logique de travail :

async def generate_podcast_script(outline: str, analysis: str, host_count: int):
    # System instructions for different podcast formats
    system_instructions = TWO_HOST_SYSTEM_PROMPT if host_count > 1 else ONE_HOST_SYSTEM_PROMPT

    # Example of how we structure the AI conversation
    if host_count > 1:
        script_format = """
        **Alex**: "Hello and welcome to MyPodify! I'm your host Alex, joined by..."
        **Jane**: "Hi everyone! I'm Jane, and today we're diving into {topic}..."
        """
    else:
        script_format = """
        **Alex**: "Welcome to MyPodify! Today we're exploring {topic}..."
        """

    # Generate the complete script using AI
    script = await generate_content_from_openai(
        content=f"{outline}\n\nContent Details:{analysis}",
        system_instructions=system_instructions,
        purpose="Podcast Script"
    )

    return script
Copier après la connexion

Gestion des erreurs et fiabilité

Le système implémente une gestion complète des erreurs :

  1. Réessayer la logique

    • Intervalle exponentiel en cas d'échec des appels d'API
    • Configuration du nombre maximum de nouvelles tentatives
    • File d'attente des lettres mortes pour les messages ayant échoué
  2. Suivi du statut

    • Messages d'erreur détaillés stockés dans Firestore
    • Mises à jour du statut en temps réel des utilisateurs
    • Agrégation d'erreurs pour la surveillance
  3. Nettoyage des ressources

    • Suppression automatique des fichiers temporaires
    • Échec du nettoyage du téléchargement
    • Détection des ressources orphelines

Mise à l'échelle et optimisations des performances

Pour gérer les charges de production, nous avons mis en œuvre plusieurs optimisations :

  1. Mise à l'échelle des travailleurs

    • Mise à l'échelle horizontale basée sur la longueur de la file d'attente
    • Autoscaling basé sur les ressources
    • Déploiement régional pour une latence plus faible
  2. Optimisation du stockage

    • Déduplication de contenu
    • Stockage audio compressé
    • Intégration CDN pour la livraison
  3. Optimisation du traitement

    • Traitement par lots de documents similaires
    • Mise en cache du contenu répété
    • Traitement parallèle si possible

Surveillance et observabilité

Le système comprend une surveillance complète :

@app.post('/upload')
async def upload_files(
    token: Annotated[ParsedToken, Depends(verify_firebase_token)],
    project_name: str,
    description: str,
    website_link: str,
    host_count: int,
    files: Optional[List[UploadFile]] = File(None)
):
    # Validate token
    user_id = token['uid']

    # Generate unique identifiers
    project_id = str(uuid.uuid4())
    podcast_id = str(uuid.uuid4())

    # Process and store files
    file_urls = await process_uploads(files, user_id, project_id)

    # Create Firestore document
    await create_project_document(user_id, project_id, {
        'status': 'pending',
        'created_at': datetime.now(),
        'project_name': project_name,
        'description': description,
        'file_urls': file_urls
    })

    # Trigger async processing
    await publish_to_pubsub(user_id, project_id, podcast_id, file_urls)

    return {'project_id': project_id, 'status': 'processing'}
Copier après la connexion
Copier après la connexion
Copier après la connexion

Améliorations futures

Bien que le système actuel fonctionne bien, il existe plusieurs possibilités intéressantes d'améliorations futures :

  1. Traitement audio amélioré

    • Intégration de la musique de fond
    • Effets audio avancés
    • Formation vocale personnalisée
  2. Amélioration du contenu

    • Marqueurs de chapitre automatiques
    • Transcriptions interactives
    • Support multilingue
  3. Intégration de plateforme

    • Publication directe sur plateforme de podcasts
    • Génération de flux RSS
    • Partage sur les réseaux sociaux

La création d'un convertisseur de document en podcast a été un voyage passionnant vers l'architecture cloud moderne. La combinaison de FastAPI, Firebase, Google Cloud Pub/Sub et des services de synthèse vocale d'Azure constitue une base solide pour gérer le traitement de documents complexes à grande échelle.

L'architecture basée sur les événements garantit que le système reste réactif sous charge, tandis que l'utilisation de services gérés réduit les frais opérationnels. Que vous construisiez un système similaire ou que vous exploriez simplement des architectures cloud natives, j'espère que cette étude approfondie vous a fourni des informations précieuses sur la création d'applications évolutives et prêtes pour la production.


Vous souhaitez en savoir plus sur l'architecture cloud et le développement d'applications modernes ? Suivez-moi pour des tutoriels plus techniques et pratiques.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

<🎜>: Dead Rails - Comment apprivoiser les loups
4 Il y a quelques semaines By DDD
<🎜>: Grow A Garden - Guide de mutation complet
2 Il y a quelques semaines By DDD
Niveaux de force pour chaque ennemi et monstre de R.E.P.O.
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Tutoriel Java
1659
14
Tutoriel PHP
1258
29
Tutoriel C#
1232
24
Python vs C: applications et cas d'utilisation comparés Python vs C: applications et cas d'utilisation comparés Apr 12, 2025 am 12:01 AM

Python convient à la science des données, au développement Web et aux tâches d'automatisation, tandis que C convient à la programmation système, au développement de jeux et aux systèmes intégrés. Python est connu pour sa simplicité et son écosystème puissant, tandis que C est connu pour ses capacités de contrôle élevées et sous-jacentes.

Le plan Python de 2 heures: une approche réaliste Le plan Python de 2 heures: une approche réaliste Apr 11, 2025 am 12:04 AM

Vous pouvez apprendre les concepts de programmation de base et les compétences de Python dans les 2 heures. 1. Apprenez les variables et les types de données, 2. Flux de contrôle maître (instructions et boucles conditionnelles), 3. Comprenez la définition et l'utilisation des fonctions, 4. Démarrez rapidement avec la programmation Python via des exemples simples et des extraits de code.

Python: jeux, GUIS, et plus Python: jeux, GUIS, et plus Apr 13, 2025 am 12:14 AM

Python excelle dans les jeux et le développement de l'interface graphique. 1) Le développement de jeux utilise Pygame, fournissant des fonctions de dessin, audio et d'autres fonctions, qui conviennent à la création de jeux 2D. 2) Le développement de l'interface graphique peut choisir Tkinter ou Pyqt. Tkinter est simple et facile à utiliser, PYQT a des fonctions riches et convient au développement professionnel.

Combien de python pouvez-vous apprendre en 2 heures? Combien de python pouvez-vous apprendre en 2 heures? Apr 09, 2025 pm 04:33 PM

Vous pouvez apprendre les bases de Python dans les deux heures. 1. Apprenez les variables et les types de données, 2. Structures de contrôle maître telles que si les instructions et les boucles, 3. Comprenez la définition et l'utilisation des fonctions. Ceux-ci vous aideront à commencer à écrire des programmes Python simples.

Python vs C: courbes d'apprentissage et facilité d'utilisation Python vs C: courbes d'apprentissage et facilité d'utilisation Apr 19, 2025 am 12:20 AM

Python est plus facile à apprendre et à utiliser, tandis que C est plus puissant mais complexe. 1. La syntaxe Python est concise et adaptée aux débutants. Le typage dynamique et la gestion automatique de la mémoire le rendent facile à utiliser, mais peuvent entraîner des erreurs d'exécution. 2.C fournit des fonctionnalités de contrôle de bas niveau et avancées, adaptées aux applications haute performance, mais a un seuil d'apprentissage élevé et nécessite une gestion manuelle de la mémoire et de la sécurité.

Python et temps: tirer le meilleur parti de votre temps d'étude Python et temps: tirer le meilleur parti de votre temps d'étude Apr 14, 2025 am 12:02 AM

Pour maximiser l'efficacité de l'apprentissage de Python dans un temps limité, vous pouvez utiliser les modules DateTime, Time et Schedule de Python. 1. Le module DateTime est utilisé pour enregistrer et planifier le temps d'apprentissage. 2. Le module de temps aide à définir l'étude et le temps de repos. 3. Le module de planification organise automatiquement des tâches d'apprentissage hebdomadaires.

Python: Explorer ses applications principales Python: Explorer ses applications principales Apr 10, 2025 am 09:41 AM

Python est largement utilisé dans les domaines du développement Web, de la science des données, de l'apprentissage automatique, de l'automatisation et des scripts. 1) Dans le développement Web, les cadres Django et Flask simplifient le processus de développement. 2) Dans les domaines de la science des données et de l'apprentissage automatique, les bibliothèques Numpy, Pandas, Scikit-Learn et Tensorflow fournissent un fort soutien. 3) En termes d'automatisation et de script, Python convient aux tâches telles que les tests automatisés et la gestion du système.

Python: automatisation, script et gestion des tâches Python: automatisation, script et gestion des tâches Apr 16, 2025 am 12:14 AM

Python excelle dans l'automatisation, les scripts et la gestion des tâches. 1) Automatisation: La sauvegarde du fichier est réalisée via des bibliothèques standard telles que le système d'exploitation et la fermeture. 2) Écriture de script: utilisez la bibliothèque PSUTIL pour surveiller les ressources système. 3) Gestion des tâches: utilisez la bibliothèque de planification pour planifier les tâches. La facilité d'utilisation de Python et la prise en charge de la bibliothèque riche en font l'outil préféré dans ces domaines.

See all articles