


Créer un générateur d'informations vidéo à l'aide de Gemini Flash
La compréhension vidéo ou les informations vidéo sont cruciales dans divers secteurs et applications en raison de leurs avantages multiformes. Ils améliorent l'analyse et la gestion du contenu en générant automatiquement des métadonnées, en catégorisant le contenu et en rendant les vidéos plus consultables. De plus, les informations vidéo fournissent des données critiques qui orientent la prise de décision, améliorent l'expérience des utilisateurs et améliorent l'efficacité opérationnelle dans divers secteurs.
Le modèle Gemini 1.5 de Google apporte des avancées significatives dans ce domaine. Au-delà de ses améliorations impressionnantes en matière de traitement du langage, ce modèle peut gérer un énorme contexte d'entrée allant jusqu'à 1 million de jetons. Pour étendre ses capacités, Gemini 1.5 est formé comme un modèle multimodal, traitant nativement le texte, les images, l'audio et la vidéo. Cette puissante combinaison de types d'entrée variés et d'une taille de contexte étendue ouvre de nouvelles possibilités pour traiter efficacement de longues vidéos.
Dans cet article, nous verrons comment Gemini 1.5 peut être exploité pour générer des informations vidéo précieuses, transformant ainsi la façon dont nous comprenons et utilisons le contenu vidéo dans différents domaines.
Commencer
Table des matières
- Qu'est-ce que Gemini 1.5
- Prérequis
- Installation des dépendances
- Configuration de la clé API Gemini
- Configuration des variables d'environnement
- Importation des bibliothèques
- Initialisation du projet
- Enregistrement des fichiers téléchargés
- Générer des informations à partir de vidéos
- Télécharger une vidéo sur l'API Files
- Obtenir le fichier
- Génération de réponses
- Supprimer le fichier
- Combiner les étapes
- Création de l'interface
- Création de l'application rationalisée
Qu'est-ce que Gémeaux 1.5
Gemini 1.5 de Google représente un bond en avant significatif en termes de performances et d'efficacité de l'IA. S'appuyant sur de nombreuses innovations en matière de recherche et d'ingénierie, ce modèle présente une nouvelle architecture de mélange d'experts (MoE), améliorant à la fois la formation et l'efficacité du service. Disponibles en version préliminaire publique, Gemini 1.5 Pro et 1.5 Flash offrent une impressionnante fenêtre contextuelle d'un million de jetons via Google AI Studio et Vertex AI.
Mises à jour Google Gemini : Flash 1.5, Gemma 2 et Project Astra (blog.google)
Le modèle 1.5 Flash, le dernier-né de la famille Gemini, est le plus rapide et le plus optimisé pour les tâches à volume élevé et à haute fréquence. Il est conçu pour être rentable et excelle dans des applications telles que le résumé, le chat, le sous-titrage d'images et de vidéos, ainsi que l'extraction de données à partir de documents et de tableaux volumineux. Grâce à ces avancées, Gemini 1.5 établit une nouvelle norme en matière de performances et de polyvalence dans les modèles d'IA.
Conditions préalables
- Python 3.9 (https://www.python.org/downloads)
- google-generativeai
- streaméclairé
Installation des dépendances
- Créez et activez un environnement virtuel en exécutant la commande suivante.
python -m venv venv source venv/bin/activate #for ubuntu venv/Scripts/activate #for windows
- Installez la bibliothèque google-generativeai, streamlit, python-dotenv à l'aide de pip. Notez que generativeai nécessite la version python 3.9 pour fonctionner.
pip install google-generativeai streamlit python-dotenv
Configuration de la clé API Gemini
Pour accéder à l'API Gemini et commencer à utiliser ses fonctionnalités, vous pouvez acquérir une clé API Google gratuite en vous inscrivant auprès de Google AI Studio. Google AI Studio, proposé par Google, fournit une interface visuelle conviviale pour interagir avec l'API Gemini. Dans Google AI Studio, vous pouvez interagir en toute transparence avec les modèles génératifs via son interface utilisateur intuitive et, si vous le souhaitez, générer un jeton API pour un contrôle et une personnalisation améliorés.
Suivez les étapes pour générer une clé API Gemini :
- Pour lancer le processus, vous pouvez soit cliquer sur le lien (https://aistudio.google.com/app) pour être redirigé vers Google AI Studio, soit effectuer une recherche rapide sur Google pour le localiser.
- Acceptez les conditions d'utilisation et cliquez sur continuer.
- Cliquez sur le lien Obtenir la clé API dans la barre latérale et sur le bouton Créer une clé API dans un nouveau projet pour générer la clé.
- Copiez la clé API générée.
Configuration des variables d'environnement
Commencez par créer un nouveau dossier pour votre projet. Choisissez un nom qui reflète le but de votre projet.
Dans votre nouveau dossier de projet, créez un fichier nommé .env. Ce fichier stockera vos variables d'environnement, y compris votre clé API Gemini.
Ouvrez le fichier .env et ajoutez le code suivant pour spécifier votre clé API Gemini :
GOOGLE_API_KEY=AIzaSy......
Importer les bibliothèques
Pour démarrer votre projet et vous assurer de disposer de tous les outils nécessaires, vous devez importer plusieurs bibliothèques de clés comme suit.
import os import time import google.generativeai as genai import streamlit as st from dotenv import load_dotenv
- google.generativeai as genai : importe la bibliothèque Google Generative AI pour interagir avec l'API Gemini.
- streamlit as st : importe Streamlit pour créer des applications Web.
- from dotenv import load_dotenv : charge les variables d'environnement à partir d'un fichier .env.
Initialisation du projet
Pour configurer votre projet, vous devez configurer la clé API et créer un répertoire pour le stockage temporaire des fichiers téléchargés.
Définissez le dossier multimédia et configurez la clé API Gemini en initialisant les paramètres nécessaires. Ajoutez le code suivant à votre script :
python -m venv venv source venv/bin/activate #for ubuntu venv/Scripts/activate #for windows
Enregistrement des fichiers téléchargés
Pour stocker les fichiers téléchargés dans le dossier multimédia et renvoyer leurs chemins, définissez une méthode appelée save_uploaded_file et ajoutez-y le code suivant.
pip install google-generativeai streamlit python-dotenv
Générer des informations à partir de vidéos
La génération d'informations à partir de vidéos implique plusieurs étapes cruciales, notamment le téléchargement, le traitement et la génération de réponses.
1. Téléchargez une vidéo sur l'API Files
L'API Gemini accepte directement les formats de fichiers vidéo. L'API File prend en charge des fichiers d'une taille maximale de 2 Go et permet un stockage jusqu'à 20 Go par projet. Les fichiers téléchargés restent disponibles pendant 2 jours et ne peuvent pas être téléchargés depuis l'API.
GOOGLE_API_KEY=AIzaSy......
2. Obtenir le fichier
Après avoir téléchargé un fichier, vous pouvez vérifier que l'API l'a bien reçu en utilisant la méthode files.get. Cette méthode vous permet de visualiser les fichiers téléchargés sur l'API File qui sont associés au projet Cloud lié à votre clé API. Seuls le nom du fichier et l'URI sont des identifiants uniques.
import os import time import google.generativeai as genai import streamlit as st from dotenv import load_dotenv
3. Génération de réponses
Une fois la vidéo téléchargée, vous pouvez effectuer des requêtes GenerateContent faisant référence à l'URI de l'API de fichier.
MEDIA_FOLDER = 'medias' def __init__(): # Create the media directory if it doesn't exist if not os.path.exists(MEDIA_FOLDER): os.makedirs(MEDIA_FOLDER) # Load environment variables from the .env file load_dotenv() # Retrieve the API key from the environment variables api_key = os.getenv("GEMINI_API_KEY") # Configure the Gemini API with your API key genai.configure(api_key=api_key)
4. Supprimer le fichier
Les fichiers sont automatiquement supprimés après 2 jours ou vous pouvez les supprimer manuellement à l'aide de files.delete().
def save_uploaded_file(uploaded_file): """Save the uploaded file to the media folder and return the file path.""" file_path = os.path.join(MEDIA_FOLDER, uploaded_file.name) with open(file_path, 'wb') as f: f.write(uploaded_file.read()) return file_path
5. Combiner les étapes
Créez une méthode appelée get_insights et ajoutez-y le code suivant. Au lieu de print(), utilisez la méthode streamlit write() pour voir les messages sur le site Web.
video_file = genai.upload_file(path=video_path)
Création de l'interface
Pour rationaliser le processus de téléchargement de vidéos et de génération d'informations dans une application Streamlit, vous pouvez créer une méthode nommée app. Cette méthode fournira un bouton de téléchargement, affichera la vidéo téléchargée et générera des informations à partir de celle-ci.
import time while video_file.state.name == "PROCESSING": print('Waiting for video to be processed.') time.sleep(10) video_file = genai.get_file(video_file.name) if video_file.state.name == "FAILED": raise ValueError(video_file.state.name)
Création de l'application rationalisée
Pour créer une application Streamlit complète et fonctionnelle qui permet aux utilisateurs de télécharger des vidéos et de générer des informations à l'aide du modèle Flash Gemini 1.5, combinez tous les composants dans un seul fichier nommé app.py.
Voici le code final :
# Create the prompt. prompt = "Describe the video. Provides the insights from the video." # Set the model to Gemini 1.5 Flash. model = genai.GenerativeModel(model_name="models/gemini-1.5-flash") # Make the LLM request. print("Making LLM inference request...") response = model.generate_content([prompt, video_file], request_options={"timeout": 600}) print(response.text)
Exécuter l'application
Exécutez le code suivant pour exécuter l'application.
genai.delete_file(video_file.name)
Vous pouvez ouvrir le lien fourni dans la console pour voir le résultat.
Merci d'avoir lu cet article !!
Si vous avez apprécié cet article, veuillez cliquer sur le bouton cœur ♥ et partager pour aider les autres à le trouver !
Le code source complet de ce tutoriel peut être trouvé ici,
GitHub - codemaker2015/video-insights-generator
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds











Python est plus facile à apprendre et à utiliser, tandis que C est plus puissant mais complexe. 1. La syntaxe Python est concise et adaptée aux débutants. Le typage dynamique et la gestion automatique de la mémoire le rendent facile à utiliser, mais peuvent entraîner des erreurs d'exécution. 2.C fournit des fonctionnalités de contrôle de bas niveau et avancées, adaptées aux applications haute performance, mais a un seuil d'apprentissage élevé et nécessite une gestion manuelle de la mémoire et de la sécurité.

Est-ce suffisant pour apprendre Python pendant deux heures par jour? Cela dépend de vos objectifs et de vos méthodes d'apprentissage. 1) Élaborer un plan d'apprentissage clair, 2) Sélectionnez les ressources et méthodes d'apprentissage appropriées, 3) la pratique et l'examen et la consolidation de la pratique pratique et de l'examen et de la consolidation, et vous pouvez progressivement maîtriser les connaissances de base et les fonctions avancées de Python au cours de cette période.

Python est meilleur que C dans l'efficacité du développement, mais C est plus élevé dans les performances d'exécution. 1. La syntaxe concise de Python et les bibliothèques riches améliorent l'efficacité du développement. Les caractéristiques de type compilation et le contrôle du matériel de CC améliorent les performances d'exécution. Lorsque vous faites un choix, vous devez peser la vitesse de développement et l'efficacité de l'exécution en fonction des besoins du projet.

Python et C ont chacun leurs propres avantages, et le choix doit être basé sur les exigences du projet. 1) Python convient au développement rapide et au traitement des données en raison de sa syntaxe concise et de son typage dynamique. 2) C convient à des performances élevées et à une programmation système en raison de son typage statique et de sa gestion de la mémoire manuelle.

PythonlistSaReparmentofthestandardLibrary, tandis que les coloccules de colocède, tandis que les colocculations pour la base de la Parlementaire, des coloments de forage polyvalent, tandis que la fonctionnalité de la fonctionnalité nettement adressée.

Python excelle dans l'automatisation, les scripts et la gestion des tâches. 1) Automatisation: La sauvegarde du fichier est réalisée via des bibliothèques standard telles que le système d'exploitation et la fermeture. 2) Écriture de script: utilisez la bibliothèque PSUTIL pour surveiller les ressources système. 3) Gestion des tâches: utilisez la bibliothèque de planification pour planifier les tâches. La facilité d'utilisation de Python et la prise en charge de la bibliothèque riche en font l'outil préféré dans ces domaines.

Les applications de Python en informatique scientifique comprennent l'analyse des données, l'apprentissage automatique, la simulation numérique et la visualisation. 1.Numpy fournit des tableaux multidimensionnels et des fonctions mathématiques efficaces. 2. Scipy étend la fonctionnalité Numpy et fournit des outils d'optimisation et d'algèbre linéaire. 3. Pandas est utilisé pour le traitement et l'analyse des données. 4.Matplotlib est utilisé pour générer divers graphiques et résultats visuels.

Les applications clés de Python dans le développement Web incluent l'utilisation des cadres Django et Flask, le développement de l'API, l'analyse et la visualisation des données, l'apprentissage automatique et l'IA et l'optimisation des performances. 1. Framework Django et Flask: Django convient au développement rapide d'applications complexes, et Flask convient aux projets petits ou hautement personnalisés. 2. Développement de l'API: Utilisez Flask ou DjangorestFramework pour construire RestulAPI. 3. Analyse et visualisation des données: utilisez Python pour traiter les données et les afficher via l'interface Web. 4. Apprentissage automatique et AI: Python est utilisé pour créer des applications Web intelligentes. 5. Optimisation des performances: optimisée par la programmation, la mise en cache et le code asynchrones
