Erstellen eines Video-Insights-Generators mit Gemini Flash-Python-Tutorial-php.cn

Heim

Backend-Entwicklung

Python-Tutorial

Erstellen eines Video-Insights-Generators mit Gemini Flash

DDD

Nov 26, 2024 pm 08:24 PM

Videoverständnis oder Videoeinblicke sind aufgrund ihrer vielfältigen Vorteile in verschiedenen Branchen und Anwendungen von entscheidender Bedeutung. Sie verbessern die Inhaltsanalyse und -verwaltung, indem sie automatisch Metadaten generieren, Inhalte kategorisieren und Videos besser durchsuchbar machen. Darüber hinaus liefern Videoeinblicke wichtige Daten, die die Entscheidungsfindung vorantreiben, das Benutzererlebnis verbessern und die betriebliche Effizienz in verschiedenen Sektoren verbessern.

Das Modell Gemini 1.5 von Google bringt erhebliche Fortschritte in diesem Bereich. Neben den beeindruckenden Verbesserungen in der Sprachverarbeitung kann dieses Modell einen enormen Eingabekontext von bis zu 1 Million Token verarbeiten. Um seine Fähigkeiten zu erweitern, ist Gemini 1.5 als multimodales Modell trainiert, das Text, Bilder, Audio und Video nativ verarbeitet. Diese leistungsstarke Kombination aus verschiedenen Eingabetypen und umfangreicher Kontextgröße eröffnet neue Möglichkeiten für die effektive Verarbeitung langer Videos.

In diesem Artikel werden wir uns damit befassen, wie Gemini 1.5 genutzt werden kann, um wertvolle Videoeinblicke zu generieren und die Art und Weise zu verändern, wie wir Videoinhalte in verschiedenen Bereichen verstehen und nutzen.

Erste Schritte

Inhaltsverzeichnis

Was ist Gemini 1.5
Voraussetzungen
Abhängigkeiten installieren
Einrichten des Gemini-API-Schlüssels
Einrichten der Umgebungsvariablen
Importieren der Bibliotheken
Initialisierung des Projekts
Hochgeladene Dateien speichern
Erkenntnisse aus Videos generieren
Laden Sie ein Video in die Datei-API hoch
Datei abrufen
Antwortgenerierung
Datei löschen
Kombination der Etappen
Erstellen der Schnittstelle
Erstellen der Streamlit-App

Was ist Gemini 1.5?

Googles Gemini 1.5 stellt einen bedeutenden Fortschritt in der KI-Leistung und -Effizienz dar. Aufbauend auf umfangreicher Forschung und technischen Innovationen verfügt dieses Modell über eine neue Mixture-of-Experts (MoE)-Architektur, die sowohl die Ausbildung als auch die Serviceeffizienz verbessert. Gemini 1.5 Pro und 1.5 Flash sind in der öffentlichen Vorschau verfügbar und bieten über Google AI Studio und Vertex AI ein beeindruckendes 1-Millionen-Token-Kontextfenster.

Building a video insights generator using Gemini Flash

Google Gemini-Updates: Flash 1.5, Gemma 2 und Project Astra (blog.google)
Das 1,5-Flash-Modell, das neueste Mitglied der Gemini-Familie, ist das schnellste und am besten für hochvolumige und hochfrequente Aufgaben optimierte Modell. Es ist auf Kosteneffizienz ausgelegt und zeichnet sich durch Anwendungen wie Zusammenfassung, Chat, Bild- und Videountertitelung sowie das Extrahieren von Daten aus umfangreichen Dokumenten und Tabellen aus. Mit diesen Fortschritten setzt Gemini 1.5 einen neuen Standard für Leistung und Vielseitigkeit bei KI-Modellen.

Voraussetzungen

Python 3.9 (https://www.python.org/downloads)
google-generativeai
Streamlit

Abhängigkeiten installieren

Erstellen und aktivieren Sie eine virtuelle Umgebung, indem Sie den folgenden Befehl ausführen.

python -m venv venv
source venv/bin/activate #for ubuntu
venv/Scripts/activate #for windows

Nach dem Login kopieren

Installieren Sie die Bibliothek google-generativeai, streamlit, python-dotenv mit pip. Beachten Sie, dass generativeai die Python-Version 3.9 benötigt, um zu funktionieren.

pip install google-generativeai streamlit python-dotenv

Nach dem Login kopieren

Einrichten des Gemini-API-Schlüssels

Um auf die Gemini-API zuzugreifen und mit deren Funktionen zu arbeiten, können Sie einen kostenlosen Google API-Schlüssel erwerben, indem Sie sich bei Google AI Studio registrieren. Google AI Studio, angeboten von Google, bietet eine benutzerfreundliche, visuelle Schnittstelle für die Interaktion mit der Gemini API. In Google AI Studio können Sie über die intuitive Benutzeroberfläche nahtlos mit generativen Modellen interagieren und bei Bedarf ein API-Token für verbesserte Kontrolle und Anpassung generieren.

Folgen Sie den Schritten, um einen Gemini-API-Schlüssel zu generieren:

Um den Vorgang zu starten, können Sie entweder auf den Link (https://aistudio.google.com/app) klicken, um zu Google AI Studio weitergeleitet zu werden, oder eine Schnellsuche bei Google durchführen, um es zu finden.
Akzeptieren Sie die Nutzungsbedingungen und klicken Sie auf Weiter.
Klicken Sie in der Seitenleiste auf den Link „API-Schlüssel abrufen“ und dann auf die Schaltfläche „API-Schlüssel in neuem Projekt erstellen“, um den Schlüssel zu generieren.
Kopieren Sie den generierten API-Schlüssel.

Building a video insights generator using Gemini Flash

Einrichten der Umgebungsvariablen

Erstellen Sie zunächst einen neuen Ordner für Ihr Projekt. Wählen Sie einen Namen, der den Zweck Ihres Projekts widerspiegelt.
Erstellen Sie in Ihrem neuen Projektordner eine Datei mit dem Namen .env. In dieser Datei werden Ihre Umgebungsvariablen gespeichert, einschließlich Ihres Gemini-API-Schlüssels.
Öffnen Sie die .env-Datei und fügen Sie den folgenden Code hinzu, um Ihren Gemini-API-Schlüssel anzugeben:

GOOGLE_API_KEY=AIzaSy......

Nach dem Login kopieren

Importieren der Bibliotheken

Um mit Ihrem Projekt zu beginnen und sicherzustellen, dass Sie über alle erforderlichen Tools verfügen, müssen Sie wie folgt mehrere Schlüsselbibliotheken importieren.

import os
import time
import google.generativeai as genai
import streamlit as st
from dotenv import load_dotenv

Nach dem Login kopieren

google.generativeai als genai: Importiert die Google Generative AI-Bibliothek für die Interaktion mit der Gemini API.
streamlit as st: Importiert Streamlit zum Erstellen von Web-Apps.
from dotenv import load_dotenv: Lädt Umgebungsvariablen aus einer .env-Datei.

Initialisierung des Projekts

Um Ihr Projekt einzurichten, müssen Sie den API-Schlüssel konfigurieren und ein Verzeichnis für die temporäre Dateispeicherung für hochgeladene Dateien erstellen.

Definieren Sie den Medienordner und konfigurieren Sie den Gemini-API-Schlüssel, indem Sie die erforderlichen Einstellungen initialisieren. Fügen Sie Ihrem Skript den folgenden Code hinzu:

python -m venv venv
source venv/bin/activate #for ubuntu
venv/Scripts/activate #for windows

Nach dem Login kopieren

Hochgeladene Dateien speichern

Um hochgeladene Dateien im Medienordner zu speichern und ihre Pfade zurückzugeben, definieren Sie eine Methode namens save_uploaded_file und fügen Sie den folgenden Code hinzu.

pip install google-generativeai streamlit python-dotenv

Nach dem Login kopieren

Erkenntnisse aus Videos generieren

Das Generieren von Erkenntnissen aus Videos umfasst mehrere entscheidende Phasen, darunter das Hochladen, die Verarbeitung und die Generierung von Antworten.

1. Laden Sie ein Video in die Datei-API hoch

Die Gemini-API akzeptiert direkt Videodateiformate. Die Datei-API unterstützt Dateien mit einer Größe von bis zu 2 GB und ermöglicht die Speicherung von bis zu 20 GB pro Projekt. Hochgeladene Dateien bleiben 2 Tage lang verfügbar und können nicht von der API heruntergeladen werden.

GOOGLE_API_KEY=AIzaSy......

Nach dem Login kopieren

2. Datei abrufen

Nachdem Sie eine Datei hochgeladen haben, können Sie mithilfe der Methode „files.get“ überprüfen, ob die API sie erfolgreich empfangen hat. Mit dieser Methode können Sie die auf die Datei-API hochgeladenen Dateien anzeigen, die mit dem mit Ihrem API-Schlüssel verknüpften Cloud-Projekt verknüpft sind. Nur der Dateiname und der URI sind eindeutige Identifikatoren.

import os
import time
import google.generativeai as genai
import streamlit as st
from dotenv import load_dotenv

Nach dem Login kopieren

3. Antwortgenerierung

Nachdem das Video hochgeladen wurde, können Sie GenerateContent-Anfragen stellen, die auf den Datei-API-URI verweisen.

MEDIA_FOLDER = 'medias'

def __init__():
    # Create the media directory if it doesn't exist
    if not os.path.exists(MEDIA_FOLDER):
        os.makedirs(MEDIA_FOLDER)

    # Load environment variables from the .env file
    load_dotenv()

    # Retrieve the API key from the environment variables
    api_key = os.getenv("GEMINI_API_KEY")

    # Configure the Gemini API with your API key
    genai.configure(api_key=api_key)

Nach dem Login kopieren

4. Datei löschen

Dateien werden nach 2 Tagen automatisch gelöscht oder Sie können sie manuell mit files.delete() löschen.

def save_uploaded_file(uploaded_file):
    """Save the uploaded file to the media folder and return the file path."""
    file_path = os.path.join(MEDIA_FOLDER, uploaded_file.name)
    with open(file_path, 'wb') as f:
        f.write(uploaded_file.read())
    return file_path

Nach dem Login kopieren

5. Kombinieren der Etappen

Erstellen Sie eine Methode namens get_insights und fügen Sie den folgenden Code hinzu. Verwenden Sie anstelle von print() die Methode streamlit write(), um die Nachrichten auf der Website anzuzeigen.

video_file = genai.upload_file(path=video_path)

Nach dem Login kopieren

Erstellen der Schnittstelle

Um den Prozess des Hochladens von Videos und der Generierung von Erkenntnissen innerhalb einer Streamlit-App zu optimieren, können Sie eine Methode namens „App“ erstellen. Diese Methode stellt eine Schaltfläche zum Hochladen bereit, zeigt das hochgeladene Video an und generiert daraus Erkenntnisse.

import time

while video_file.state.name == "PROCESSING":
    print('Waiting for video to be processed.')
    time.sleep(10)
    video_file = genai.get_file(video_file.name)

if video_file.state.name == "FAILED":
  raise ValueError(video_file.state.name)

Nach dem Login kopieren

Erstellen der Streamlit-App

Um eine vollständige und funktionale Streamlit-Anwendung zu erstellen, die es Benutzern ermöglicht, mithilfe des Gemini 1.5 Flash-Modells Videos hochzuladen und Erkenntnisse zu generieren, kombinieren Sie alle Komponenten in einer einzigen Datei mit dem Namen app.py.

Hier ist der endgültige Code:

# Create the prompt.
prompt = "Describe the video. Provides the insights from the video."

# Set the model to Gemini 1.5 Flash.
model = genai.GenerativeModel(model_name="models/gemini-1.5-flash")

# Make the LLM request.
print("Making LLM inference request...")
response = model.generate_content([prompt, video_file],
                                  request_options={"timeout": 600})
print(response.text)

Nach dem Login kopieren

Ausführen der Anwendung

Führen Sie den folgenden Code aus, um die Anwendung auszuführen.

genai.delete_file(video_file.name)

Nach dem Login kopieren

Sie können den in der Konsole bereitgestellten Link öffnen, um die Ausgabe anzuzeigen.

Building a video insights generator using Gemini Flash

Vielen Dank für das Lesen dieses Artikels!!

Wenn Ihnen dieser Artikel gefallen hat, klicken Sie bitte auf den Herz-Button ♥ und teilen Sie ihn, damit andere ihn finden können!

Den vollständigen Quellcode für dieses Tutorial finden Sie hier,

GitHub – codemaker2015/video-insights-generator

Das obige ist der detaillierte Inhalt vonErstellen eines Video-Insights-Generators mit Gemini Flash. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Wie kann ich KB5055612 in Windows 10 nicht installieren?

4 Wochen vor By DDD

<🎜>: Bubble Gum Simulator Infinity - So erhalten und verwenden Sie Royal Keys

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

<🎜>: Wachsen Sie einen Garten - Komplette Mutationsführer

3 Wochen vor By DDD

Nordhold: Fusionssystem, erklärt

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Flüstern des Hexenbaum

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial

1673

CakePHP-Tutorial

1429

Laravel-Tutorial

1333

PHP-Tutorial

1278

C#-Tutorial

1257

Related knowledge

Python vs. C: Lernkurven und Benutzerfreundlichkeit Apr 19, 2025 am 12:20 AM

Python ist leichter zu lernen und zu verwenden, während C leistungsfähiger, aber komplexer ist. 1. Python -Syntax ist prägnant und für Anfänger geeignet. Durch die dynamische Tippen und die automatische Speicherverwaltung können Sie die Verwendung einfach zu verwenden, kann jedoch zur Laufzeitfehler führen. 2.C bietet Steuerung und erweiterte Funktionen auf niedrigem Niveau, geeignet für Hochleistungsanwendungen, hat jedoch einen hohen Lernschwellenwert und erfordert manuellem Speicher und Typensicherheitsmanagement.

Python lernen: Ist 2 Stunden tägliches Studium ausreichend? Apr 18, 2025 am 12:22 AM

Ist es genug, um Python für zwei Stunden am Tag zu lernen? Es hängt von Ihren Zielen und Lernmethoden ab. 1) Entwickeln Sie einen klaren Lernplan, 2) Wählen Sie geeignete Lernressourcen und -methoden aus, 3) praktizieren und prüfen und konsolidieren Sie praktische Praxis und Überprüfung und konsolidieren Sie und Sie können die Grundkenntnisse und die erweiterten Funktionen von Python während dieser Zeit nach und nach beherrschen.

Python vs. C: Erforschung von Leistung und Effizienz erforschen Apr 18, 2025 am 12:20 AM

Python ist in der Entwicklungseffizienz besser als C, aber C ist in der Ausführungsleistung höher. 1. Pythons prägnante Syntax und reiche Bibliotheken verbessern die Entwicklungseffizienz. 2. Die Kompilierungsmerkmale von Compilation und die Hardwarekontrolle verbessern die Ausführungsleistung. Bei einer Auswahl müssen Sie die Entwicklungsgeschwindigkeit und die Ausführungseffizienz basierend auf den Projektanforderungen abwägen.

Python vs. C: Verständnis der wichtigsten Unterschiede Apr 21, 2025 am 12:18 AM

Python und C haben jeweils ihre eigenen Vorteile, und die Wahl sollte auf Projektanforderungen beruhen. 1) Python ist aufgrund seiner prägnanten Syntax und der dynamischen Typisierung für die schnelle Entwicklung und Datenverarbeitung geeignet. 2) C ist aufgrund seiner statischen Tipp- und manuellen Speicherverwaltung für hohe Leistung und Systemprogrammierung geeignet.

Welches ist Teil der Python Standard Library: Listen oder Arrays? Apr 27, 2025 am 12:03 AM

PythonlistsarePartThestandardlibrary, whilearraysarenot.listarebuilt-in, vielseitig und UNDUSEDFORSPORINGECollections, während dieArrayRay-thearrayModulei und loses und loses und losesaluseduetolimitedFunctionality.

Python: Automatisierung, Skript- und Aufgabenverwaltung Apr 16, 2025 am 12:14 AM

Python zeichnet sich in Automatisierung, Skript und Aufgabenverwaltung aus. 1) Automatisierung: Die Sicherungssicherung wird durch Standardbibliotheken wie OS und Shutil realisiert. 2) Skriptschreiben: Verwenden Sie die PSUTIL -Bibliothek, um die Systemressourcen zu überwachen. 3) Aufgabenverwaltung: Verwenden Sie die Zeitplanbibliothek, um Aufgaben zu planen. Die Benutzerfreundlichkeit von Python und die Unterstützung der reichhaltigen Bibliothek machen es zum bevorzugten Werkzeug in diesen Bereichen.

Python für wissenschaftliches Computer: Ein detailliertes Aussehen Apr 19, 2025 am 12:15 AM

Zu den Anwendungen von Python im wissenschaftlichen Computer gehören Datenanalyse, maschinelles Lernen, numerische Simulation und Visualisierung. 1.Numpy bietet effiziente mehrdimensionale Arrays und mathematische Funktionen. 2. Scipy erweitert die Numpy -Funktionalität und bietet Optimierungs- und lineare Algebra -Tools. 3.. Pandas wird zur Datenverarbeitung und -analyse verwendet. 4.Matplotlib wird verwendet, um verschiedene Grafiken und visuelle Ergebnisse zu erzeugen.

Python für die Webentwicklung: Schlüsselanwendungen Apr 18, 2025 am 12:20 AM

Zu den wichtigsten Anwendungen von Python in der Webentwicklung gehören die Verwendung von Django- und Flask -Frameworks, API -Entwicklung, Datenanalyse und Visualisierung, maschinelles Lernen und KI sowie Leistungsoptimierung. 1. Django und Flask Framework: Django eignet sich für die schnelle Entwicklung komplexer Anwendungen, und Flask eignet sich für kleine oder hochmobile Projekte. 2. API -Entwicklung: Verwenden Sie Flask oder Djangorestframework, um RESTFUFFUPI zu erstellen. 3. Datenanalyse und Visualisierung: Verwenden Sie Python, um Daten zu verarbeiten und über die Webschnittstelle anzuzeigen. 4. Maschinelles Lernen und KI: Python wird verwendet, um intelligente Webanwendungen zu erstellen. 5. Leistungsoptimierung: optimiert durch asynchrones Programmieren, Caching und Code

See all articles