视频理解或视频洞察由于其多方面的优势而在各个行业和应用中至关重要。它们通过自动生成元数据、对内容进行分类并使视频更易于搜索来增强内容分析和管理。此外,视频洞察提供了推动决策、增强用户体验并提高不同行业运营效率的关键数据。
Google 的 Gemini 1.5 模型为该领域带来了重大进步。除了在语言处理方面令人印象深刻的改进之外,该模型还可以处理多达 100 万个标记的巨大输入上下文。为了进一步增强其功能,Gemini 1.5 被训练为多模式模型,可以本地处理文本、图像、音频和视频。各种输入类型和广泛的上下文大小的强大组合为有效处理长视频开辟了新的可能性。
在本文中,我们将深入探讨如何利用 Gemini 1.5 生成有价值的视频见解,改变我们跨不同领域理解和利用视频内容的方式。
Google 的 Gemini 1.5 代表了人工智能性能和效率的重大飞跃。该模型建立在广泛的研究和工程创新的基础上,采用新的专家混合 (MoE) 架构,提高了培训和服务效率。 Gemini 1.5 Pro 和 1.5 Flash 现已推出公开预览版,通过 Google AI Studio 和 Vertex AI 提供了令人印象深刻的 100 万个代币上下文窗口。
Google Gemini 更新:Flash 1.5、Gemma 2 和 Project Astra (blog.google)
1.5 Flash 型号是 Gemini 系列的最新成员,对于大容量、高频任务来说速度最快且最优化。它专为实现成本效益而设计,在摘要、聊天、图像和视频字幕以及从大量文档和表格中提取数据等应用中表现出色。凭借这些进步,Gemini 1.5 为 AI 模型的性能和多功能性树立了新标准。
python -m venv venv source venv/bin/activate #for ubuntu venv/Scripts/activate #for windows
pip install google-generativeai streamlit python-dotenv
要访问 Gemini API 并开始使用其功能,您可以通过注册 Google AI Studio 来获取免费的 Google API 密钥。 Google AI Studio 由 Google 提供,提供了一个用户友好的、基于视觉的界面,用于与 Gemini API 进行交互。在 Google AI Studio 中,您可以通过其直观的 UI 无缝地与生成模型交互,如果需要,还可以生成 API 令牌以增强控制和自定义。
按照以下步骤生成 Gemini API 密钥:
首先为您的项目创建一个新文件夹。选择一个能够反映您项目目的的名称。
在新项目文件夹中,创建一个名为 .env 的文件。该文件将存储您的环境变量,包括您的 Gemini API 密钥。
打开 .env 文件并添加以下代码来指定您的 Gemini API 密钥:
GOOGLE_API_KEY=AIzaSy......
要开始您的项目并确保您拥有所有必要的工具,您需要导入几个关键库,如下所示。
import os import time import google.generativeai as genai import streamlit as st from dotenv import load_dotenv
要设置您的项目,您需要配置 API 密钥并为上传的文件创建临时文件存储目录。
通过初始化必要的设置来定义媒体文件夹并配置 Gemini API 密钥。将以下代码添加到您的脚本中:
python -m venv venv source venv/bin/activate #for ubuntu venv/Scripts/activate #for windows
要将上传的文件存储在媒体文件夹中并返回其路径,请定义一个名为 save_uploaded_file 的方法并向其中添加以下代码。
pip install google-generativeai streamlit python-dotenv
从视频中生成见解涉及几个关键阶段,包括上传、处理和生成响应。
Gemini API 直接接受视频文件格式。文件 API 支持最大 2GB 的文件,并允许每个项目最大存储 20GB。上传的文件保留 2 天,并且无法从 API 下载。
GOOGLE_API_KEY=AIzaSy......
上传文件后,您可以使用files.get方法验证API是否已成功接收文件。此方法允许您查看上传到文件 API 的文件,这些文件与链接到您的 API 密钥的云项目关联。只有文件名和 URI 是唯一标识符。
import os import time import google.generativeai as genai import streamlit as st from dotenv import load_dotenv
视频上传后,您可以发出引用文件 API URI 的GenerateContent 请求。
MEDIA_FOLDER = 'medias' def __init__(): # Create the media directory if it doesn't exist if not os.path.exists(MEDIA_FOLDER): os.makedirs(MEDIA_FOLDER) # Load environment variables from the .env file load_dotenv() # Retrieve the API key from the environment variables api_key = os.getenv("GEMINI_API_KEY") # Configure the Gemini API with your API key genai.configure(api_key=api_key)
文件会在 2 天后自动删除,或者您可以使用 files.delete() 手动删除它们。
def save_uploaded_file(uploaded_file): """Save the uploaded file to the media folder and return the file path.""" file_path = os.path.join(MEDIA_FOLDER, uploaded_file.name) with open(file_path, 'wb') as f: f.write(uploaded_file.read()) return file_path
创建一个名为 get_insights 的方法并向其中添加以下代码。使用 Streamlit write() 方法代替 print() 来查看网站上的消息。
video_file = genai.upload_file(path=video_path)
要简化在 Streamlit 应用程序中上传视频和生成见解的过程,您可以创建一个名为 app 的方法。此方法将提供一个上传按钮,显示上传的视频,并从中生成见解。
import time while video_file.state.name == "PROCESSING": print('Waiting for video to be processed.') time.sleep(10) video_file = genai.get_file(video_file.name) if video_file.state.name == "FAILED": raise ValueError(video_file.state.name)
要创建一个完整且功能齐全的 Streamlit 应用程序,允许用户使用 Gemini 1.5 Flash 模型上传视频并生成见解,请将所有组件组合到一个名为 app.py 的文件中。
这是最终代码:
# Create the prompt. prompt = "Describe the video. Provides the insights from the video." # Set the model to Gemini 1.5 Flash. model = genai.GenerativeModel(model_name="models/gemini-1.5-flash") # Make the LLM request. print("Making LLM inference request...") response = model.generate_content([prompt, video_file], request_options={"timeout": 600}) print(response.text)
执行以下代码来运行应用程序。
genai.delete_file(video_file.name)
您可以打开控制台中提供的链接来查看输出。
感谢您阅读这篇文章!!
如果您喜欢这篇文章,请点击心形按钮♥并分享以帮助其他人找到它!
本教程的完整源代码可以在这里找到,
GitHub - codemaker2015/video-insights-generator
以上是使用 Gemini Flash 构建视频洞察生成器的详细内容。更多信息请关注PHP中文网其他相关文章!