Déverrouillez les secrets des ingrédients du produit avec un agent d'IA multimodal! Vous en avez assez de déchiffrer les listes d'ingrédients complexes? Cet article vous montre comment construire un puissant analyseur d'ingrédients de produit à l'aide de la recherche Web Gemini 2.0, Phidata et Tavily. Dites adieu aux recherches individuelles individuelles et bonjour aux idées instantanées et exploitables!
Ce tutoriel vous guidera à travers:
Cet article fait partie du blogathon de la science des données.
Table des matières
Comprendre les systèmes multimodaux
Les systèmes multimodaux sont conçus pour traiter et interpréter les divers types de données simultanément - y compris le texte, les images, l'audio et la vidéo. Des modèles de vision comme Gemini 2.0 Flash, GPT-4O, Claude Sonnet 3.5 et Pixtral-12b excellent pour reconnaître les relations complexes entre ces modalités, en extraissant des connaissances précieuses à partir d'entrées complexes. Cet article se concentre sur les modèles de langue de vision qui analysent les images et génèrent des explications textuelles. Ces systèmes mélangent parfaitement la vision par ordinateur et le traitement du langage naturel pour interpréter les informations visuelles en fonction des invites utilisateur.
Applications multimodales du monde réel
Les systèmes multimodaux révolutionnent diverses industries:
La puissance des agents multimodaux
Le changement vers des agents multimodaux représente un progrès significatif de l'interaction IA. Voici pourquoi ils sont si efficaces:
Construire l'agent d'analyseur d'ingrédients de votre produit
Créons l'agent d'analyse des ingrédients du produit étape par étape:
Étape 1: Configuration des dépendances
Nous aurons besoin:
!pip install phidata google-generativeai tavily-python streamlit pillow
Étape 2: Configuration et configuration de l'API
Obtenez des clés d'API à partir de:
from phi.agent import Agent from phi.model.google import Gemini # needs a api key from phi.tools.tavily import TavilyTools # also needs a api key import os TAVILY_API_KEY = "<replace-your-api-key>" GOOGLE_API_KEY = "<replace-your-api-key>" os.environ['TAVILY_API_KEY'] = TAVILY_API_KEY os.environ['GOOGLE_API_KEY'] = GOOGLE_API_KEY</replace-your-api-key></replace-your-api-key>
Étape 3: Invite du système et instructions
Les instructions claires sont cruciales pour les performances optimales de LLM. Nous définirons le rôle et les responsabilités de l'agent:
SYSTEM_PROMPT = """ You are an expert Food Product Analyst specialized in ingredient analysis and nutrition science. Your role is to analyze product ingredients, provide health insights, and identify potential concerns by combining ingredient analysis with scientific research. You utilize your nutritional knowledge and research works to provide evidence-based insights, making complex ingredient information accessible and actionable for users. Return your response in Markdown format. """ INSTRUCTIONS = """ * Read ingredient list from product image * Remember the user may not be educated about the product, break it down in simple words like explaining to 10 year kid * Identify artificial additives and preservatives * Check against major dietary restrictions (vegan, halal, kosher). Include this in response. * Rate nutritional value on scale of 1-5 * Highlight key health implications or concerns * Suggest healthier alternatives if needed * Provide brief evidence-based recommendations * Use Search tool for getting context """
Étape 4: Définition de l'objet agent
L'agent Phidata est configuré pour traiter la marque et fonctionner en fonction de l'invite du système et des instructions. Gemini 2.0 Flash est utilisé comme modèle de raisonnement, et la recherche tavillante est intégrée pour une recherche Web efficace.
agent = Agent( model = Gemini(), tools = [TavilyTools()], markdown=True, system_prompt = SYSTEM_PROMPT, instructions = INSTRUCTIONS )
Étape 5: Traitement d'images multimodal
Fournissez le chemin d'image ou l'URL, ainsi qu'une invite, pour initier l'analyse. Des exemples utilisant les deux approches sont fournis dans l'article d'origine.
Étape 6 et 7: Sationure de développement d'applications Web (code détaillé dans l'article d'origine)
Une application Streamlit est créée pour fournir une interface conviviale pour le téléchargement d'image, l'analyse et l'affichage des résultats. L'application comprend des onglets par exemple des produits, des téléchargements d'images et une capture de photos en direct. Le redimensionnement et la mise en cache d'image sont implémentés pour des performances optimales.
liens essentiels
Conclusion
Les agents d'IA multimodaux transforment la façon dont nous interagissons et comprenons des informations complexes. L'analyseur d'ingrédients du produit démontre la puissance de combiner la vision, la langue et la recherche Web pour fournir des informations accessibles et exploitables.
Questions fréquemment posées
N'oubliez pas de remplacer les espaces réservés par vos clés API réelles. Le code complet et les liens d'application déployés doivent être ajoutés pour un guide complet et fonctionnel.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!