Maison > Périphériques technologiques > IA > Construisez un agent multimodal pour l'analyse des ingrédients du produit

Construisez un agent multimodal pour l'analyse des ingrédients du produit

Joseph Gordon-Levitt
Libérer: 2025-03-09 11:28:09
original
655 Les gens l'ont consulté

Déverrouillez les secrets des ingrédients du produit avec un agent d'IA multimodal! Vous en avez assez de déchiffrer les listes d'ingrédients complexes? Cet article vous montre comment construire un puissant analyseur d'ingrédients de produit à l'aide de la recherche Web Gemini 2.0, Phidata et Tavily. Dites adieu aux recherches individuelles individuelles et bonjour aux idées instantanées et exploitables!

Résultats d'apprentissage clés

Ce tutoriel vous guidera à travers:

  • Concevoir une architecture d'agent d'agent AI multimodale tirant parti de Phidata et Gemini 2.0 pour les tâches de langue visuelle.
  • Intégration de la recherche sur le Web Tavily pour un contexte et une récupération d'informations améliorés dans votre flux de travail d'agent.
  • Construire un agent d'analyseur d'ingrédients de produit qui combine de manière experte le traitement d'image et la recherche Web pour l'analyse détaillée des produits.
  • maîtriser l'art de fabriquer des invites et des instructions de système efficaces pour optimiser les performances de l'agent dans les scénarios multimodaux.
  • Développer une interface utilisateur rationalisée conviviale pour l'analyse d'images en temps réel, les informations nutritionnelles et les recommandations de santé personnalisées.

Cet article fait partie du blogathon de la science des données.

Table des matières

  • Comprendre les systèmes multimodaux
  • Applications multimodales du monde réel
  • La puissance des agents multimodaux
  • Construire l'agent d'analyseur d'ingrédients de votre produit
  • liens essentiels
  • Conclusion
  • Les questions fréquemment posées

Comprendre les systèmes multimodaux

Les systèmes multimodaux sont conçus pour traiter et interpréter les divers types de données simultanément - y compris le texte, les images, l'audio et la vidéo. Des modèles de vision comme Gemini 2.0 Flash, GPT-4O, Claude Sonnet 3.5 et Pixtral-12b excellent pour reconnaître les relations complexes entre ces modalités, en extraissant des connaissances précieuses à partir d'entrées complexes. Cet article se concentre sur les modèles de langue de vision qui analysent les images et génèrent des explications textuelles. Ces systèmes mélangent parfaitement la vision par ordinateur et le traitement du langage naturel pour interpréter les informations visuelles en fonction des invites utilisateur.

Applications multimodales du monde réel

Les systèmes multimodaux révolutionnent diverses industries:

  • Finance: Comprenez instantanément des termes financiers complexes en prenant simplement une capture d'écran.
  • e-commerce: obtenir une analyse détaillée des ingrédients et des informations sur la santé en photographiant les étiquettes de produits.
  • Éducation: Gardez des explications simplifiées des diagrammes et concepts complexes des manuels.
  • Care de santé: Recevoir des explications claires des rapports médicaux et des étiquettes de prescription.

La puissance des agents multimodaux

Le changement vers des agents multimodaux représente un progrès significatif de l'interaction IA. Voici pourquoi ils sont si efficaces:

  • Le traitement simultané des données visuelles et textuels conduit à des réponses plus précises et riches en contexte.
  • Les informations complexes sont simplifiées, ce qui la rend facilement accessible à un public plus large.
  • Les utilisateurs téléchargent une seule image pour une analyse complète, éliminant le besoin de recherches d'ingrédients manuels.
  • La combinaison de la recherche Web et de l'analyse d'images offre des informations plus complètes et fiables.

Construire l'agent d'analyseur d'ingrédients de votre produit

Build a Multimodal Agent for Product Ingredient Analysis

Créons l'agent d'analyse des ingrédients du produit étape par étape:

Étape 1: Configuration des dépendances

Nous aurons besoin:

  • Gemini 2.0 Flash: pour un puissant traitement multimodal.
  • Recherche tavillante: pour l'intégration de recherche Web sans couture.
  • phidata: pour orchestrer le système d'agent et gérer les workflows.
  • Streamlit: pour créer une application Web conviviale.
!pip install phidata google-generativeai tavily-python streamlit pillow
Copier après la connexion

Étape 2: Configuration et configuration de l'API

Obtenez des clés d'API à partir de:

from phi.agent import Agent
from phi.model.google import Gemini # needs a api key
from phi.tools.tavily import TavilyTools # also needs a api key

import os
TAVILY_API_KEY = "<replace-your-api-key>"
GOOGLE_API_KEY = "<replace-your-api-key>"
os.environ['TAVILY_API_KEY'] = TAVILY_API_KEY
os.environ['GOOGLE_API_KEY'] = GOOGLE_API_KEY</replace-your-api-key></replace-your-api-key>
Copier après la connexion

Étape 3: Invite du système et instructions

Les instructions claires sont cruciales pour les performances optimales de LLM. Nous définirons le rôle et les responsabilités de l'agent:

SYSTEM_PROMPT = """
You are an expert Food Product Analyst specialized in ingredient analysis and nutrition science. 
Your role is to analyze product ingredients, provide health insights, and identify potential concerns by combining ingredient analysis with scientific research. 
You utilize your nutritional knowledge and research works to provide evidence-based insights, making complex ingredient information accessible and actionable for users.
Return your response in Markdown format. 
"""

INSTRUCTIONS = """
* Read ingredient list from product image 
* Remember the user may not be educated about the product, break it down in simple words like explaining to 10 year kid
* Identify artificial additives and preservatives
* Check against major dietary restrictions (vegan, halal, kosher). Include this in response. 
* Rate nutritional value on scale of 1-5
* Highlight key health implications or concerns
* Suggest healthier alternatives if needed
* Provide brief evidence-based recommendations
* Use Search tool for getting context
"""
Copier après la connexion

Étape 4: Définition de l'objet agent

L'agent Phidata est configuré pour traiter la marque et fonctionner en fonction de l'invite du système et des instructions. Gemini 2.0 Flash est utilisé comme modèle de raisonnement, et la recherche tavillante est intégrée pour une recherche Web efficace.

agent = Agent(
    model = Gemini(),
    tools = [TavilyTools()],
    markdown=True,
    system_prompt = SYSTEM_PROMPT,
    instructions = INSTRUCTIONS
)
Copier après la connexion

Étape 5: Traitement d'images multimodal

Fournissez le chemin d'image ou l'URL, ainsi qu'une invite, pour initier l'analyse. Des exemples utilisant les deux approches sont fournis dans l'article d'origine.

Étape 6 et 7: Sationure de développement d'applications Web (code détaillé dans l'article d'origine)

Une application Streamlit est créée pour fournir une interface conviviale pour le téléchargement d'image, l'analyse et l'affichage des résultats. L'application comprend des onglets par exemple des produits, des téléchargements d'images et une capture de photos en direct. Le redimensionnement et la mise en cache d'image sont implémentés pour des performances optimales.

liens essentiels

  • Code complet: [Insérez le lien github ici]
  • Application déployée: [Insérer le lien d'application déployé ici]

Conclusion

Les agents d'IA multimodaux transforment la façon dont nous interagissons et comprenons des informations complexes. L'analyseur d'ingrédients du produit démontre la puissance de combiner la vision, la langue et la recherche Web pour fournir des informations accessibles et exploitables.

Questions fréquemment posées

  • Q1. Modèles multimodaux de vision en ligne open source: llava, pixtral-12b, multimodal-gpt, nvila et qwen sont des exemples.
  • Q2. Est-ce que Llama 3 Multimodal ?: Oui, Llama 3 et Llama 3.2 Les modèles de vision sont multimodaux.
  • Q3. LLM multimodal vs agent multimodal: un LLM traite les données multimodales; Un agent utilise des LLM et d'autres outils pour effectuer des tâches et prendre des décisions basées sur des entrées multimodales.

N'oubliez pas de remplacer les espaces réservés par vos clés API réelles. Le code complet et les liens d'application déployés doivent être ajoutés pour un guide complet et fonctionnel.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal