La course pour le raisonnement le plus avancé LLM se réchauffe, et la compétition est plus féroce que jamais. Deepseek l'a lancé avec Deepseek R1, suivi par O3-Mini d'Openai, et maintenant Google est entré avec une gamme Powerhouse: Gemini 2.0 Flash, Flash Lite, Pro et deux modèles expérimentaux - Flash 2.0 Thinking and Thinking avec des applications. Alors que les modèles Flash font déjà leur chemin dans les tests publics, ceux expérimentaux pourraient redéfinir le raisonnement et l'intégration des applications, contestant O3-Mini et Deepseek-R1. Dans ce blog, nous plongerons dans ces nouveaux modèles, leurs fonctionnalités uniques et leur avantage concurrentiel. Plongeons-nous!
Gemini 2.0 Flash Thinking Experimental with Apps
.
Qu'est-ce que Gemini 2.0?Gemini 2.0 Flash Lite
Gemini 2.0 Pro expérimental
GEMINI 2.0 Flash Thinking Experimental Gemini 2.0 Flash Thinking Experimental avec les applications Ces modèles expérimentaux sont de loin les modèles les plus excitants de toute entreprise d'IA. Non seulement ils offrent un raisonnement complexe et une pensée logique, mais ils fonctionnent également avec les applications les plus utilisées de Google comme YouTube, les cartes et la recherche. Alors, explorons chacune de ces dernières versions de Google, une par une. Gemini 2.0 Flash Les modèles Flash sont conçus pour les tâches à volume élevé et à haute fréquence, la priorité à la vitesse et à l'efficacité. Gemini 2.0 Flash est désormais ouvertement disponible pour tout le monde, ce qui le rend adapté aux applications de production. Voici les principales caractéristiques de ce modèle:
Disponibilité: Ce modèle est actuellement disponible uniquement pour les abonnés Gemini Advanced sur l'application Gemini, tandis que dans le studio Google AI, il est disponible pour tous gratuitement. Donc, si vous n'avez pas de compte Gemini payant (qui est livré avec un essai gratuit d'un mois), vous pouvez l'essayer dans Google AI Studio.
Maintenant, testons-le sur l'application Gemini.
Invite: "Lisez l'article à https://www.analyticsvidhya.com/blog/2024/07/building-agentic-rag-systems-with-langgraph/ pour comprendre le processus de création d'une base de données vectorielle pour les données Wikipedia. Ensuite, fournissez un résumé concis des étapes clés. »
Réponse:
Revue:
Le modèle est idéal pour lire les liens Web. Il génère un résumé clair, puis répertorie les étapes larges couvertes dans le blog. Ainsi, Gemini Flash 2.0 s'avère être un modèle rapide et efficace qui est rapide à accéder à Internet pour résoudre les requêtes. C'est idéal pour les tâches quotidiennes liées au contenu ainsi que pour l'analyse et la génération d'images.
Le modèle Flash Lite est conçu avec une efficacité à l'esprit. Il s'appuie sur son prédécesseur, 1,5 Flash, offrant une amélioration notable de la qualité tout en maintenant la même vitesse et l'abordabilité impressionnantes. Voici quelques-uns de ses points forts:
Disponibilité: Gemini 2.0 Flash Lite, est disponible gratuitement dans Google AI Studio. Il est également disponible en sommet AI, mais pas encore disponible dans l'application Gemini.
Pour utiliser Gemini 2.0 Flash Lite dans Google AI Studio, vous devrez:
le testons.
Invite: " Expliquez-moi l'image suivante en mots simples."
Réponse:
"Cette image montre un agent d'IA interagissant avec le" monde "et les utilisateurs. Voici une ventilation:
La réponse commence par une petite introduction sur l'image. Il décrit ensuite chaque partie de l'image, puis il décompose tous les éléments individuels. Enfin, il explique brièvement comment fonctionnent tous les composants de l'image. Ce modèle fonctionne rapidement! Il est rapide d'analyser et de diviser l'image en explications simples. Pour les tâches qui nécessitent de la vitesse, comme la construction de chatbots pour la résolution des requêtes du client ou les sessions Q / A, et la préparation des entretiens; Gemini 2.0 Flash Lite serait idéal.
Gemini 2.0 Pro Experimental représente le summum de la famille des Gémeaux en ce qui concerne la capacité. Il est conçu pour lutter contre les tâches les plus complexes, en particulier celles impliquant le codage. Voici quelques points à noter sur la version expérimentale de Gemini 2.0 Pro:
Disponibilité: Ce modèle est également disponible uniquement pour les utilisateurs payants de Gemini Advanced sur l'application Gemini. Pendant ce temps, les utilisateurs peuvent y accéder gratuitement dans le studio Google AI et l'IA Vertex. Donc, si vous n'avez pas de compte Gemini payant (qui propose un essai gratuit d'un mois), vous pouvez l'essayer dans Google AI Studio.
En savoir plus: Google Gemini 2.0 Pro expérimental mieux que Openai O3-Mini?
Voyons comment ce modèle fonctionne.
Invite: "Résolvez ce puzzle et donnez-moi le tableau composé de la solution."
Ce puzzle provient du site Web suivant.
Réponse:
Placer ces valeurs sur le site Web:
Revue:
Le modèle explique sa solution et le suit avec une table de solution, comme l'invite. Il a généré les réponses correctes en fonction des informations fournies, bien qu'à quelques endroits, il ait supposé des valeurs incorrectes de couleur et de devise. Cependant, son résultat final ne reste pas affecté car ces valeurs n'avaient pas d'importance dans la réponse globale. Inutile de dire que Gemini 2.0 Pro Experimental combine un raisonnement puissant avec la vitesse et la précision.
Le modèle expérimental Flash Thinking est un développement passionnant qui combine la vitesse et l'efficacité du flash Gemini 2.0 avec des capacités de raisonnement améliorées. Cela lui permet non seulement de traiter les informations rapidement, mais également d'appliquer une réflexion logique à des problèmes complexes.
Disponibilité: Le modèle Flash Gemini 2.0 n'est disponible que dans la version payante - Gemini Advanced, sur l'application Gemini. Cependant, dans Google AI Studio, il est disponible gratuitement. Donc, si vous n'avez pas de compte Gemini payant (qui propose un essai gratuit d'un mois), vous pouvez l'essayer dans Google AI Studio.
Voyons maintenant ce que ce modèle peut faire.
Invite: "Vous entrez dans une pièce et voyez un lit. Sur le lit, il y a deux chiens, quatre chats, une girafe, cinq vaches et un canard. Il y a aussi trois chaises et une table. Combien de jambes est sur le sol? »
" Décomposons cela:
Contons les jambes sur le sol:
Lignes totales sur le sol: 12 4 2 = 18 jambes
Par conséquent, il y a 18 jambes sur le sol. "
Revue:
La bonne réponse à cette question est 22 qui comprend 12 jambes de 3 chaises, 4 jambes de la table, 4 jambes du lit et 2 jambes de la personne. Le modèle de pensée expérimentale Gemini 2.0 Flash présente une pensée brillante, tenant compte des jambes individuelles (quelque chose que la plupart des LLM manquent). Pourtant, il a oublié de compter dans les jambes du lit. Par conséquent, même s'il est grand, le modèle peut être meilleur pour le raisonnement logique.
En s'appuyant sur le modèle expérimental Flash Thinking, la version Flash Thinking Experimental with Apps ajoute une couche cruciale d'interactivité: la capacité d'interagir avec les applications externes. Voici ce qui en fait un modèle puissant:
Disponibilité: Gemini 2.0 Flash est uniquement disponible dans la version payante - Gemini Advanced. Pendant ce temps, dans le studio Google AI, il est disponible gratuitement. Donc, si vous n'avez pas de compte Gemini payant (qui est livré avec un essai gratuit d'un mois), vous pouvez l'essayer dans Google AI Studio.
Alors, testons-le.
Invite: «Parlez-moi de tous les itinéraires routiers possibles que je peux emporter de ma place à la gare de New Delhi. Je suis actuellement là: https://maps.app.goo.gl/xciqxpugasxtxytk8 ”
Réponse:
« Voici les routes routières possibles vers la gare de New Delhi depuis votre emplacement actuel à K-3 Road, DLF Phase 2, secteur 25, Gurugram, Haryana 122022, Inde.
Voici les routes routières possibles vers la gare de New Delhi depuis votre emplacement à K-3 Road, DLF Phase 2, secteur 25, Gurugram, Haryana 122022, Inde:
Route 1: via NH 48
Il s'agit actuellement du seul itinéraire fourni. Si vous souhaitez explorer d'autres itinéraires, vous pouvez spécifier des critères tels que d'éviter les autoroutes ou les péages, et je peux vérifier ces options. »
En quelques secondes, le modèle réfléchit à l'invite, accède à l'emplacement que j'ai partagé via la carte et suggère le meilleur chemin possible pour moi. Il me donne les détails de l'itinéraire et partage également un lien de carte pour ma référence. Une telle fonctionnalité peut être un excellent ajout lorsque vous recherchez des endroits dans une nouvelle ville ou pour localiser les adresses rapidement. Ce LLM est également idéal pour transcrire ou résumer de longues vidéos YouTube. Bien qu'il rencontre des erreurs tout en travaillant avec des shorts YouTube.
Ce modèle combine la puissance du raisonnement, de la vitesse et de l'accessibilité des applications externes - le tout en un. De telles capacités indiquent une forte présence de nature agentique que nous pourrons bientôt voir avec ces modèles de réflexion.
Maintenant que nous avons travaillé avec tous les derniers modèles de Google, examinons rapidement comment ces modèles fonctionnent à différentes références. Les détails de la réflexion sur les modèles expérimentaux ne sont pas encore disponibles, nous ne travaillons donc qu'avec les autres modèles: Gemini 2.0 Flash, Flash Lite et Pro.
Capability | Benchmark | Gemini 2.0 Flash-Lite (Public Preview) | Gemini 2.0 Flash (GA) | Gemini 2.0 Pro Experimental |
General | MMLU-Pro | 71.6% | 77.6% | 79.1% |
Code | LiveCodeBench (v5) | 28.9% | 34.5% | 36.0% |
Code | Bird-SQL (Dev) | 57.4% | 58.7% | 59.3% |
Reasoning | GQPA (diamond) | 51.5% | 60.1% | 64.7% |
Factuality | SimpleQA | 21.7% | 29.9% | 44.3% |
Factuality | FACTS Grounding | 83.6% | 84.6% | 82.8% |
Multilingual | Global MMLU (Lite) | 78.2% | 83.4% | 86.5% |
Math | MATH | 86.8% | 90.9% | 91.8% |
Math | HiddenMath | 55.3% | 63.5% | 65.2% |
Long-context | MRCR (1M) | 58.0% | 70.5% | 74.7% |
Image | MMMU | 68.0% | 71.7% | 72.7% |
Audio | CoVoST2 (21 lang) | 38.4% | 39.0% | 40.6% |
Video | EgoSchema (test) | 67.2% | 71.1% | 71.9% |
Source: Google DeepMind Blog
Chaque nouveau modèle a son propre ensemble de fonctionnalités uniques. Dans le tableau suivant, j'ai répertorié les fonctionnalités et les applications de tous les modèles que nous avons explorés dans ce blog.
Model | Context Window | Multimodal | Availability | Applications |
Gemini 2.0 Flash | 1 million | Yes | Generally available (incl. free in AI Studio) | Content summarization, data extraction, quick classification, basic question answering, high-throughput API services, real-time translation |
Gemini 2.0 Flash Lite | 1 million | Yes | Public preview | Mobile app features, basic chatbots, cost-sensitive document processing, educational tools for basic tasks, internal knowledge base lookup |
Gemini 2.0 Pro Experimental | 2 million | Yes | Experimental | Complex code generation, advanced data analysis, research assistants, sophisticated content creation, tool-integrated workflows (e.g., booking systems, CRM integrations), long-form content analysis |
Gemini 2.0 Flash Thinking | N/A | Yes | Gemini app (Paid) | Real-time decision-making, fast-paced problem solving, dynamic pricing, fraud detection, fast response bots with enhanced reasoning, live customer support escalation |
Gemini 2.0 Flash Thinking w/ Apps | N/A | Yes | Gemini app (Paid) | Complex automated workflows, interactive voice assistants with app actions, smart home automation, Robotic Process Automation (RPA), orchestration of AI services, automated scheduling and task management |
La gamme Gemini 2.0 de Google marque un grand pas dans les capacités génératives du modèle d'IA, offrant divers modèles adaptés à la vitesse, à l'efficacité et au raisonnement avancé. Alors que Gemini 2.0 Flash et Flash Lite s'adaptent aux cas d'utilisation à haut débit et à coûts rentables, Gemini 2.0 Pro Experimental semble prometteur pour la compréhension et l'intégration des outils à long terme. Les modèles expérimentaux, en particulier la pensée flash et la pensée flash avec les applications, introduisent des possibilités de raisonnement logique et d'interactions d'application sans couture.
Avec Gemini 2.0, Google prépare la voie à des modèles Genai qui sont plus conscients, multimodaux et profondément intégrés dans nos écosystèmes numériques. À mesure que ces modèles évoluent, leur impact sur les flux de travail axés sur l'IA, la génération de contenu et la prise de décision en temps réel ne feront que croître.
a. Gemini 2.0 est la dernière famille de modèles de Gen Gen AI de Google conçus pour un raisonnement amélioré, un traitement multimodal et des tâches à haute efficacité. Il comprend Flash, Flash Lite, Pro et deux modèles expérimentaux - Flash Thinking et Flash Thinking with Apps.
Q2. Comment Gemini 2.0 se compare-t-il à O3-Mini et à Deepseek R1 d'Openai?a. Les modèles Gemini 2.0, en particulier la série Flash et Pro, rivalisent directement avec O3-Mini et Deepseek R1 d'OpenAI en termes de raisonnement, d'efficacité et d'intégration d'outils. Alors que Gemini 2.0 Flash se concentre sur la vitesse et la rentabilité, Gemini 2.0 Pro expérimental excelle dans le raisonnement et le codage complexes.
Q3. Quelle est la différence entre Gemini 2.0 Flash et Flash Lite? a. Les principales différences entre Gemini 2.0 Flash et Flash Lite sont les suivantes:
Gemini 2.0 Flash: Conçu pour les tâches à haut débit, offrant la vitesse, l'efficacité et une fenêtre de contexte de jeton de 1 m.
Q4. Combien de modèles expérimentaux y a-t-il dans Gemini 2.0? a. Il existe actuellement 2 modèles expérimentaux dans Gemini2.0:
La pensée flash avec les applications: s'appuie sur le modèle de réflexion, mais s'intègre avec des applications externes comme la recherche Google, les cartes et les maps et le tube, permet aux interactions réelles. Comment puis-je accéder aux modèles Gemini 2.0?
a. Vous pouvez accéder à ces modèles de la manière suivante: GEMINI 2.0 Flash:
Dans Public Preview via Google Ai Studio and Vertex Ai.
Flash Think utilisateurs.
Gemini 2.0 Pro Experimental: Disponible dans Google AI Studio (gratuit) et Gemini Advanced (payé).
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!