Ce mardi, Google a publié une série de mises à jour de modèles et de produits liés à l'IA lors du Google Cloud Next 2024, notamment Gemini 1.5 Pro qui fournit pour la première fois une fonction de compréhension locale de la parole (parole), le nouveau modèle de génération de code CodeGemma, le premier Processeur Arm auto-développé Axion et ainsi de suite.
Gemini 1.5 Pro, le modèle d'IA générative le plus puissant de Google, est désormais disponible en avant-première publique sur Vertex AI, la plateforme de développement d'IA axée sur les entreprises de Google. Il s’agit de la plateforme de développement d’IA de Google pour les entreprises. Le contexte qu'il peut gérer passe de 128 000 jetons à 1 million de jetons. Un million de jetons équivaut à environ 700 000 mots, soit environ 30 000 lignes de code. Cela représente environ quatre fois la quantité de données que le modèle phare d'Anthropic, Claude 3, peut gérer en entrée, et environ huit fois la quantité de contexte maximale du GPT-4 Turbo d'OpenAI.
Lien officiel du texte original : https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html
Ce version Pour la première fois, des capacités de compréhension audio (parole) locale et une nouvelle API de fichier sont fournies pour faciliter le traitement des fichiers. Les modes de saisie de Gemini 1.5 Pro sont étendus pour inclure la compréhension audio (parole) dans l'API Gemini et Google AI Studio. De plus, Gemini 1.5 Pro est désormais capable d'effectuer des inférences sur les images (images) et l'audio (parole) des vidéos téléchargées dans Google AI Studio.
Vous pouvez télécharger un enregistrement d'une conférence, comme cette conférence avec plus de 117 000 jetons de Jeff Dean, et Gemini 1.5 Pro peut le convertir en un test avec des réponses. (La démo a été accélérée)
Google a également apporté des améliorations à l'API Gemini, notamment les trois contenus suivants :
Actuellement, les commandes système peuvent être utilisées dans Google AI Studio et l'API Gemini pour guider la réponse de le modèle. Définissez des rôles, des formats, des objectifs et des règles pour guider le comportement du modèle pour vos cas d'utilisation spécifiques.
Définissez facilement les commandes système dans Google AI Studio
2 Mode JSON : demandez au modèle de générer uniquement des objets JSON. Ce modèle permet d'extraire des données structurées à partir de texte ou d'images. cURL est maintenant disponible, avec la prise en charge du SDK Python bientôt.
3. Améliorations des appels de fonction : vous pouvez désormais sélectionner des modes pour limiter la sortie du modèle et améliorer la fiabilité. Sélectionnez du texte, des appels de fonction ou simplement la fonction elle-même.
De plus, Google publiera un modèle d'intégration de texte de nouvelle génération qui surpasse les modèles similaires. À partir d'aujourd'hui, les développeurs pourront accéder aux modèles d'intégration de texte de nouvelle génération via l'API Gemini. Ce nouveau modèle, text-embedding-004 (text-embedding-preview-0409 dans Vertex AI), atteint des performances de récupération plus élevées sur le benchmark MTEB et surpasse les modèles existants de dimensions comparables.
Dans le benchmark MTEB, Text-embedding-004 (alias Gecko) utilisant une sortie de 256 dims a surpassé tous les plus grands modèles de sortie de 768 dims
Cependant, il convient de noter que Gemini 1.5 Pro n'est pas disponible pour ceux qui n’ont pas accès à Vertex AI et AI Studio. Actuellement, la plupart des gens interagissent avec les modèles linguistiques Gemini via le chatbot Gemini. Gemini Ultra alimente le chatbot Gemini Advanced, et bien qu'il soit puissant et puisse comprendre de longues commandes, il n'est pas aussi rapide que Gemini 1.5 Pro.
Lors de la conférence Google Cloud Next en 2024, la société a lancé plusieurs outils open source, principalement pour prendre en charge les projets et les infrastructures d'IA générative. L'un d'eux est Max Diffusion, qui est une collection d'implémentations de référence de divers modèles de diffusion qui s'exécutent sur des appareils XLA (Accelerated Linear Algebra).
Adresse GitHub : https://github.com/google/maxdiffusion
Le second est Jetstream, un nouveau moteur pour exécuter des modèles d'IA génératifs. Actuellement, JetStream ne prend en charge que le TPU, mais pourrait être compatible avec le GPU à l'avenir. Google affirme que JetStream peut offrir jusqu'à 3 fois le rapport prix/performances de modèles comme le Gemma 7B de Google et le Llama 2 de Meta.
Adresse GitHub : https://github.com/google/JetStream
Le troisième est MaxTest, qui est un modèle d'IA de génération de texte pour les TPU et les GPU Nvidia dans la collection cloud. . MaxText inclut désormais Gemma 7B, GPT-3 d'OpenAI, Llama 2 et des modèles de la startup d'IA Mistral, qui, selon Google, peuvent tous être personnalisés et ajustés aux besoins des développeurs.
Adresse GitHub : https://github.com/google/maxtext
Google Cloud a annoncé le lancement de son premier processeur auto- développé un processeur Arm Processeur Arm, appelé Axion. Il est basé sur Arm's Neoverse 2 et est conçu pour les centres de données. Google affirme que ses instances Axion fonctionnent 30 % mieux que les autres instances basées sur Arm de concurrents comme AWS et Microsoft, et qu'elles sont jusqu'à 50 % plus performantes et 60 % plus économes en énergie que les instances correspondantes basées sur X86.
Google a souligné lors de l'événement de lancement de mardi que, étant donné qu'Axion est construit sur une base ouverte, les clients de Google Cloud pourront transférer leurs charges de travail Arm existantes vers Google Cloud sans aucune modification.
Cependant, Google n'a pas encore publié d'introduction détaillée à ce sujet.
CodeGemma est basé sur le modèle Gemma et apporte des fonctions de codage puissantes et légères à la communauté. Le modèle peut être divisé en une variante pré-entraînée 7B qui gère spécifiquement les tâches de complétion et de génération de code, une variante optimisée par commande 7B pour la conversation de code et le suivi de commandes, et une variante pré-entraînée 2B qui exécute une complétion rapide du code sur le site local. ordinateur.
CodeGemma présente les avantages majeurs suivants :
CodeGemma et d'autres grands modèles de code grand public sont présentés dans la figure ci-dessous :
Résultats de comparaison entre le modèle CodeGemma 7B et le modèle Gemma 7B sur GSM8K, MATH et d'autres ensembles de données.
Pour plus de détails techniques et de résultats expérimentaux, veuillez vous référer à l'article publié simultanément par Google.
Adresse papier : https://storage.googleapis.com/deepmind-media/gemma/codegemma_report.pdf
Google DeepMind a également publié une série de modèles de langage de poids ouverts - RecurrentGemma. RecurrentGemma est basé sur l'architecture Griffin, qui permet une inférence rapide lors de la génération de longues séquences en remplaçant l'attention globale par un mélange d'attention locale et de récurrences linéaires.
Rapport technique : https://storage.googleapis.com/deepmind-media/gemma/recurrentgemma-report.pdf
RecurrentGemma-2B atteint des performances supérieures sur les tâches en aval et peut être comparé à Gemma -2B (architecture du transformateur) est comparable.
Dans le même temps, RecurrentGemma-2B atteint un débit plus élevé lors de l'inférence, en particulier sur les longues séquences.
Google Vids est un outil de création vidéo IA et une nouvelle fonctionnalité ajoutée dans Google Workspace.
Google affirme qu'avec Google Vids, les utilisateurs peuvent créer des vidéos aux côtés d'autres outils Workspace comme Docs et Sheets, et collaborer avec des collègues en temps réel.
Gemini Code Assist est un outil de complétion et d'assistance de code IA pour les entreprises, comparé à GitHub Copilot Enterprise. Code Assist sera disponible sous forme de plug-in pour les éditeurs populaires tels que VS Code et JetBrains.
Source de l'image : https://techcrunch.com/2024/04/09/google-launches-code-assist-its-latest-challenger-to-githubs-copilot/
Code Assist Propulsé par Gemini 1.5 Pro. Gemini 1.5 Pro dispose d'une fenêtre contextuelle d'un million de jetons, permettant aux outils de Google d'introduire plus de contexte que ceux de leurs concurrents. Google affirme que cela signifie que Code Assist peut fournir des suggestions de code plus précises et la possibilité de raisonner et de modifier de gros morceaux de code.
Google a déclaré : "Code Assist permet aux clients d'apporter des modifications à grande échelle à l'ensemble de leur base de code, permettant ainsi des transformations de code assistées par l'IA qui étaient auparavant impossibles." L'intelligence est une direction de développement de l'industrie brûlante cette année. Google a annoncé un nouvel outil pour aider les entreprises à créer des agents IA : Vertex AI Agent Builder.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!