


Le modèle d'agent IA multimodal de test final de 2 milliards de paramètres de Stanford a été considérablement amélioré et peut être utilisé par les téléphones mobiles, les voitures et les robots.
Le premier modèle d'agent IA multimodal ultra-petit au mondeOctopus V3, de l'équipe NEXA AI de Université de Stanford, rend Agent plus intelligent, plus rapide, avec une consommation d'énergie et des coûts réduits.
Début avril de cette année, NEXA AI a lancé le très attendu Octopus V2. Ce modèle a surpassé GPT-4 en termes de performances d'appel de fonction et a réduit le texte requis pour l'inférence de 95 %. de nouvelles possibilités pour les applications d'IA de bout en bout. Sa technologie de base brevetée « jeton fonctionnel » réduit considérablement la longueur du texte nécessaire au raisonnement grâce à des méthodes d'appel de fonctions innovantes.
Cette méthode permet au modèle d'obtenir une formation efficace avec seulement 2 milliards de paramètres, et surpasse GPT-4 en termes de précision et de latence, s'adaptant aux besoins de déploiement de divers appareils finaux.
Depuis qu'Octopus V2 a été lancé dans la communauté LLM, il a suscité une large attention et a suscité les éloges d'un grand nombre d'experts et de chercheurs dans le domaine de l'intelligence artificielle, tels que Julien Chaumond, CTO de Hugging Face, Rowan Cheung, fondateur de le célèbre bulletin d'information sur l'IA AI et Figure AI Brett Adcock, fondateur d'OPPO, Manoj Kumar, chef de l'équipe d'intelligence artificielle de pointe d'OPPO, etc. Ils sont salués comme « créant une nouvelle ère de technologie d’IA côté appareil ».
Sur la célèbre plateforme d'IA open source Hugging Face, Octopus V2 a été téléchargé plus de 12 000 fois.
En moins d'un mois, l'équipe NEXA AI a lancé le modèle Octopus V3 d'IA multimodale Agent de nouvelle génération, démontrant d'autres avancées : avec des capacités de traitement d'image et de traitement de texte multilingue, pour les smartphones et autres appareils Cela ouvre la voie aux appareils secondaires pour entrer véritablement dans l’ère de l’IA.
Le premier modèle d'agent IA multimodal avec moins d'un milliard de paramètres
Octopus+V3 possède non seulement des capacités multimodales, mais dépasse également de loin les modèles similaires en termes de performances d'appel de fonctions, comparables à GPT-4V +GPT4 ; Le nombre de paramètres du modèle est inférieur à 1 milliard et il possède des capacités multilingues.
En d'autres termes, par rapport aux modèles linguistiques traditionnels à grande échelle, il est plus petit et consomme moins d'énergie. Il peut fonctionner plus facilement sur divers appareils de petite taille, tels que Raspberry Pi, et réaliser des fonctions rapides et précises. . transfert.
Cela signifie qu'à l'avenir, AI Agent pourra être largement utilisé dans smartphones, AR/VR, robots, voitures intelligenteset d'autres appareils finaux pour rendre l'expérience d'interaction utilisateur plus fluide et plus intelligente.
D'autre part, étant donné que la V3 dispose de capacités de traitement multimodales, elle peut gérer simultanément la saisie de texte et d'images, couplée à des capacités multilingues, elle rendra également l'expérience utilisateur plus riche.
Par exemple, dans l'application d'achat Instacart, les utilisateurs peuvent laisser l'agent IA rechercher automatiquement des produits pour eux via une image d'ananas et une simple commande de conversation, améliorant ainsi l'efficacité et l'expérience utilisateur.
Pour un autre exemple, dans des scénarios tels que l'envoi d'e-mails, Octopus V3 peut automatiquement extraire des informations et remplir le contenu de l'e-mail en fonction d'une image avec du texte, offrant aux utilisateurs des services plus intelligents et plus pratiques.
De l'interaction logicielle aux voitures intelligentes, l'IA côté appareil a un énorme potentiel
Sur la base de ces caractéristiques, Octopus V2 et V3 ont des scénarios d'application riches et diversifiés et ont de larges perspectives d'application.
En plus des scénarios de téléphonie mobile mentionnés ci-dessus, lorsqu'Octopus V2 est appliqué aux voitures intelligentes, il peut également apporter de nouvelles expériences interactives. Les assistants vocaux actuels sont souvent difficiles à aider les propriétaires de voitures à effectuer des tâches plus complexes, comme changer temporairement de destination pendant la conduite, ajouter des arrêts supplémentaires, etc. Après avoir appliqué Octopus V3, l'assistant IA peut effectuer rapidement et avec précision les tâches correspondantes sur la base d'instructions relativement vagues et simples.
En combinant les capacités des V2 et V3, de la récupération d'informations à la conception basée sur des commandes, les utilisateurs peuvent bénéficier d'une expérience d'IA fluide dans les scènes virtuelles : dans la démonstration de scène VR d'un utilisateur de la communauté, après avoir saisi de simples commandes vocales, l'agent AI peut aider les utilisateurs à aménager rapidement un salon, à remplacer des canapés, à changer la couleur des lumières, etc. d'un simple clic. Une fois que l'utilisateur a saisi les instructions de voyage, l'utilisateur arrive rapidement au Japon et l'agent IA peut également aider l'utilisateur à rechercher les attractions correspondantes et à fournir des informations riches dans une communication conversationnelle simple.
Les données montrent que le marché mondial des modèles linguistiques à grande échelle connaît une croissance rapide. Granview Research rapporte que la taille du marché mondial des grands modèles linguistiques est estimée à 4,35 milliards de dollars américains et devrait croître à un taux de croissance annuel composé de 35,9 % de 2024 à 2030. De même, le marché de l'intelligence artificielle de pointe affiche également une dynamique en plein essor : on s'attend à ce que le marché mondial de l'intelligence artificielle de pointe croisse à un taux de croissance annuel composé de 21,0 % de 2023 à 2030, et atteindra 66,478 milliards de dollars américains d'ici 2030.
L'équipe NEXA AI a été fondée par des chercheurs exceptionnels de l'Université de Stanford.
Le fondateur et scientifique en chef Alex Chen (Chen Wei) étudie pour un doctorat à l'Université de Stanford. Il possède une vaste expérience dans la recherche sur l'intelligence artificielle et a été président de la Stanford Chinese Entrepreneurs Organization.
Co-fondateur et directeur de la technologie, Zack Li (李志元) est également diplômé de l'Université de Stanford et possède 4 ans d'expérience en R&D de première ligne dans l'IA de bout en bout chez Google et Amazon Lab126. un entrepreneur chinois à Stanford Président de l'association.
Professeur associé à l'Université de Stanford et directeur adjoint du programme d'entrepreneuriat technologique de StanfordCharles (Chuck) Eesley agit en tant que consultant, fournissant des conseils et un soutien à l'équipe.
△Gauche : Li Zhiyuan ; Droite : Chen Wei
Actuellement, la technologie originale de NEXA AI a demandé une protection par brevet.
L'équipe fondatrice de NEXA AI a déclaré qu'elle continuerait à s'engager à promouvoir le développement de la technologie d'IA de bout en bout, à accroître l'influence de ses technologies innovantes grâce à des modèles open source et à créer une vie future plus intelligente et plus efficace pour les utilisateurs. .
Adresse papier : https://arxiv.org/abs/2404.11459
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds



La taille d'une liste d'amorçage dépend de la taille du conteneur qui contient la liste, pas de la liste elle-même. L'utilisation du système de grille de bootstrap ou de Flexbox peut contrôler la taille du conteneur, redimentant ainsi indirectement les éléments de la liste.

Les listes imbriquées dans Bootstrap nécessitent l'utilisation du système de grille de bootstrap pour contrôler le style. Tout d'abord, utilisez la couche extérieure & lt; ul & gt; et & lt; li & gt; Pour créer une liste, alors enveloppez la liste des calques intérieure dans & lt; div class = & quot; row & gt; et ajouter & lt; div class = & quot; col-md-6 & quot; & gt; à la liste des calques intérieure pour spécifier que la liste des calques intérieure occupe la moitié de la largeur d'une ligne. De cette façon, la liste intérieure peut avoir la bonne

Comment ajouter des icônes à la liste Bootstrap: fourre directement l'icône dans l'élément de liste & lt; li & gt;, en utilisant le nom de classe fourni par la bibliothèque d'icônes (comme Font Awesome). Utilisez la classe bootstrap pour aligner les icônes et le texte (par exemple, d-flex, justifier-content-between, align-items-center). Utilisez le composant Bootstrap Tag (badge) pour afficher les numéros ou l'état. Ajustez la position de l'icône (Flex-Direction: Row-Reverse;), Contrôlez le style (style CSS). Erreur commune: l'icône ne s'affiche pas (pas

Lors de la conversion des chaînes en objets dans vue.js, JSON.Parse () est préféré pour les chaînes JSON standard. Pour les chaînes JSON non standard, la chaîne peut être traitée en utilisant des expressions régulières et réduisez les méthodes en fonction du format ou du codé décodé par URL. Sélectionnez la méthode appropriée en fonction du format de chaîne et faites attention aux problèmes de sécurité et d'encodage pour éviter les bogues.

Question: Comment enregistrer un composant VUE exporté via l'exportation par défaut? Réponse: Il existe trois méthodes d'enregistrement: Enregistrement global: utilisez la méthode Vue.Component () pour vous inscrire en tant que composant global. Inscription locale: Inscrivez-vous dans l'option Composants, disponible uniquement dans le composant actuel et ses sous-composants. Enregistrement dynamique: utilisez la méthode Vue.Component () pour vous inscrire après le chargement du composant.

Traiter efficacement 7 millions d'enregistrements et créer des cartes interactives avec la technologie géospatiale. Cet article explore comment traiter efficacement plus de 7 millions d'enregistrements en utilisant Laravel et MySQL et les convertir en visualisations de cartes interactives. Exigences initiales du projet de défi: extraire des informations précieuses en utilisant 7 millions d'enregistrements dans la base de données MySQL. Beaucoup de gens considèrent d'abord les langages de programmation, mais ignorent la base de données elle-même: peut-il répondre aux besoins? La migration des données ou l'ajustement structurel est-il requis? MySQL peut-il résister à une charge de données aussi importante? Analyse préliminaire: les filtres et les propriétés clés doivent être identifiés. Après analyse, il a été constaté que seuls quelques attributs étaient liés à la solution. Nous avons vérifié la faisabilité du filtre et établi certaines restrictions pour optimiser la recherche. Recherche de cartes basée sur la ville

Le système de maillage de Bootstrap est une règle pour construire rapidement des dispositions réactives, composées de trois classes principales: conteneur (conteneur), ligne (ligne) et col (colonne). Par défaut, des grilles à 12 colonnes sont fournies et la largeur de chaque colonne peut être ajustée via des classes auxiliaires telles que Col-MD-, réalisant ainsi l'optimisation de mise en page pour différentes tailles d'écran. En utilisant des classes de décalage et des mailles imbriquées, la flexibilité de mise en page peut être étendue. Lorsque vous utilisez un système de grille, assurez-vous que chaque élément a la bonne structure de nidification et envisagez une optimisation des performances pour améliorer la vitesse de chargement des pages. Ce n'est que par une compréhension et une pratique approfondies que nous pouvons maîtriser avec compétence le système de grille bootstrap.

Les modifications de style de la liste Bootstrap 5 sont principalement dues à l'optimisation des détails et à l'amélioration sémantique, notamment: les marges par défaut des listes non ordonnées sont simplifiées, et les effets visuels sont plus propres et soignés; Le style de liste met l'accent sur la sémantique, l'amélioration de l'accessibilité et la maintenabilité.
