Maison > Périphériques technologiques > IA > le corps du texte

Le modèle d'agent IA multimodal de test final de 2 milliards de paramètres de Stanford a été considérablement amélioré et peut être utilisé par les téléphones mobiles, les voitures et les robots.

王林
Libérer: 2024-05-07 16:25:29
avant
1027 Les gens l'ont consulté

Le premier modèle d'agent IA multimodal ultra-petit au mondeOctopus V3, de l'équipe NEXA AI de Université de Stanford, rend Agent plus intelligent, plus rapide, avec une consommation d'énergie et des coûts réduits.

斯坦福20亿参数端测多模态AI Agent模型大升级,手机汽车机器人都能用

Début avril de cette année, NEXA AI a lancé le très attendu Octopus V2. Ce modèle a surpassé GPT-4 en termes de performances d'appel de fonction et a réduit le texte requis pour l'inférence de 95 %. de nouvelles possibilités pour les applications d'IA de bout en bout. Sa technologie de base brevetée « jeton fonctionnel » réduit considérablement la longueur du texte nécessaire au raisonnement grâce à des méthodes d'appel de fonctions innovantes.

Cette méthode permet au modèle d'obtenir une formation efficace avec seulement 2 milliards de paramètres, et surpasse GPT-4 en termes de précision et de latence, s'adaptant aux besoins de déploiement de divers appareils finaux.

Depuis qu'Octopus V2 a été lancé dans la communauté LLM, il a suscité une large attention et a suscité les éloges d'un grand nombre d'experts et de chercheurs dans le domaine de l'intelligence artificielle, tels que Julien Chaumond, CTO de Hugging Face, Rowan Cheung, fondateur de le célèbre bulletin d'information sur l'IA AI et Figure AI Brett Adcock, fondateur d'OPPO, Manoj Kumar, chef de l'équipe d'intelligence artificielle de pointe d'OPPO, etc. Ils sont salués comme « créant une nouvelle ère de technologie d’IA côté appareil ».

Sur la célèbre plateforme d'IA open source Hugging Face, Octopus V2 a été téléchargé plus de 12 000 fois.

斯坦福20亿参数端测多模态AI Agent模型大升级,手机汽车机器人都能用

En moins d'un mois, l'équipe NEXA AI a lancé le modèle Octopus V3 d'IA multimodale Agent de nouvelle génération, démontrant d'autres avancées : avec des capacités de traitement d'image et de traitement de texte multilingue, pour les smartphones et autres appareils Cela ouvre la voie aux appareils secondaires pour entrer véritablement dans l’ère de l’IA.

斯坦福20亿参数端测多模态AI Agent模型大升级,手机汽车机器人都能用

Le premier modèle d'agent IA multimodal avec moins d'un milliard de paramètres

Octopus+V3 possède non seulement des capacités multimodales, mais dépasse également de loin les modèles similaires en termes de performances d'appel de fonctions, comparables à GPT-4V +GPT4 ; Le nombre de paramètres du modèle est inférieur à 1 milliard et il possède des capacités multilingues.

En d'autres termes, par rapport aux modèles linguistiques traditionnels à grande échelle, il est plus petit et consomme moins d'énergie. Il peut fonctionner plus facilement sur divers appareils de petite taille, tels que Raspberry Pi, et réaliser des fonctions rapides et précises. . transfert.

Cela signifie qu'à l'avenir, AI Agent pourra être largement utilisé dans smartphones, AR/VR, robots, voitures intelligenteset d'autres appareils finaux pour rendre l'expérience d'interaction utilisateur plus fluide et plus intelligente.

D'autre part, étant donné que la V3 dispose de capacités de traitement multimodales, elle peut gérer simultanément la saisie de texte et d'images, couplée à des capacités multilingues, elle rendra également l'expérience utilisateur plus riche.

Par exemple, dans l'application d'achat Instacart, les utilisateurs peuvent laisser l'agent IA rechercher automatiquement des produits pour eux via une image d'ananas et une simple commande de conversation, améliorant ainsi l'efficacité et l'expérience utilisateur.

斯坦福20亿参数端测多模态AI Agent模型大升级,手机汽车机器人都能用

Pour un autre exemple, dans des scénarios tels que l'envoi d'e-mails, Octopus V3 peut automatiquement extraire des informations et remplir le contenu de l'e-mail en fonction d'une image avec du texte, offrant aux utilisateurs des services plus intelligents et plus pratiques.

斯坦福20亿参数端测多模态AI Agent模型大升级,手机汽车机器人都能用

De l'interaction logicielle aux voitures intelligentes, l'IA côté appareil a un énorme potentiel

Sur la base de ces caractéristiques, Octopus V2 et V3 ont des scénarios d'application riches et diversifiés et ont de larges perspectives d'application.

En plus des scénarios de téléphonie mobile mentionnés ci-dessus, lorsqu'Octopus V2 est appliqué aux voitures intelligentes, il peut également apporter de nouvelles expériences interactives. Les assistants vocaux actuels sont souvent difficiles à aider les propriétaires de voitures à effectuer des tâches plus complexes, comme changer temporairement de destination pendant la conduite, ajouter des arrêts supplémentaires, etc. Après avoir appliqué Octopus V3, l'assistant IA peut effectuer rapidement et avec précision les tâches correspondantes sur la base d'instructions relativement vagues et simples.

En combinant les capacités des V2 et V3, de la récupération d'informations à la conception basée sur des commandes, les utilisateurs peuvent bénéficier d'une expérience d'IA fluide dans les scènes virtuelles : dans la démonstration de scène VR d'un utilisateur de la communauté, après avoir saisi de simples commandes vocales, l'agent AI peut aider les utilisateurs à aménager rapidement un salon, à remplacer des canapés, à changer la couleur des lumières, etc. d'un simple clic. Une fois que l'utilisateur a saisi les instructions de voyage, l'utilisateur arrive rapidement au Japon et l'agent IA peut également aider l'utilisateur à rechercher les attractions correspondantes et à fournir des informations riches dans une communication conversationnelle simple.

Les données montrent que le marché mondial des modèles linguistiques à grande échelle connaît une croissance rapide. Granview Research rapporte que la taille du marché mondial des grands modèles linguistiques est estimée à 4,35 milliards de dollars américains et devrait croître à un taux de croissance annuel composé de 35,9 % de 2024 à 2030. De même, le marché de l'intelligence artificielle de pointe affiche également une dynamique en plein essor : on s'attend à ce que le marché mondial de l'intelligence artificielle de pointe croisse à un taux de croissance annuel composé de 21,0 % de 2023 à 2030, et atteindra 66,478 milliards de dollars américains d'ici 2030.

L'équipe NEXA AI a été fondée par des chercheurs exceptionnels de l'Université de Stanford.

Le fondateur et scientifique en chef Alex Chen (Chen Wei) étudie pour un doctorat à l'Université de Stanford. Il possède une vaste expérience dans la recherche sur l'intelligence artificielle et a été président de la Stanford Chinese Entrepreneurs Organization.

Co-fondateur et directeur de la technologie, Zack Li (李志元) est également diplômé de l'Université de Stanford et possède 4 ans d'expérience en R&D de première ligne dans l'IA de bout en bout chez Google et Amazon Lab126. un entrepreneur chinois à Stanford Président de l'association.

Professeur associé à l'Université de Stanford et directeur adjoint du programme d'entrepreneuriat technologique de StanfordCharles (Chuck) Eesley agit en tant que consultant, fournissant des conseils et un soutien à l'équipe.

斯坦福20亿参数端测多模态AI Agent模型大升级,手机汽车机器人都能用Gauche : Li Zhiyuan ; Droite : Chen Wei

Actuellement, la technologie originale de NEXA AI a demandé une protection par brevet.

L'équipe fondatrice de NEXA AI a déclaré qu'elle continuerait à s'engager à promouvoir le développement de la technologie d'IA de bout en bout, à accroître l'influence de ses technologies innovantes grâce à des modèles open source et à créer une vie future plus intelligente et plus efficace pour les utilisateurs. .

Adresse papier : https://arxiv.org/abs/2404.11459

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:51cto.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal
À propos de nous Clause de non-responsabilité Sitemap
Site Web PHP chinois:Formation PHP en ligne sur le bien-être public,Aidez les apprenants PHP à grandir rapidement!