Le premier modèle d'agent IA multimodal ultra-petit au mondeOctopus V3, de l'équipe NEXA AI de Université de Stanford, rend Agent plus intelligent, plus rapide, avec une consommation d'énergie et des coûts réduits.
Début avril de cette année, NEXA AI a lancé le très attendu Octopus V2. Ce modèle a surpassé GPT-4 en termes de performances d'appel de fonction et a réduit le texte requis pour l'inférence de 95 %. de nouvelles possibilités pour les applications d'IA de bout en bout. Sa technologie de base brevetée « jeton fonctionnel » réduit considérablement la longueur du texte nécessaire au raisonnement grâce à des méthodes d'appel de fonctions innovantes.
Cette méthode permet au modèle d'obtenir une formation efficace avec seulement 2 milliards de paramètres, et surpasse GPT-4 en termes de précision et de latence, s'adaptant aux besoins de déploiement de divers appareils finaux.
Depuis qu'Octopus V2 a été lancé dans la communauté LLM, il a suscité une large attention et a suscité les éloges d'un grand nombre d'experts et de chercheurs dans le domaine de l'intelligence artificielle, tels que Julien Chaumond, CTO de Hugging Face, Rowan Cheung, fondateur de le célèbre bulletin d'information sur l'IA AI et Figure AI Brett Adcock, fondateur d'OPPO, Manoj Kumar, chef de l'équipe d'intelligence artificielle de pointe d'OPPO, etc. Ils sont salués comme « créant une nouvelle ère de technologie d’IA côté appareil ».
Sur la célèbre plateforme d'IA open source Hugging Face, Octopus V2 a été téléchargé plus de 12 000 fois.
En moins d'un mois, l'équipe NEXA AI a lancé le modèle Octopus V3 d'IA multimodale Agent de nouvelle génération, démontrant d'autres avancées : avec des capacités de traitement d'image et de traitement de texte multilingue, pour les smartphones et autres appareils Cela ouvre la voie aux appareils secondaires pour entrer véritablement dans l’ère de l’IA.
Octopus+V3 possède non seulement des capacités multimodales, mais dépasse également de loin les modèles similaires en termes de performances d'appel de fonctions, comparables à GPT-4V +GPT4 ; Le nombre de paramètres du modèle est inférieur à 1 milliard et il possède des capacités multilingues.
En d'autres termes, par rapport aux modèles linguistiques traditionnels à grande échelle, il est plus petit et consomme moins d'énergie. Il peut fonctionner plus facilement sur divers appareils de petite taille, tels que Raspberry Pi, et réaliser des fonctions rapides et précises. . transfert.
Cela signifie qu'à l'avenir, AI Agent pourra être largement utilisé dans smartphones, AR/VR, robots, voitures intelligenteset d'autres appareils finaux pour rendre l'expérience d'interaction utilisateur plus fluide et plus intelligente.
D'autre part, étant donné que la V3 dispose de capacités de traitement multimodales, elle peut gérer simultanément la saisie de texte et d'images, couplée à des capacités multilingues, elle rendra également l'expérience utilisateur plus riche.
Par exemple, dans l'application d'achat Instacart, les utilisateurs peuvent laisser l'agent IA rechercher automatiquement des produits pour eux via une image d'ananas et une simple commande de conversation, améliorant ainsi l'efficacité et l'expérience utilisateur.
Pour un autre exemple, dans des scénarios tels que l'envoi d'e-mails, Octopus V3 peut automatiquement extraire des informations et remplir le contenu de l'e-mail en fonction d'une image avec du texte, offrant aux utilisateurs des services plus intelligents et plus pratiques.
Sur la base de ces caractéristiques, Octopus V2 et V3 ont des scénarios d'application riches et diversifiés et ont de larges perspectives d'application.
En plus des scénarios de téléphonie mobile mentionnés ci-dessus, lorsqu'Octopus V2 est appliqué aux voitures intelligentes, il peut également apporter de nouvelles expériences interactives. Les assistants vocaux actuels sont souvent difficiles à aider les propriétaires de voitures à effectuer des tâches plus complexes, comme changer temporairement de destination pendant la conduite, ajouter des arrêts supplémentaires, etc. Après avoir appliqué Octopus V3, l'assistant IA peut effectuer rapidement et avec précision les tâches correspondantes sur la base d'instructions relativement vagues et simples.
En combinant les capacités des V2 et V3, de la récupération d'informations à la conception basée sur des commandes, les utilisateurs peuvent bénéficier d'une expérience d'IA fluide dans les scènes virtuelles : dans la démonstration de scène VR d'un utilisateur de la communauté, après avoir saisi de simples commandes vocales, l'agent AI peut aider les utilisateurs à aménager rapidement un salon, à remplacer des canapés, à changer la couleur des lumières, etc. d'un simple clic. Une fois que l'utilisateur a saisi les instructions de voyage, l'utilisateur arrive rapidement au Japon et l'agent IA peut également aider l'utilisateur à rechercher les attractions correspondantes et à fournir des informations riches dans une communication conversationnelle simple.
Les données montrent que le marché mondial des modèles linguistiques à grande échelle connaît une croissance rapide. Granview Research rapporte que la taille du marché mondial des grands modèles linguistiques est estimée à 4,35 milliards de dollars américains et devrait croître à un taux de croissance annuel composé de 35,9 % de 2024 à 2030. De même, le marché de l'intelligence artificielle de pointe affiche également une dynamique en plein essor : on s'attend à ce que le marché mondial de l'intelligence artificielle de pointe croisse à un taux de croissance annuel composé de 21,0 % de 2023 à 2030, et atteindra 66,478 milliards de dollars américains d'ici 2030.
L'équipe NEXA AI a été fondée par des chercheurs exceptionnels de l'Université de Stanford.
Le fondateur et scientifique en chef Alex Chen (Chen Wei) étudie pour un doctorat à l'Université de Stanford. Il possède une vaste expérience dans la recherche sur l'intelligence artificielle et a été président de la Stanford Chinese Entrepreneurs Organization.
Co-fondateur et directeur de la technologie, Zack Li (李志元) est également diplômé de l'Université de Stanford et possède 4 ans d'expérience en R&D de première ligne dans l'IA de bout en bout chez Google et Amazon Lab126. un entrepreneur chinois à Stanford Président de l'association.
Professeur associé à l'Université de Stanford et directeur adjoint du programme d'entrepreneuriat technologique de StanfordCharles (Chuck) Eesley agit en tant que consultant, fournissant des conseils et un soutien à l'équipe.
△Gauche : Li Zhiyuan ; Droite : Chen Wei
Actuellement, la technologie originale de NEXA AI a demandé une protection par brevet.
L'équipe fondatrice de NEXA AI a déclaré qu'elle continuerait à s'engager à promouvoir le développement de la technologie d'IA de bout en bout, à accroître l'influence de ses technologies innovantes grâce à des modèles open source et à créer une vie future plus intelligente et plus efficace pour les utilisateurs. .
Adresse papier : https://arxiv.org/abs/2404.11459
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!