


Microsoft lance un petit modèle d'IA, exécute secrètement le 'Plan B', n'a rien à voir avec OpenAI
Les grands modèles d'IA deviendront un mot-clé en 2023, et c'est également un domaine brûlant de concurrence entre les grandes entreprises technologiques. Cependant, le coût de ce grand modèle d’IA qui symbolise l’avenir est trop élevé, ce qui pousse même des entreprises riches comme Microsoft à commencer à envisager des alternatives. Des révélations récentes montrent que certaines des 1 500 personnes de l’équipe de recherche de Microsoft dirigée par Peter Lee se sont tournées vers le développement d’un nouveau LLM, plus petit et dont les coûts d’exploitation sont inférieurs
À propos du modèle d’IA de petite taille de Microsoft, des indices ont commencé à émerger il y a 3 mois. En juin de cette année, Microsoft a publié un article intitulé « Les manuels sont tout ce dont vous avez besoin », utilisant des données « au niveau des manuels » de seulement 7 milliards de jetons pour former un modèle phi-1 de 1,3 milliard de paramètres, prouvant que même à petite échelle, des données de qualité peuvent également permettre au modèle d'avoir de bonnes performances. En outre, Microsoft Research a également publié un nouveau modèle de langage pré-entraîné appelé phi-1.5 basé sur phi-1, qui convient aux questions et réponses d'assurance qualité, au format de chat et aux scénarios de code
Selon Microsoft, phi-1.5 surpasse un nombre considérable de grands modèles dans le cadre de tests testant le bon sens, la compréhension du langage et le raisonnement logique. Dans la suite de scores de course GPT4AL avec LM-Eval Harness, phi-1,5 est comparable au grand modèle open source lama-2 de Meta avec 7 milliards de paramètres, et dépasse même lama-2 dans le score AGIEval.
Pourquoi Microsoft développe-t-il soudainement des modèles d'IA de petite taille ? On pense généralement que cela peut être lié à des problèmes entre OpenAI. Microsoft est un investisseur majeur dans OpenAI, il peut donc utiliser en permanence la propriété intellectuelle existante d'OpenAI, mais il ne peut pas contrôler la prise de décision d'OpenAI. Il est donc essentiel pour un géant comme Microsoft de développer des modèles d'IA de petite taille et de haute qualité, que ce soit pour ses propres considérations stratégiques de sécurité ou pour maintenir une position favorable en coopération avec OpenAI
Bien entendu, la consommation énergétique actuelle des grands modèles d’IA est un facteur clé. Lors de la Design Automation Conference plus tôt cette année, Mark Papermaster, directeur de la technologie d'AMD, a montré une diapositive comparant la consommation d'énergie des systèmes d'apprentissage automatique à la production mondiale d'énergie. Selon les estimations de l'Agence internationale de l'énergie, les centres de données formant de grands modèles sont de plus en plus énergivores, représentant 1,5 à 2 % de la consommation électrique mondiale, soit l'équivalent de la consommation électrique de l'ensemble du Royaume-Uni. On s'attend à ce que cette proportion atteigne 4% d'ici 2030
Selon un rapport pertinent publié par Digital Information World, la consommation d'énergie générée par les centres de données pour la formation des modèles d'IA sera trois fois supérieure à celle des services cloud conventionnels. D'ici 2028, la consommation électrique des centres de données avoisinera 4 250 mégawatts, soit une augmentation de . 212 fois à partir de 2023. La consommation électrique de la formation OpenAI GPT-3 est de 1,287 gigawattheures, ce qui équivaut approximativement à la consommation électrique de 120 foyers américains pendant un an. Mais il ne s'agit que de la consommation électrique initiale de la formation du modèle d'IA, qui ne représente que 40 % de l'énergie consommée lorsque le modèle est réellement utilisé.
Selon le rapport environnemental 2023 publié par Google, la formation de grands modèles d'IA consommera non seulement beaucoup d'énergie, mais consommera également beaucoup de ressources en eau. Selon le rapport, Google a consommé 5,6 milliards de gallons (environ 21,2 milliards de litres) d'eau en 2022, soit l'équivalent de la consommation d'eau de 37 terrains de golf. Parmi ceux-ci, 5,2 milliards de gallons sont utilisés dans les centres de données de Google, soit une augmentation de 20 % par rapport à 2021
Une consommation d'énergie élevée des grands modèles d'IA est normale. Selon les mots du directeur technique principal d'ARM, Ian Bratt, « les besoins informatiques de l'IA ne peuvent pas être satisfaits. Plus l'échelle du réseau est grande, meilleurs sont les résultats, plus il est possible de résoudre de problèmes et la consommation d'énergie est directement proportionnelle à l'échelle du réseau. "
Certains praticiens de l'intelligence artificielle ont déclaré qu'avant l'épidémie, la consommation d'énergie nécessaire pour entraîner un modèle Transformer était de l'ordre de 27 kilowattheures. Cependant, le nombre de paramètres du modèle Transformer est désormais passé de 50 millions à 200 millions et la consommation d'énergie a dépassé 500 000 kilowattheures. En d’autres termes, le nombre de paramètres a été multiplié par quatre, mais la consommation d’énergie a été multipliée par plus de 18 000. D’une certaine manière, les diverses fonctions innovantes apportées par les modèles d’intelligence artificielle à grande échelle se font en réalité au détriment de performances de traitement et d’une consommation d’énergie élevées
Plus d'électricité entraîne plus de GPU pour l'entraînement de l'IA, et une grande quantité d'eau est consommée pour refroidir les GPU. C'est le problème. À tel point qu’il a été révélé que Microsoft élaborait une feuille de route pour faire fonctionner des centres de données utilisant l’électricité produite par de petits réacteurs nucléaires. De plus, même si l’ESG (« environnemental, social et gouvernance ») n’est pas évoqué, il est intéressant d’étudier les modèles de petite taille uniquement sous l’angle des coûts.
Comme nous le savons tous, NVIDIA, qui a construit l'écosystème CUDA, est le plus grand bénéficiaire de ce cycle de boom de l'IA et a déjà occupé 70 % du marché des puces IA. De nos jours, les cartes informatiques telles que H100 et A100 le sont. difficile à trouver. Mais la situation actuelle est que l’achat de puissance de calcul auprès de NVIDIA est devenu un facteur important qui fait augmenter les coûts des fabricants d’IA. Par conséquent, un modèle de petite taille signifie qu'il nécessite moins de ressources informatiques et qu'il vous suffit d'acheter moins de GPU pour résoudre le problème.
Bien que les modèles à grande échelle les plus puissants soient effectivement excellents, la commercialisation des modèles à grande échelle en est encore à ses balbutiements, et la seule personne qui gagne beaucoup d'argent est le rôle de « vendre des pelles » de NVIDIA. Par conséquent, dans ce cas, Microsoft a naturellement l'intention de changer le statu quo
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Récemment, la « Conférence sur l'informatique intelligente de la nouvelle zone de Lingang » a eu lieu sur le thème « L'IA mène l'ère, la puissance de calcul conduit l'avenir ». Lors de la réunion, la New Area Intelligent Computing Industry Alliance a été officiellement créée. SenseTime est devenu membre de l'alliance en tant que fournisseur de puissance de calcul. Dans le même temps, SenseTime a reçu le titre d'entreprise de « New Area Intelligent Computing Industry Chain Master ». En tant que participant actif à l'écosystème de puissance de calcul de Lingang, SenseTime a actuellement construit l'une des plus grandes plates-formes informatiques intelligentes d'Asie : SenseTime AIDC, qui peut produire une puissance de calcul totale de 5 000 pétaflops et prendre en charge 20 modèles ultra-larges avec des centaines de milliards de paramètres. Entraînez-vous en même temps. SenseCore, un appareil à grande échelle construit avec AIDC comme base et tourné vers l'avenir, s'engage à créer une infrastructure et des services d'IA de nouvelle génération à haute efficacité, à faible coût et à grande échelle pour renforcer l'intelligence artificielle.

IT House a rapporté le 13 octobre que "Joule", une revue sœur de "Cell", a publié cette semaine un article intitulé "L'empreinte énergétique croissante de l'intelligence artificielle (L'empreinte énergétique croissante de l'intelligence artificielle)". Grâce à des enquêtes, nous avons appris que cet article avait été publié par Alex DeVries, fondateur de l'institution de recherche scientifique Digiconomist. Il a affirmé que les performances de raisonnement de l'intelligence artificielle à l'avenir pourraient consommer beaucoup d'électricité. On estime que d'ici 2027, la consommation électrique de l'intelligence artificielle pourrait être équivalente à la consommation électrique des Pays-Bas pendant un an. le monde extérieur a toujours pensé que la formation d'un modèle d'IA est « la chose la plus importante en IA ».

Je crois que les amis qui suivent le cercle de la téléphonie mobile ne seront pas étrangers à l'expression « obtenez un score si vous ne l'acceptez pas ». Par exemple, les logiciels de tests de performances théoriques tels qu'AnTuTu et GeekBench ont beaucoup attiré l'attention des joueurs car ils peuvent refléter dans une certaine mesure les performances des téléphones mobiles. De même, il existe des logiciels d'analyse comparative correspondants pour les processeurs PC et les cartes graphiques afin de mesurer leurs performances. Puisque « tout peut être comparé », les grands modèles d'IA les plus populaires ont également commencé à participer à des concours d'analyse comparative, notamment dans les « Cent modèles » d'après. La "guerre" a commencé, des avancées ont été réalisées presque tous les jours et chaque entreprise a affirmé être "numéro un en termes de scores". Les grands modèles d'IA nationaux n'ont presque jamais pris de retard en termes de scores de performances, mais ils n'ont jamais été en mesure de surpasser GP en termes de performances. termes d’expérience utilisateur.

Driving China News le 28 juin 2023, aujourd'hui, lors du Mobile World Congress à Shanghai, China Unicom a publié le modèle graphique « Honghu Graphic Model 1.0 ». China Unicom a déclaré que le modèle graphique Honghu est le premier grand modèle pour les services à valeur ajoutée des opérateurs. Le journaliste de China Business News a appris que le modèle graphique de Honghu dispose actuellement de deux versions de 800 millions de paramètres de formation et de 2 milliards de paramètres de formation, qui peuvent réaliser des fonctions telles que des images basées sur du texte, le montage vidéo et des images basées sur des images. En outre, le président de China Unicom, Liu Liehong, a également déclaré dans son discours d'ouverture d'aujourd'hui que l'IA générative inaugure une singularité de développement et que 50 % des emplois seront profondément affectés par l'intelligence artificielle au cours des deux prochaines années.

IT House a rapporté le 3 novembre que le site officiel de l'Institut de physique de l'Académie chinoise des sciences a récemment publié un article sur le groupe SF10 de l'Institut de physique de l'Académie chinoise des sciences/Centre national de recherche sur la physique de la matière condensée de Pékin. et le Centre d'information sur les réseaux informatiques de l'Académie chinoise des sciences ont collaboré pour appliquer de grands modèles d'IA à la science des matériaux. Dans ce domaine, des dizaines de milliers de données sur les voies de synthèse chimique sont transmises au grand modèle de langage LLAMA2-7b, obtenant ainsi un modèle MatChat. , qui peut être utilisé pour prédire les voies de synthèse de matériaux inorganiques. IT House a noté que le modèle peut effectuer un raisonnement logique basé sur la structure interrogée et générer le processus de préparation et la formule correspondants. Il a été déployé en ligne et est ouvert à tous les chercheurs en matériaux, apportant une nouvelle inspiration et de nouvelles idées à la recherche et à l'innovation sur les matériaux. Ce travail concerne les grands modèles de langage dans le domaine de la science segmentée

Le modèle Transformer est issu de l'article « Attentionisallyouneed » publié par l'équipe de Google en 2017. Cet article proposait pour la première fois le concept d'utiliser Attention pour remplacer la structure cyclique du modèle Seq2Seq, ce qui a eu un grand impact dans le domaine de la PNL. Et avec les progrès continus de la recherche ces dernières années, les technologies liées à Transformer sont progressivement passées du traitement du langage naturel à d’autres domaines. Jusqu'à présent, les modèles de la série Transformer sont devenus des modèles courants dans les domaines de la PNL, du CV, de l'ASR et d'autres domaines. Par conséquent, la manière de former et de déduire des modèles de transformateur plus rapidement est devenue une direction de recherche importante dans l'industrie. Les techniques de quantification de faible précision peuvent

Le département d'intelligence artificielle de Meta Platforms a récemment déclaré qu'il enseignait aux modèles d'IA comment apprendre à marcher dans le monde physique avec le soutien d'une petite quantité de données d'entraînement, et qu'il avait fait des progrès rapides. Cette recherche peut réduire considérablement le temps nécessaire aux modèles d’IA pour acquérir des capacités de navigation visuelle. Auparavant, pour atteindre de tels objectifs, il fallait utiliser de grands ensembles de données et un « apprentissage par renforcement » répété pour les atteindre. Les chercheurs de Meta AI ont déclaré que cette exploration de la navigation visuelle de l’IA aura un impact significatif sur le monde virtuel. L’idée de base du projet n’est pas compliquée : aider l’IA à naviguer dans l’espace physique comme le font les humains, simplement par l’observation et l’exploration. Le département Meta AI a expliqué : « Par exemple, si nous voulons que des lunettes AR nous guident pour trouver les clés, nous devons

Nvidia a récemment annoncé le lancement d'une nouvelle suite logicielle open source appelée TensorRT-LLM, qui étend les capacités d'optimisation de grands modèles de langage sur les GPU Nvidia et brise les limites des performances d'inférence de l'intelligence artificielle après le déploiement. Les grands modèles de langage d’IA générative sont devenus populaires en raison de leurs capacités impressionnantes. Il élargit les possibilités de l’intelligence artificielle et est largement utilisé dans diverses industries. Les utilisateurs peuvent obtenir des informations en discutant avec des chatbots, résumer des documents volumineux, écrire du code logiciel et découvrir de nouvelles façons de comprendre les informations, a déclaré Ian Buck, vice-président du calcul hyperscale et haute performance chez Nvidia Corporation : « L'inférence de modèles de langage à grande échelle est de plus en plus utilisée. difficile..La complexité du modèle continue d’augmenter, le modèle devient de plus en plus intelligent, et il devient
