Maison > Périphériques technologiques > IA > Pensées froides face à l'engouement pour ChatGPT : la consommation d'énergie de l'IA en 2025 pourrait dépasser celle des humains, et l'informatique de l'IA doit améliorer la qualité et l'efficacité

Pensées froides face à l'engouement pour ChatGPT : la consommation d'énergie de l'IA en 2025 pourrait dépasser celle des humains, et l'informatique de l'IA doit améliorer la qualité et l'efficacité

PHPz
Libérer: 2023-04-12 09:43:02
avant
1459 Les gens l'ont consulté

Après des années de développement, les systèmes d'IA générative DALL-E et GPT-3 lancés par OpenAI sont devenus populaires dans le monde entier et mettent actuellement en évidence leur incroyable potentiel d'application. Cependant, il y a un problème avec cette explosion de l'IA générative : chaque fois que DALL-E crée une image ou que GPT-3 prédit le mot suivant, cela nécessite plusieurs calculs d'inférence, occupant ainsi beaucoup de ressources et consomme plus d'électricité. Les architectures GPU et CPU actuelles ne peuvent pas fonctionner efficacement pour répondre aux demandes informatiques imminentes, ce qui crée d'énormes défis pour les opérateurs de centres de données hyperscale.

Pensées froides face à l'engouement pour ChatGPT : la consommation d'énergie de l'IA en 2025 pourrait dépasser celle des humains, et l'informatique de l'IA doit améliorer la qualité et l'efficacité

Les instituts de recherche prédisent que les centres de données sont devenus les plus grands consommateurs d'énergie au monde, représentant 4,5 % de la consommation totale d'électricité, contre 3 % en 2017 à 2025. En prenant la Chine comme exemple, la consommation électrique des centres de données opérant dans tout le pays devrait dépasser 400 milliards de kWh en 2030, soit 4 % de la consommation électrique totale du pays.

Les fournisseurs de cloud computing reconnaissent également que leurs centres de données consomment de grandes quantités d'électricité et ont pris des mesures pour améliorer leur efficacité, comme la construction et l'exploitation de centres de données dans l'Arctique pour tirer parti des énergies renouvelables et des conditions de refroidissement naturelles. Toutefois, cela ne suffit pas pour répondre à la croissance explosive des applications d’IA.

Le laboratoire national Lawrence Berkeley aux États-Unis a découvert dans une recherche que les améliorations de l'efficacité des centres de données ont contrôlé la croissance de la consommation d'énergie au cours des 20 dernières années, mais les recherches montrent que les mesures d'efficacité énergétique actuelles pourraient ne pas suffire pour répondre aux besoins des futurs centres de données. besoins, une meilleure approche est donc nécessaire.

La transmission des données est un goulot d'étranglement fatal

La racine de l'efficacité réside dans la façon dont fonctionnent le GPU et le CPU, en particulier lors de l'exécution de modèles d'inférence d'IA et de modèles de formation. Beaucoup de gens comprennent « au-delà de la loi de Moore » et les limites physiques liées à l’intégration d’un plus grand nombre de transistors sur des puces de plus grande taille. Des puces plus avancées aident à résoudre ces défis, mais les solutions actuelles présentent une faiblesse majeure en matière d'inférence de l'IA : la vitesse considérablement réduite à laquelle les données peuvent être transférées dans la mémoire vive.

Traditionnellement, il était moins coûteux de séparer le processeur et les puces de mémoire, et pendant des années, la vitesse d'horloge du processeur a été un facteur limitant clé dans les performances de l'ordinateur. Aujourd’hui, ce qui freine le progrès, c’est l’interconnexion entre les puces.

Jeff Shainline, chercheur au National Institute of Standards and Technology (NIST), a expliqué : « Lorsque la mémoire et le processeur sont séparés, le lien de communication reliant les deux domaines devient le principal goulot d'étranglement du système du chercheur du Oak Ridge National Laboratory. » Le professeur Jack Dongarra l'a exprimé succinctement : "Lorsque nous examinons les performances des ordinateurs d'aujourd'hui, nous constatons que la transmission de données est le goulot d'étranglement fatal." les systèmes utilisent différents types de calculs lors de la formation des modèles d’IA. La formation IA charge des dizaines de milliers d’échantillons d’images ou de texte dans un modèle basé sur Transformer comme référence, puis commence le traitement. Des milliers de cœurs dans un GPU traitent très efficacement des ensembles de données volumineux et riches, tels que des images ou des vidéos, et si vous avez besoin de résultats plus rapides, davantage de GPU basés sur le cloud peuvent être loués.

Bien que l'inférence de l'IA nécessite moins d'énergie pour effectuer des calculs, dans l'achèvement automatique de centaines de millions d'utilisateurs, de nombreux calculs et prédictions sont nécessaires pour décider quel est le prochain mot, ce qui coûte plus cher qu'une formation à long terme. Beaucoup d'énergie.

Par exemple, les systèmes d’IA de Facebook observent chaque jour des milliards d’inférences dans ses centres de données, un nombre qui a plus que doublé au cours des trois dernières années. Des recherches ont montré que l’exécution de l’inférence de traduction linguistique sur un grand modèle linguistique (LLM) consomme deux à trois fois plus d’énergie que la formation initiale.

Pensées froides face à l'engouement pour ChatGPT : la consommation d'énergie de l'IA en 2025 pourrait dépasser celle des humains, et l'informatique de l'IA doit améliorer la qualité et l'efficacité

L'augmentation de la demande teste l'efficacité informatique

ChatGPT est devenu populaire dans le monde entier à la fin de l'année dernière, et GPT-4 est encore plus impressionnant. Si des méthodes plus économes en énergie peuvent être adoptées, l’inférence de l’IA pourrait être étendue à une gamme plus large d’appareils et créer de nouvelles méthodes de calcul.

Par exemple, Hybrid Loop de Microsoft est conçu pour créer des expériences d'IA qui exploitent de manière dynamique le cloud computing et les appareils de pointe. Cela permet aux développeurs de prendre des décisions tardives lors de l'exécution de l'inférence d'IA sur la plate-forme cloud Azure, des ordinateurs clients locaux ou des appareils mobiles. pour maximiser l’efficacité. Facebook a introduit AutoScale pour aider les utilisateurs à décider efficacement où calculer les inférences au moment de l'exécution. Afin d'améliorer l'efficacité, il est nécessaire de surmonter les obstacles qui entravent le développement de l'IA et de trouver des méthodes efficaces.

L'échantillonnage et le pipeline peuvent accélérer l'apprentissage en profondeur en réduisant la quantité de données traitées. SALIENT (pour Sampling, Slicing, and Data Movement) est une nouvelle approche développée par des chercheurs du MIT et d'IBM pour résoudre les goulots d'étranglement critiques. Cette approche peut réduire considérablement la nécessité d'exécuter des réseaux de neurones sur de grands ensembles de données contenant 100 millions de nœuds et 1 milliard d'arêtes. Mais cela affecte également l’exactitude et la précision – ce qui est acceptable pour sélectionner la publication sociale à afficher ensuite, mais pas si l’on tente d’identifier des conditions dangereuses sur un chantier en temps quasi réel.

Des entreprises technologiques telles que Apple, Nvidia, Intel et AMD ont annoncé l'intégration de moteurs d'IA dédiés dans les processeurs, et AWS développe même un nouveau processeur Inferentia 2. Mais ces solutions utilisent toujours l'architecture de processeur von Neumann traditionnelle, la mémoire SRAM intégrée et la mémoire DRAM externe, qui nécessitent toutes plus de puissance pour déplacer les données vers et hors de la mémoire.

L'informatique en mémoire pourrait être la solution

De plus, des chercheurs ont découvert une autre façon de briser le « mur de la mémoire », qui consiste à rapprocher l'informatique de la mémoire.

Le mur de mémoire fait référence à la barrière physique qui limite la vitesse d'entrée et de sortie des données dans la mémoire. Il s'agit d'une limitation fondamentale de l'architecture traditionnelle. L'informatique en mémoire (IMC) résout ce défi en exécutant des calculs matriciels d'IA directement dans le module de mémoire, évitant ainsi la surcharge liée à l'envoi de données sur le bus mémoire.

IMC convient à l'inférence de l'IA car il implique un ensemble de données pondérées relativement statiques mais volumineuses, accessibles à plusieurs reprises. Bien qu'il y ait toujours des entrées et des sorties de données, l'IA élimine une grande partie des dépenses de transfert d'énergie et de la latence du mouvement des données en conservant les données dans la même unité physique afin qu'elles puissent être utilisées et réutilisées efficacement pour plusieurs calculs.

Cette approche améliore l'évolutivité car elle fonctionne bien avec les conceptions de puces. Grâce à la nouvelle puce, la technologie d'inférence de l'IA peut être testée sur les ordinateurs des développeurs, puis déployée dans des environnements de production via des centres de données. Les centres de données peuvent utiliser une vaste flotte d’équipements dotés de nombreux processeurs à puce pour exécuter efficacement des modèles d’IA au niveau de l’entreprise.

Au fil du temps, IMC devrait devenir l'architecture dominante pour les cas d'utilisation de l'inférence d'IA. Cela est parfaitement logique lorsque les utilisateurs traitent des ensembles de données massifs et des milliards de calculs. Parce que plus aucune ressource n’est gaspillée pour transférer des données entre des murs de mémoire, et que cette approche peut être facilement adaptée pour répondre aux besoins à long terme.

Résumé :

L'industrie de l'IA se trouve désormais à un tournant passionnant. Les progrès technologiques en matière d’IA générative, de reconnaissance d’images et d’analyse de données révèlent des connexions et des utilisations uniques pour l’apprentissage automatique, mais il faut d’abord créer une solution technologique capable de répondre à ce besoin. Car selon les prévisions de Gartner, à moins que des options plus durables ne soient proposées dès maintenant, l’IA consommera plus d’énergie que les activités humaines d’ici 2025. Il faut trouver un meilleur moyen avant que cela n’arrive !

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:51cto.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal