Le 30 mai, lors de la conférence sur les résultats du Forum Zhongguancun 2023, le « Plan de mise en œuvre permettant à Pékin d'accélérer la construction d'un centre d'innovation en intelligence artificielle d'influence mondiale (2023-2025) » a été officiellement publié. Le « Plan de mise en œuvre » exige que les entités d'innovation soient soutenues pour qu'elles se concentrent sur les percées technologiques telles que les cadres d'apprentissage profond distribués et efficaces et les nouvelles infrastructures pour les grands modèles, et qu'elles s'efforcent de promouvoir l'innovation technologique liée aux grands modèles.
Cela est considéré par l'industrie comme une autre preuve que la Chine encouragera vigoureusement le développement de grands modèles. En fait, récemment, des ministères centraux et des commissions aux provinces et villes locales, l'orientation politique vers le développement de la technologie de l'IA et la saisie des opportunités des grands modèles a augmenté. La densité de l'introduction de politiques et la hauteur stratégique globale ont atteint des niveaux étonnants. .
Il y a des raisons de croire que la Chine réalisera des progrès rapides dans le domaine de l’IA avec de grands modèles comme point de rupture. Depuis le lancement d'une nouvelle génération de stratégie de développement de l'intelligence artificielle en 2017, la Chine continuera à se développer dans la fenêtre d'opportunité actuelle et favorisera l'explosion globale de l'industrie de l'IA.
Nous savons tous que saisir les opportunités de développement de l'IA nécessite des percées technologiques et la construction d'infrastructures. Lorsqu'il s'agit de l'infrastructure de l'industrie de l'IA, les puces d'IA, les cadres d'apprentissage en profondeur et les grands modèles pré-entraînés sont généralement mentionnés, mais en ignorent souvent un autre. Problème clé : les grands modèles entraîneront une énorme pression sur les données, et le stockage des données est également l'épine dorsale du processus de développement de l'IA.
ChatGPT est à la tête de cette vague d'explosion de l'IA, et les problèmes de données causés par l'application à grande échelle de grands modèles ont en fait été écrits dans ChatGPT.
Face à cette pression à venir, la Chine est-elle prête ?
Regardez les défis en matière de données provoqués par la montée en puissance de l'IA de ChatGPT
Depuis que Google a lancé BERT en 2018, l'industrie a entamé la voie de la pré-formation de grands modèles. La caractéristique des grands modèles est que l'échelle des données d'entraînement et des paramètres du modèle est énorme, ce qui entraînera de graves défis en matière de stockage, ce qui est également évident dans ChaGPT.
La soi-disant « grandeur » des grands modèles pré-entraînés se reflète dans le fait que le réseau d'apprentissage profond du modèle comporte de nombreuses couches, de nombreux liens, des paramètres complexes et que les types d'ensembles de données utilisés pour la formation sont plus complexes et la quantité de données est plus riche. Lorsque l'algorithme d'apprentissage profond est né, les modèles traditionnels ne comportaient que quelques millions de paramètres, mais lorsque BERT a été publié, les paramètres du modèle dépassaient les 100 millions, faisant passer l'apprentissage profond au stade des grands modèles. Au stade de ChatGPT, les modèles grand public comportent déjà des centaines de milliards de paramètres, et l’industrie a même commencé à planifier des milliards de modèles. En quelques années, les paramètres des modèles d'IA ont augmenté des milliers de fois, et des données et des modèles aussi volumineux doivent être stockés. C'est devenu le premier test majeur de stockage provoqué par l'épidémie d'IA.
De plus, il sera largement mentionné que le grand modèle d'IA adopte une nouvelle structure de modèle, il aura donc un meilleur effet d'absorption et une meilleure robustesse aux données non structurées. Ceci est très important pour l'effet final de l'IA, mais cela apporte également un dérivé. problèmes : nous devons gérer correctement le stockage et le rappel d’énormes quantités de données non structurées. Par exemple, après la mise à niveau, ChatGPT a ajouté des fonctionnalités multimodales telles que la reconnaissance d'images, de sorte que ses données de formation doivent également ajouter un grand nombre d'images au-dessus du texte. Un autre exemple est celui des véhicules autonomes, qui doivent stocker un. un grand nombre de vidéos de tests sur le terrain chaque jour comme base pour la formation des modèles. La croissance de ces données non structurées a posé le problème de la croissance massive des données liées à l’IA, impliquant le stockage et le traitement des données.
Selon les statistiques, 80 % des nouvelles données mondiales sont actuellement des données non structurées, avec un taux de croissance annuel composé de 38 %. Faire face à l'essor des données diversifiées est devenu une difficulté qui doit être surmontée à l'ère des grands modèles.
Il existe un autre problème. Les grands modèles nécessitent souvent une lecture et un appel fréquents des données. L'utilisation de l'accès aux données de ChatGPT atteint 1,76 milliard de fois en un seul mois et la vitesse de réponse moyenne est de 10 secondes. Le flux de travail du modèle d'IA comprend quatre parties : la collecte, la préparation, la formation et le raisonnement. différents types de données. Par conséquent, les grands modèles imposent également des exigences en matière de performances de stockage.
En outre, une série de différends concernant la souveraineté et la protection des données autour de ChatGPT nous rappellent également que les grands modèles d'IA entraînent de nouveaux risques pour la sécurité des données. Imaginez, si des criminels attaquent la base de données et amènent le grand modèle de langage à générer des informations erronées pour tromper les utilisateurs, le préjudice sera grave et caché.
En résumé, bien que ChatGPT soit bon, il pose des défis en termes d'évolutivité du stockage des données, de performances, de sécurité, etc. Lorsque nous nous engageons à développer de grands modèles et des applications de type ChatGPT, le stockage doit être dépassé.
La Chine a accumulé des forces, êtes-vous prêt ?
Ces dernières années, nous disons que la puissance de calcul est synonyme de productivité. Mais si vous planifiez, vous devez avoir des économies. La limite des économies détermine également la limite supérieure du développement de la productivité numérique.
Alors, la force de réserve chinoise est-elle prête à affronter l’inévitable montée en puissance des grands modèles chinois ? Malheureusement, à plusieurs égards, les préparatifs de la Chine concernant sa capacité de réserve sont encore insuffisants aujourd'hui et doivent être encore améliorés et développés. Nous pouvons prêter attention à plusieurs problèmes du Cunli chinois pour voir s'ils peuvent faire face à la pression des données apportée par les grands modèles.
1. Une capacité de stockage insuffisante limite la limite supérieure du développement de l'industrie de l'IA
Les grands modèles apporteront des quantités massives de données, la première priorité est donc de stocker correctement ces données. Mais au stade actuel, la Chine est toujours confrontée au problème d'une capacité de stockage insuffisante, et une grande quantité de données ne peut même pas entrer dans la phase de stockage. À en juger par les données de 2022, la production de données de la Chine a atteint le chiffre étonnant de 8,1 ZB, se classant au deuxième rang mondial. Cependant, la capacité de stockage de la Chine n'est que d'environ 1 000 EB, ce qui signifie que le taux de stockage des données n'est que de 12 % et que la grande majorité des données ne peuvent pas être sauvegardées efficacement. Alors que la Chine a clairement défini le statut des données comme le cinquième facteur de production et que le développement du renseignement doit s'appuyer sur les données et les utiliser pleinement, il existe une énorme quantité de données difficiles à sauvegarder. Ce problème n'est pas le cas. peu sérieux. La Chine doit encore maintenir une croissance de capacité à grande vitesse et à grande échelle afin de saisir les opportunités de développement technologique de l'IA offertes par les grands modèles.
2. Sous l'impact des données massives, l'efficacité de la gestion et l'efficacité de l'accès sont faibles
Comme mentionné précédemment, le principal défi en matière de données posé par les grands modèles d'IA est l'inefficacité de la gestion d'énormes données et du traitement de l'acquisition et du stockage des données. L'amélioration de l'efficacité de l'accès nécessite que les données soient stockées et écrites de manière très efficace et à faible consommation d'énergie. Cependant, actuellement, 75 % des données en Chine utilisent encore des disques durs mécaniques. Par rapport aux lecteurs flash, les disques durs mécaniques ont une faible densité de capacité, une lecture des données lente, une consommation d'énergie élevée et une fiabilité médiocre. Relativement parlant, la mémoire 100 % flash présente une série d'avantages tels qu'une densité élevée, une faible consommation d'énergie, des performances élevées et. haute fiabilité Cependant, le remplacement de la mémoire 100 % flash en Chine a encore un long chemin à parcourir.
3. De multiples problèmes de données conduisent à une grave situation de sécurité du stockage
Les problèmes de sécurité des données sont devenus une préoccupation urgente pour les entreprises d'IA et même pour l'industrie de l'IA. En 2020, un incident de sécurité des données s'est produit au sein de la société Clearview AI aux États-Unis, entraînant la fuite de 3 milliards de données provenant de plus de 2 000 clients. Ce cas nous montre que la situation en matière de sécurité des données dans l'industrie de l'IA est très grave et que nous devons prêter attention à la sécurité dès la phase de stockage des données. Alors que les grands modèles d'IA jouent un rôle de plus en plus important dans l'économie nationale et les moyens de subsistance des citoyens, il est encore plus nécessaire d'améliorer les capacités de sécurité du stockage pour faire face aux différents risques possibles.
Objectivement parlant, China Cunli a maintenu une vitesse de développement élevée, mais elle présente encore certaines lacunes en termes d'échelle globale, de proportion de mémoire 100 % flash et de capacités d'innovation technologique. Le moment est venu de mettre à niveau le stockage pour répondre aux besoins d’intelligence industrielle et à la mise en œuvre à grande échelle de l’IA.
Face à l'ère intelligente, aux opportunités et orientations de l'industrie du stockage
En combinant la pression exercée sur le stockage par le grand modèle d'IA représenté par ChatGPT, ainsi que l'état de développement de la capacité de stockage de la Chine elle-même, nous pouvons clairement tirer une conclusion : le stockage de la Chine doit soutenir l'essor de l'IA et réaliser des mises à niveau à grande échelle.
Nous pouvons clairement voir l'orientation du développement de l'industrie du stockage. L'urgence et le large espace de ces orientations constituent une opportunité majeure pour l'industrie du stockage.
Tout d'abord, il est nécessaire d'étendre l'échelle de la capacité de stockage et d'accélérer la construction de la mémoire 100 % flash.
La mémoire 100 % flash remplace « l'entrée et la sortie du silicium » des disques durs mécaniques, ce qui constitue la tendance générale de développement de l'industrie du stockage depuis de nombreuses années. Face aux opportunités industrielles découlant de l'essor de l'IA, l'industrie chinoise du stockage doit accélérer la mise en œuvre et le remplacement de la mémoire 100 % flash et maximiser les avantages de la mémoire 100 % flash, tels que les hautes performances et la haute fiabilité, pour faire face aux besoins de stockage de données. apportés par les grands modèles d’IA.
De plus, il faut également noter que les opportunités de stockage distribué 100 % Flash se multiplient. Avec l'essor des grands modèles d'IA et l'explosion des données non structurées, l'importance des données augmente considérablement. Dans le même temps, l'IA a pénétré le cœur de production des grandes entreprises gouvernementales. De plus en plus d'utilisateurs en entreprise ont tendance à suivre des formations localisées en matière d'IA et à l'adopter. La formation à l'IA basée sur des fichiers. Le stockage des données par protocole, plutôt que de placer les données sur des plates-formes de cloud public, a conduit à une demande accrue et renforcée de stockage distribué.
La combinaison des deux continuera de promouvoir rapidement la mise en œuvre du 100 % Flash dans l'industrie du stockage et deviendra la voie principale du développement de l'industrie du stockage en Chine.
Deuxièmement, l'innovation technologique de stockage doit être améliorée pour s'adapter aux besoins de développement des modèles d'IA.
Comme mentionné ci-dessus, le test des données apporté par l'IA n'est pas seulement la grande échelle des données, mais aussi le défi de la complexité des données et de la diversité des processus d'application. Par conséquent, la nature avancée du stockage doit être encore améliorée. Par exemple, afin de répondre aux exigences fréquentes d’accès aux données de l’IA, la bande passante de stockage en lecture et en écriture ainsi que l’efficacité de l’accès doivent être améliorées. Afin de répondre aux besoins en données des grands modèles d'IA, le secteur du stockage doit procéder à des mises à niveau techniques complètes.
En termes de formats de stockage de données, l'intention initiale de conception des formats de données traditionnels, tels que « fichiers » et « objets » n'est pas de correspondre aux besoins de formation des modèles d'IA, et les formats de données des données non structurées ne sont pas uniformes, ce qui en fait Il est difficile d'utiliser les données lors de l'appel de modèles d'IA. Dans le processus, beaucoup de travail sera nécessaire pour re-comprendre et aligner le format de fichier, ce qui entraînera une diminution de l'efficacité de fonctionnement du modèle et une augmentation de la consommation d'énergie de calcul de la formation.
Pour cette raison, un nouveau « paradigme des données » doit être formé du côté du stockage. En prenant comme exemple la formation à la conduite autonome, différents types de données sont impliqués dans le processus de formation des données. Si un nouveau paradigme de données est adopté du côté du stockage, il peut aider à unifier diverses données et à mieux s'adapter à la formation des modèles d'IA, accélérant ainsi la formation. formation des véhicules autonomes. Par exemple, si vous imaginez l’IA comme un nouvel animal, elle a besoin de manger un nouveau type de nourriture. Si vous lui donnez des données dans des formats traditionnels, elle souffrira de problèmes d’indigestion. Le nouveau paradigme des données consiste à stocker des données. est parfaitement adapté à l'IA, ce qui rend le processus « d'alimentation de l'IA » fluide.
Dans le travail de développement de l'IA, la gestion des données représente une part énorme de la charge de travail, et il existe également des problèmes d'îlot de données entre différents ensembles de données. La technologie de tissage de données peut résoudre efficacement ces problèmes. Grâce au tissage de données, le stockage peut avoir des capacités d'analyse de données intégrées et intégrer des données physiquement et logiquement dispersées pour former une vue globale des capacités de planification et de flux des données, gérant ainsi efficacement les données massives apportées par l'IA et améliorant l'efficacité de l'utilisation des données.
Ces innovations technologiques en matière de stockage peuvent former une adéquation plus étroite entre le stockage de données et le développement de l'IA.
De plus, des capacités de sécurité doivent être intégrées au stockage lui-même pour renforcer les capacités de sécurité active.
À mesure que l’IA devient de plus en plus précieuse, les problèmes de sécurité des données entraînent davantage de pertes pour les utilisateurs de l’entreprise. Les entreprises doivent donc améliorer leurs capacités de sécurité des données. Le point le plus important est d'améliorer la résilience des données, de doter le stockage lui-même de capacités de sécurité et de protéger la sécurité des données depuis la source. Ensuite, davantage de capacités de résilience des données seront intégrées aux produits de stockage de données, telles que la détection des ransomwares, le cryptage des données, les instantanés de sécurité et les fonctionnalités de récupération de quarantaine AirGap.
Il convient de noter que l’industrie a déjà exploré et tenté de mettre à niveau complètement le stockage en réponse à la montée en puissance des grands modèles d’IA. Grâce à des produits 100 % Flash de haute qualité, Huawei Storage intègre une technologie de stockage avancée et des capacités de sécurité intégrées pour parvenir à une adéquation étroite entre l'innovation en matière de stockage et le développement de l'IA, et travailler ensemble.
Dans l'ensemble, le développement de l'industrie du stockage et les progrès de la capacité de stockage de la Chine revêtent une importance décisive pour la mise en œuvre de modèles d'IA à grande échelle et même pour la mise à niveau intelligente de milliers d'industries. Sans le développement du stockage, le flot de données apporté par l’IA sera difficile à résoudre correctement. La technologie de l’IA pourrait même devenir un arbre sans racines en raison du manque de prise en charge des données.
Le secteur du stockage est confronté en même temps aux opportunités et aux responsabilités de l’ère intelligente. Avec l'exploration continue d'excellentes marques telles que Huawei, le stockage chinois est confronté à des opportunités sans précédent et assume également les responsabilités que lui confère son époque.
De nombreux experts du secteur estiment que le grand modèle linguistique est le « moment iPhone » dans l'histoire de l'IA, de sorte que la vague de mises à niveau du stockage apportée par la technologie de l'IA pourrait également devenir un moment marquant dans l'industrie du stockage en Chine et le prélude à un âge d'or.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!