Lors de la Qingyun Technology AI Computing Power Conference, Miao Hui, chef de produit, a présenté en détail la plate-forme de planification de la puissance de calcul Qingyun AI et les services cloud de puissance de calcul Qingyun AI. Voici le texte intégral du discours :
Les utilisateurs de l'intelligence artificielle sont confrontés à des défis en matière de puissance de calcul
Avec l'explosion de l'industrie de l'intelligence artificielle, l'AIGC, les grands modèles, le calcul de recherche scientifique, le big data au niveau de l'entreprise et l'intelligence artificielle ont imposé des exigences plus élevées aux centres de puissance de calcul. Surtout face aux centres de données dotés d'une seule puissance de calcul, ils ne sont plus en mesure de répondre à la demande croissante de puissance de calcul dans tous les domaines. Par conséquent, des centres de calcul plus intelligents, des centres de calcul intensif et des services généraux de cloud computing sont nécessaires pour fournir. services de puissance de calcul à l’ensemble de la société.
Cependant, les utilisateurs de l'industrie de l'IA, de l'infrastructure de l'IA et de la puissance de calcul de l'IA sont également confrontés à une série de défis :
Gout d'étranglement de la gestion unifiée de plusieurs ressources. Face aux exigences des utilisateurs en matière de puissance de calcul multiple, de stockage multiple, de réseau informatique complet et de services à proximité, Qingyun fournit une plate-forme de planification de services unifiée de gestion de ressources multiples pour résoudre la situation chaotique de la gestion de ressources multiples.
Gout d'étranglement du réseau haut débit. En termes de construction de réseaux à haut débit d'IA, Qingyun utilise des réseaux à haut débit pour interconnecter les périphériques informatiques et de stockage, et utilise des réseaux à usage général pour publier des services d'application, c'est-à-dire que Qingyun résout les problèmes de réseau à haut débit multirégions grâce à la plate-forme de Qingyun. .
Le goulot d'étranglement d'une construction environnementale lourde. Les ingénieurs en algorithmes et les ingénieurs R&D peuvent perdre beaucoup de temps à configurer des environnements de base tels que des serveurs matériels et des serveurs de stockage. Grâce aux services informatiques intelligents Qingyun AI, aux plates-formes de formation et aux plates-formes de modèles d'inférence, la construction de l'environnement est simplifiée et le déploiement en un clic peut être effectué. atteint.
Plusieurs goulots d’étranglement en matière d’intégration commerciale. Qingyun intègre plusieurs entreprises et combine le cloud computing traditionnel, le super calcul et l'informatique intelligente pour fournir des services informatiques panoramiques à davantage d'entreprises et à davantage de clients.
Manque de services opérationnels. Qingyun fournit également des services complets de gestion des opérations, de l'exploitation et de la maintenance au centre d'exploitation de la puissance de calcul et au département de gestion de la puissance de calcul.
Plateforme de planification de puissance de calcul Qingyun AI
L'architecture de produit full-stack des produits de planification Qingyun AI est multi-AZ et multizone, c'est-à-dire que les produits dans plusieurs régions peuvent être unifiés et intégrés pour fournir des services de puissance de calcul à l'ensemble de la société avec un service global. Plus précisément, il gérera l'infrastructure sous-jacente, rendra l'infrastructure logique et orientée métier via la couche logique des données et formera un cluster de puissance de calcul IA via des produits ou services spécifiques, notamment des hôtes GPU, du bare metal, de la virtualisation, des formulaires de partage, etc. , les services d'inférence de conteneurs, les marchés de modèles et d'autres activités connexes, fournissant des capacités de planification de la puissance de calcul et de mise en œuvre de scénarios d'application aux clients de l'ensemble du secteur.
Nouveau modèle de centre de construction de puissance de calcul couvrant tous les aspects
En général, les capacités de la plate-forme de planification de la puissance de calcul de l'IA fournies par Qingyun Technology reposent principalement sur les quatre aspects suivants :
Premièrement, l'ensemble de la plate-forme est compatible avec toutes les puces informatiques du marché (y compris les puces Xinchuang nouvellement produites), ainsi qu'avec les cartes graphiques et les cartes réseau liées aux GPU.
Deuxièmement, effectuer une gestion, une distribution, une surveillance et une planification unifiées des ressources d'adaptation ci-dessus, et fournir des fonctions de gestion en ligne du cycle de vie complet, depuis l'application utilisateur jusqu'à la publication après utilisation.
Troisièmement, du côté de la gestion et du côté utilisateur, la plate-forme de gestion unifiée Qingyun permet aux utilisateurs et aux administrateurs d'exploiter pleinement l'infrastructure d'IA et les services cloud de puissance de calcul de l'IA.
Dans le domaine de l'informatique intelligente, Qingyun commercialisera davantage de services basés sur des scénarios, tels que la formation et le raisonnement de grands modèles de langage, et des services d'équilibrage de charge basés sur la génération de texte. Qingyun peut également fournir aux clients une plate-forme de planification de la puissance de calcul de l'IA. Opérations pratiques telles que le déploiement en un clic, l'expansion en un clic et l'équilibrage de charge en un clic. En termes d'équilibrage de charge, en particulier dans les réseaux, les réseaux publics et les infrastructures informatiques, il peut réaliser une livraison de deuxième niveau et une expansion de capacité de deuxième niveau.
Enfin, sur la base des trois capacités ci-dessus, Qingyun peut prendre en charge l'informatique dans diverses industries, notamment le calcul haute performance, le calcul de l'intelligence artificielle et les modèles informatiques généraux, créant une plate-forme unifiée de gestion, de distribution et d'exploitation des utilisateurs avec une innovation indépendante et des fonctions complètes pour les clients. .
Neuf capacités pour libérer la liberté de la puissance de calcul de l'IA
Au fil des années d'accumulation dans l'industrie, la plate-forme de planification de la puissance de calcul Qingyun AI a formé neuf capacités clés :
1. Capacités d'intégration de ressources multirégionales et multi-entreprises
En particulier pour la diversification des services de puissance de calcul dans les régions de l'ouest du Sichuan ou du nord-ouest, lorsqu'il fournit des services de puissance de calcul à la région de l'Est, aux instituts de recherche scientifique et aux universités, Qingyun peut gérer de manière centralisée les ressources dans plusieurs régions et construire des réseaux à haut débit efficaces grâce à la coopération. avec les opérateurs télécoms.
2. Capacités de planification et de gestion distribuées
Selon le principe d'utilisation de proximité, Qingyun gère et alloue toutes les infrastructures (y compris les ressources informatiques et les ressources de stockage) dans différentes régions, centres informatiques et centres de données, et configure les priorités de planification, y compris l'affinité et la non-affinité. Sur les machines virtuelles, les hôtes et les serveurs nus (y compris les conteneurs basés sur des conteneurs et des pods), la configuration des données d'affinité et de non-affinité peut être effectuée du côté gestion de la plate-forme de planification de la puissance de calcul Qingyun AI pour garantir la priorité de la planification des données. L'objectif est de garantir que les utilisateurs bénéficient d'une expérience cohérente dans l'utilisation finale des données, l'application des ressources informatiques, la formation commerciale et le raisonnement commercial.
3. Capacité de planification des ressources
En termes de capacités de planification des ressources, Qingyun présente les six avantages majeurs suivants :
1) Planifiez et développez immédiatement les ressources de dizaines de milliers de cartes
Principalement orienté vers les scénarios informatiques d'IA, notamment l'inférence de grands modèles. Certains scénarios de modèles nécessitent une inférence plusieurs fois par an, ce qui nécessite la construction d'une plateforme de formation avec des dizaines voire des dizaines de milliers de cartes en un instant. Selon cette exigence, l'adaptation intégrée et la gestion des ressources peuvent être effectuées sur la plate-forme de planification de la puissance de calcul Qingyun AI pour garantir que le cluster de puissance de calcul peut immédiatement prendre en charge les ressources de dizaines de milliers de cartes et peut être libéré immédiatement après. utiliser. En termes d'environnement et de configuration des ressources, la plate-forme de planification de la puissance de calcul Qingyun AI a effectué de nombreuses automatisations pour garantir que les ressources Wanka peuvent être planifiées de manière uniforme.
2) Planification des priorités les plus courtes du lien de communication
Empêcher le détournement des données, c'est également l'objectif principal de la plateforme de planification de la puissance de calcul Qingyun AI. Dans les scénarios de formation et d'inférence de l'IA, il y aura une grande quantité d'interactions de données entre les nœuds et entre les nœuds et le stockage. Dans ce cas, Qingyun effectue certaines configurations sur le commutateur en même temps pour garantir que les ressources de calcul et de stockage peuvent être utilisées. être sur un seul commutateur. Donnez la priorité à la planification au sein d’une salle informatique ou d’une armoire pour éviter que les données ne soient détournées et réduire les contraintes de transmission réseau difficile pendant la formation en IA.
3) Prise en charge des plateformes hétérogènes
Les utilisateurs peuvent choisir différents services à exécuter sur différentes cartes lors de la création d'un cluster. Qingyun Technology a également effectué une adaptation nationale et une substitution nationale des puces. 4) Améliorer la granularité du système de planification
Le premier est un système de planification basé sur Slurm, et le second est un système de planification basé sur K8. En termes de granularité du système de planification, les utilisateurs peuvent percevoir une véritable précision au niveau du travail. Lorsque chaque tâche de formation est exécutée sur chaque processus sur chaque carte, elle peut être mise en œuvre via une surveillance des données à grande échelle, une planification commerciale, etc. exceptions pour garantir que les utilisateurs peuvent gérer rapidement les exceptions aux tâches de formation, maximiser la planification des ressources et réduire le gaspillage à ce niveau. Si quelque chose ne va pas, modifiez-le immédiatement et exécutez-le immédiatement.
5) Le côté gestion implémente la configuration des priorités de planification
Étant donné que différents centres de puissance de calcul exploiteront différents services de puissance de calcul, en particulier dans le cas de plusieurs centres de données, les utilisateurs peuvent prioriser la planification via la plate-forme de planification de puissance de calcul Qingyun AI. Tous sont intégrés à un stade précoce, et les utilisateurs peuvent également le faire. prédéfinis ultérieurement. Des paramètres tels que la rétention, la pause, la reprise, le réglage de la priorité, la file d'attente, etc. peuvent augmenter la priorité. Au niveau de la gestion, Qingyun peut donner la priorité à l'allocation des ressources aux utilisateurs qui postulent pour des applications spéciales ou aux utilisateurs ayant une priorité élevée.
6) Planification flexible et allocation des ressources pour l'industrie de l'informatique intelligente
Qingyun peut planifier et configurer des ressources de manière dynamique et flexible pour résoudre les priorités difficiles des systèmes d'IA. C'est pourquoi Qingyun continue de découvrir de nouveaux problèmes dans la puissance de calcul de la planification de l'IA ou dans les scénarios d'IA, utilise constamment la plate-forme pour résoudre de nouveaux problèmes et utilise de nouveaux produits pour résoudre certains problèmes majeurs de l'industrie.
4. Capacité de stockage parallèle à grande vitesse
Les produits informatiques et de stockage de Qingyun sont divers et diversifiés, offrant les trois types de stockage suivants :
1) Stockage d'objets Qingyun U10000
Modèles de stockage, codes et appels de données couramment utilisés, principalement pour les opérations de sauvegarde et de lecture de données à grande échelle.
2) Stockage de fichiers parallèles EPFS
En termes d'écriture parallèle de données à grande échelle, Qingyun fournit un stockage de fichiers parallèle EPFS, qui fournit principalement un stockage de fichiers parallèle 100 % Flash pour les opérations d'écriture de données au niveau MPI.
3) NAS de stockage de fichiers
Vous pouvez stocker certains documents, textes, etc. courants. Tous les produits de stockage de Qingyun peuvent être interconnectés en interne avec ses propres produits informatiques pour effectuer la transmission, la distribution, la sauvegarde, etc.
5. Capacité de réseau hybride
Différents réseaux haut débit peuvent être fournis pour différents scénarios informatiques, tels que le réseau informatique IB et le réseau de stockage IB. Comment les configurer de manière optimale ?
Qingyun interconnecte les produits informatiques à haute configuration et les produits de stockage à haute configuration, et interconnecte les produits à configuration moyenne et faible pour les scénarios de formation, les scénarios d'inférence et les scénarios de services d'application généraux.
6. Capacités de prise en charge du développement d'algorithmes
Pour les développeurs d'algorithmes, Qingyun propose des produits de services cloud plus complets. En particulier dans la phase de développement des algorithmes, un grand nombre d'ajustements de paramètres et d'écriture de code à grande échelle sont nécessaires pendant la formation et le déploiement, en raison des opérations sur et hors du cloud. des problèmes majeurs peuvent survenir. Le téléchargement de données à grande échelle, le téléchargement ou la copie de code ne conviennent pas à l'édition en ligne et à une utilisation immédiate.
Par conséquent, Qingyun fournit une plate-forme de développement d'algorithmes en termes de développement d'algorithmes. Elle peut lancer un environnement de développement en ligne basé sur des services cloud, créer entièrement des projets Python et des projets VC, et utiliser des fichiers de projet et des environnements d'ingénierie en ligne pour mener des recherches et des développements de code.
Pendant le processus de développement, si un débogage est nécessaire, il peut être étendu immédiatement ; si une formation est nécessaire, la tâche peut être immédiatement affectée au cluster de formation si une inférence est nécessaire, elle peut être placée sur le cluster d'inférence ; .
Dans le même temps, pendant le processus de développement d'algorithmes, il peut y avoir certaines formes de développement conjoint ou de développement mixte. Qingyun fournit également des entrepôts de code et des entrepôts miroir pour la gestion des modèles. Différents personnels utilisent différentes autorisations pour effectuer un développement d'algorithmes unifié et une fusion de services. .
En un mot, Qingyun fournit principalement des produits informatiques et des produits de planification pour tous les scénarios de développement pour les développeurs d'algorithmes, garantissant que l'ensemble de l'activité de développement d'algorithmes peut être exploité efficacement sur le cloud et réduisant les opérations de téléchargement et de téléchargement à grande échelle.
7. Plateforme de formation IA
Si le développement de l'algorithme est en voie d'achèvement ou nécessite un débogage, une grande quantité d'infrastructure de puissance de calcul doit être activée pour le développement et la formation. Sur la base de l'infrastructure, Qingyun fournit une plate-forme de formation en IA pour responsabiliser les utilisateurs.
Une fois les ressources GPU, les ressources de stockage et les ressources réseau créées, les utilisateurs peuvent créer indépendamment via la plate-forme cloud et réaliser une opération en un clic. La plate-forme de formation Qingyun AI construit principalement des clusters en ligne sur la base de ses propres ressources GPU. Une fois la construction terminée, un certain stockage sera monté par défaut et les utilisateurs pourront choisir eux-mêmes.
La plate-forme de formation Qingyun AI disposera également d'un environnement de développement en ligne intégré. Certains cadres de formation couramment utilisés seront également intégrés à l'environnement de développement. Elle fournira aux utilisateurs des scénarios complets et des environnements d'application complets via des clusters, permettant aux utilisateurs d'effectuer des tâches distribuées. formation en ligne sur plusieurs machines .
8. Plateforme de services d'inférence de conteneurs Une fois la formation du grand modèle presque terminée, la plate-forme de services d'inférence de conteneurs Qingyun peut jouer un rôle dans la fourniture de services d'inférence au public.
Grâce à la plate-forme de service d'inférence de conteneur Qingyun, une fois que les utilisateurs ont déployé le service d'inférence, ils peuvent ensuite utiliser l'équilibrage de charge configuré et la mise à l'échelle automatique pour garantir que les visites des utilisateurs peuvent être appelées immédiatement. Dans le même temps, Qingyun fournit des services de surveillance en ligne aux clients. S'il y a un problème avec le service d'inférence, les utilisateurs peuvent immédiatement surveiller ce qui n'a pas fonctionné avec l'inférence du conteneur et Qingyun peut le résoudre en ligne. Pour les opérations simultanées et les opérations d'appel à grande échelle, Qingyun peut également effectuer un équilibrage de charge et une mise à l'échelle automatique, réduisant considérablement les opérations de configuration manuelle.
9. Entrepôt modèle (MaaS)
Qingyun Model Warehouse (MaaS) s'adresse principalement aux clients de services de puissance de calcul d'IA et aux clients d'informatique générale. Les fournisseurs de services de modèles peuvent mettre des produits sur le marché des applications et sur le marché des modèles en fonction de leurs propres besoins en matière de modèles, ce qui facilite la tâche des clients de diverses entreprises. appelez et utilisez-le en un clic. Réglage fin et déploiement en un clic.
Trois : Stimuler la diversité des valeurs et accélérer la mise en œuvre de scénarios
En général, l'objectif de la plateforme de planification de la puissance de calcul Qingyun AI est de gérer l'infrastructure de l'IA comme les ressources locales, ce qui se reflète principalement dans cinq aspects majeurs :
1. Fournir une planification unifiée de plusieurs puissances de calcul
Face aux ressources GPU, aux ressources CPU, aux puces domestiques, aux cadres d'application, aux applications et aux scénarios commerciaux des utilisateurs, Qingyun utilise une plate-forme unifiée pour la planification et la gestion, y compris les installations de stockage et les installations réseau.
2. Réaliser une planification intelligente de la puissance de calcul basée sur l'infrastructure
En termes de priorité et d'affinité de planification de la puissance de calcul, basée sur la VM, l'hôte et le conteneur, les utilisateurs peuvent réaliser une planification et une configuration intelligentes de la puissance de calcul, ainsi que des services de gestion via la plateforme de Qingyun.
3. Adaptation rapide et efficace aux puces nationales. Qingyun peut s'adapter efficacement et rapidement aux puces nationales, garantissant que les services d'algorithmes localisés et les codes localisés peuvent s'exécuter immédiatement sur les puces nationales.
4. Service de visualisation
En termes d'exploitation et de maintenance intelligentes du côté de la gestion, les services de surveillance et d'alarme de Qingyun fournissent aux clients et aux administrateurs des opérations visuelles via une vaste plate-forme d'exploitation et de maintenance.
5. Marché d'applications riche
Qingyun Technology construit activement un écosystème et crée un marché d'applications riche, afin que les applications et les clients de tous horizons puissent obtenir les ressources informatiques et les ressources commerciales qu'ils souhaitent sur la plate-forme informatique Qingyun AI.
À l'heure actuelle, la plate-forme de planification de la puissance de calcul Qingyun AI a été implémentée dans les applications de supercalcul de Jinan, et Sunward Cloud est en ligne pour fournir des services opérationnels. Basé sur les dizaines de milliers d'infrastructures matérielles de calcul intensif de Jinan, divers réseaux informatiques, serveurs, etc., Qingyun fournit des services de référencement, de gestion et de planification d'informations, de gestion, d'intégration, de gestion et de distribution unifiées, ainsi que des produits de planification et de puissance de calcul. produits de services cloud à des clients de tous horizons.
Service cloud de puissance de calcul Qingyun AI
Les produits de services cloud de puissance de calcul Qingyun AI sont également lancés sur le cloud public Qingyun pour fournir des services, principalement pour les scénarios de formation de grands modèles.
Pour les cartes avec une priorité relativement élevée et une configuration élevée, Qingyun fournit des produits de services de cloud computing public. Dans le scénario d'IA, Qingyun crée des clusters de calcul GPU distribués avec des ressources sous-jacentes, les lie à l'environnement du réseau public et permet aux utilisateurs d'y accéder. .
Les utilisateurs peuvent télécharger des données sur un stockage de fichiers parallèle sur cette base, ou ils peuvent intégrer un stockage de fichiers parallèle et des clusters de calcul GPU dans le même réseau pour garantir la sécurité des données et la sécurité des services cloud via un réseau privé. Vous pouvez également gérer votre entreprise grâce à une formation en ligne et à un accès SSH à distance aux clusters informatiques distribués et au stockage de fichiers parallèle.
En termes d'entreprise, les utilisateurs peuvent utiliser des clusters informatiques d'IA et des services d'inférence de conteneurs, et leur infrastructure est constituée de ressources A800, de serveurs nus et de serveurs virtualisés. Tous les produits de service cloud de puissance de calcul Qingyun AI utilisent des réseaux interconnectés à haut débit et adoptent l'environnement en ligne, l'environnement de développement, l'environnement de formation et de raisonnement requis par l'industrie de la puissance de calcul de l'IA. Tout le monde est invité à demander un enregistrement et un essai.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!