L'épidémie d'AIGC pose non seulement des défis en matière de puissance de calcul, mais impose également des exigences sans précédent au réseau.
Le 26 juin, Tencent Cloud a dévoilé pour la première fois son réseau informatique haute performance Xingmai auto-développé : le réseau Xingmai possède la bande passante de communication 3,2T la plus élevée du secteur, ce qui peut augmenter l'utilisation du GPU de 40 % et économiser 30 % à 60 %. des modèles. Les coûts de formation apportent une amélioration des performances de communication 10 fois supérieure aux grands modèles d'IA. Le cluster informatique de nouvelle génération HCC de Tencent Cloud peut prendre en charge une énorme échelle informatique de plus de 100 000 cartes.
Wang Yachen, vice-président de Tencent Cloud, a déclaré : « Le réseau Xingmai est né pour les grands modèles. Les services réseau hautes performances qu'il fournit avec une large bande passante, une utilisation élevée et une perte de paquets nulle aideront à briser le goulot d'étranglement de la puissance de calcul et à libérer davantage Potentiel de l'IA, améliorez considérablement l'efficacité de la formation des grands modèles d'entreprise et accélérez la mise à niveau itérative et la mise en œuvre de la technologie des grands modèles sur le cloud.
Construisez un réseau haute performance dédié aux grands modèles et augmentez l'utilisation du GPU de 40%
La popularité de l’AIGC a entraîné une augmentation du nombre de grands paramètres de modèles d’IA, passant de centaines de millions à des milliards. Afin de prendre en charge la formation à grande échelle de données massives, un grand nombre de serveurs forment un cluster informatique via des réseaux à haut débit et sont interconnectés pour effectuer ensemble des tâches de formation.Au contraire, plus le cluster GPU est grand, plus la perte de communication supplémentaire est importante. Un grand cluster ne signifie pas une grande puissance de calcul. L’ère des grands modèles d’IA a posé des défis importants au réseau, notamment des exigences élevées en matière de bande passante, une utilisation élevée et l’absence de perte d’informations.
La bande passante du réseau traditionnel à bas débit ne peut pas satisfaire les grands modèles avec des centaines de milliards ou des milliards de paramètres. Au cours du processus de formation, la proportion de communication peut atteindre 50 %. Dans le même temps, les protocoles réseau traditionnels peuvent facilement entraîner une congestion du réseau, une latence élevée et une perte de paquets, et seulement 0,1 % de la perte de paquets réseau peut entraîner une perte de 50 % de la puissance de calcul, entraînant finalement un gaspillage important de ressources de puissance de calcul.
Basé sur des capacités complètes d'auto-recherche, Tencent Cloud a réalisé des mises à niveau logicielles et matérielles et des innovations dans les commutateurs, les protocoles de communication, les bibliothèques de communication et les systèmes d'exploitation, et est le premier à lancer le grand modèle dédié hautes performances, leader du secteur. réseau - Réseau Xingmai.
En termes de matériel, Xingmai Network est basé sur la plate-forme de R&D réseau de Tencent et utilise tous les équipements auto-développés pour construire une base d'interconnexion afin de réaliser un déploiement et une configuration automatisés.
En termes de logiciel, le protocole réseau TiTa développé par Tencent Cloud adopte une technologie avancée de contrôle et de gestion de la congestion, qui peut surveiller et ajuster la congestion du réseau en temps réel, répondre aux besoins de communication entre un grand nombre de nœuds de serveur et assurer un échange de données fluide. et une faible latence. Obtenez une perte de paquets nulle sous une charge élevée, ce qui permet à l'efficacité de la communication du cluster d'atteindre plus de 90 %.
De plus, Tencent Cloud a également conçu une bibliothèque de communication collective haute performance TCCL pour Xingmai Network et l'a intégrée dans des solutions personnalisées, permettant au système d'obtenir une perception de la qualité du réseau au niveau de la microseconde. En utilisant un mécanisme de planification dynamique pour allouer raisonnablement les canaux de communication, les interruptions de formation dues à des problèmes de réseau peuvent être efficacement évitées et les retards de communication peuvent être réduits de 40 %.
La disponibilité du réseau détermine également la stabilité informatique de l'ensemble du cluster. Afin d'assurer la haute disponibilité du réseau Xingmai, Tencent Cloud a développé un système d'exploitation réseau complet de bout en bout grâce à la surveillance tridimensionnelle du réseau d'extrémité et au système de positionnement intelligent, les problèmes de réseau d'extrémité sont automatiquement délimités. et analysé, de sorte que le temps global de dépannage puisse être raccourci. Le niveau jour est réduit au niveau minute. Après améliorations, le temps de déploiement global du système de formation de modèles à grande échelle a été réduit à 4,5 jours, garantissant une précision à 100 % de la configuration de base.
Après trois générations d'évolution technologique, nous avons profondément cultivé et étudié l'intégration des logiciels et du matériel
Derrière la mise à niveau complète du réseau Xingmai se trouve le résultat de trois générations d'évolution technologique du réseau de centres de données de Tencent.
Au début du développement de Tencent, le trafic réseau du centre de données consistait principalement en un trafic nord-sud permettant aux utilisateurs d'accéder aux serveurs du centre de données. L'architecture du réseau était principalement basée sur l'accès, l'agrégation et la sortie. À ce stade, les équipements de réseau commerciaux étaient principalement utilisés pour construire un réseau de centres de données standardisé, prenant en charge la croissance du nombre d'utilisateurs en ligne QQ de plus de 100 millions et l'échelle des serveurs de plus de 100 000.
Avec l'essor du Big Data et du cloud computing, le trafic est-ouest entre les serveurs a progressivement augmenté et les locataires du cloud ont créé des exigences de virtualisation et d'isolation pour le réseau. L'architecture du réseau du centre de données a progressivement évolué vers une architecture de réseau cloud qui transporte à la fois le trafic nord-sud et est-ouest. Tencent Cloud a construit un équipement réseau et un système de gestion entièrement développés pour créer un réseau de centre de données à très grande échelle. avec près de 2 millions de serveurs.
Tencent Cloud a été le premier à lancer un réseau informatique haute performance en Chine pour répondre aux besoins des grands modèles d'IA, et a adopté une architecture de séparation pour le trafic est-ouest et nord-sud. Il a construit une architecture de réseau indépendante avec une bande passante ultra-large qui répond aux caractéristiques du trafic de formation de l'IA et coopère avec des installations logicielles et matérielles auto-développées pour obtenir une contrôlabilité indépendante de l'ensemble du système et répondre aux nouveaux besoins de super puissance de calcul pour le réseau. performance.
Récemment, Tencent Cloud a lancé une nouvelle génération de cluster de calcul haute performance HCC, basé sur le réseau haute performance Xingmai. Il peut atteindre une bande passante d'interconnexion ultra-élevée de 3,2 T et les performances de puissance de calcul sont 3 fois supérieures à celles de la puissance de calcul. génération précédente. Il est conçu pour la formation de grands modèles d’IA. Base de réseau fiable et performante.
À l'avenir, Tencent Cloud continuera d'investir dans la recherche et le développement de technologies de base pour fournir un support technique solide à la transformation numérique et intelligente de diverses industries.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!