Réseau à l'ère de l'IA : sources de demande et directions d'innovation
Le réseau joue un rôle clé à l'ère des grands modèles d'IA. Avec la croissance rapide de l'échelle des grands modèles, les équipements réseau tels que les modules optiques et les commutateurs connaissent une explosion de la demande et une accélération de l'itération. Cet article partira des principes pour explorer pourquoi le réseau devient le nouveau point focal à l'ère de l'IA, et discutera des innovations et des opportunités d'investissement du côté réseau dans les changements industriels.
1. Source des exigences réseau
Entrant dans l'ère des grands modèles, l'écart entre la taille des modèles et la limite d'une seule carte graphique s'élargit rapidement, rendant les clusters de serveurs multiples un choix inévitable pour l'entraînement des modèles, ce qui constitue la base de l'importance accrue des réseaux à l'ère de l'IA. Contrairement au passé où ils étaient simplement utilisés pour le transfert de données, les réseaux sont maintenant davantage utilisés pour synchroniser les paramètres des modèles entre les cartes graphiques, ce qui impose des exigences plus élevées en matière de densité et de capacité des réseaux.
1.1 Modèles de plus en plus vastes
Temps d'entraînement = Taille des données d'entraînement × Nombre de paramètres du modèle / Taux de calcul
Taux de calcul = Taux de calcul par appareil × Nombre d'appareils × Efficacité du parallélisme multi-appareils
Dans la double quête de l'échelle des données d'entraînement et des paramètres, seule une augmentation de l'efficacité de calcul peut réduire le temps d'entraînement. L'amélioration du taux de calcul sur un seul appareil a des cycles et des limitations, donc la manière d'utiliser le réseau pour élargir le "nombre d'appareils" et "l'efficacité parallèle" détermine directement le niveau de puissance de calcul.
1.2 Communication complexe de synchronisation multi-cartes
Dans le processus d'entraînement des grands modèles, après avoir divisé le modèle en cartes individuelles, chaque calcul nécessite un alignement entre les cartes. Dans des primitives de communication comme NCCL, les opérations All-to-All sont assez courantes, ce qui impose des exigences plus élevées en matière de transmission et d'échange de données.
1.3 Coût de défaillance coûteux
L'entraînement des grands modèles dure souvent plusieurs mois, et après une interruption, il est nécessaire de revenir au point d'arrêt pour reprendre l'entraînement. Toute défaillance ou latence élevée dans un maillon du réseau peut entraîner une interruption, augmentant les coûts et prolongeant les délais. Les réseaux d'IA modernes ont évolué pour devenir des systèmes d'ingénierie complexes comparables à des avions ou des porte-avions.
2. Directions de l'innovation numérique
Après deux ans de développement, l'échelle des investissements dans la puissance de calcul mondiale a atteint des centaines de milliards de dollars. Les paramètres du modèle continuent de s'élargir, et la concurrence entre les géants reste intense. Actuellement, "réduction des coûts", "ouverture" et équilibre de l'échelle de puissance de calcul sont devenus les principaux sujets d'innovation dans le réseau.
2.1 Changement des supports de communication
La lumière, le cuivre et le silicium sont les principaux milieux de transmission. À l'ère de l'IA, les modules optiques visent des vitesses plus élevées tout en réduisant les coûts grâce à des solutions telles que LPO, LRO et le silicium photonique. Les câbles en cuivre occupent un avantage en matière de connexion dans les armoires grâce à leur rapport qualité-prix et à leur faible taux de défaillance. De nouvelles technologies telles que Chiplet et Wafer-scaling explorent les limites de l'interconnexion basée sur le silicium.
2.2 La concurrence des protocoles réseau
Les protocoles de communication entre les cartes graphiques, tels que NVLINK et Infinity Fabric, déterminent la limite de puissance de calcul par nœud, constituant un champ de bataille intense entre les géants. La compétition entre IB et Ethernet est le thème principal de la communication entre les nœuds.
2.3 Changements dans l'architecture réseau
L'architecture en feuille et en épine est couramment utilisée dans le réseau entre les nœuds actuels, offrant des avantages tels que la commodité, la simplicité et la stabilité. Cependant, avec l'augmentation du nombre de nœuds dans un seul cluster, l'architecture en feuille et en épine devient redondante dans les clusters super grands, entraînant des coûts réseau considérables. Des nouvelles solutions comme l'architecture Dragonfly et l'architecture rail-only pourraient devenir la direction d'évolution pour la prochaine génération de super grands clusters.
3. Conseils d'investissement
Éléments clés du système de communication : Zhongji Xuchuang, New Ease, Tianfu Communication, Hu Dian Co.
Innovations dans le système de communication : Yangtze Optical Fibre, Zhongtian Technology, Hengtong Optic-Electric, Shengke Communication.
4. Avertissement sur les risques
La demande d'IA est en deçà des attentes
Échec de la loi d'échelle
Intensification de la concurrence dans l'industrie
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
12 J'aime
Récompense
12
5
Partager
Commentaire
0/400
Layer2Observer
· 07-22 01:42
Arrête de parler, les fabricants de cartes graphiques se réjouissent en secret.
Voir l'originalRépondre0
OnchainDetective
· 07-21 23:07
Mélangez-vous un peu sur la chaîne publique, vous êtes habitué à être pris pour un idiot et à être éduqué.
Voir l'originalRépondre0
CryptoMotivator
· 07-21 23:06
Faisons des affaires, les frères !
Voir l'originalRépondre0
CommunitySlacker
· 07-21 22:59
En tournant et retournant, c'est toujours le réseau qui est en jeu.
Voir l'originalRépondre0
ShadowStaker
· 07-21 22:56
meh... la topologie du réseau n'est pas prête pour cette charge d'IA à vrai dire
L'explosion de la demande en ligne à l'ère de l'IA : explorer les innovations sectorielles et les opportunités d'investissement.
Réseau à l'ère de l'IA : sources de demande et directions d'innovation
Le réseau joue un rôle clé à l'ère des grands modèles d'IA. Avec la croissance rapide de l'échelle des grands modèles, les équipements réseau tels que les modules optiques et les commutateurs connaissent une explosion de la demande et une accélération de l'itération. Cet article partira des principes pour explorer pourquoi le réseau devient le nouveau point focal à l'ère de l'IA, et discutera des innovations et des opportunités d'investissement du côté réseau dans les changements industriels.
1. Source des exigences réseau
Entrant dans l'ère des grands modèles, l'écart entre la taille des modèles et la limite d'une seule carte graphique s'élargit rapidement, rendant les clusters de serveurs multiples un choix inévitable pour l'entraînement des modèles, ce qui constitue la base de l'importance accrue des réseaux à l'ère de l'IA. Contrairement au passé où ils étaient simplement utilisés pour le transfert de données, les réseaux sont maintenant davantage utilisés pour synchroniser les paramètres des modèles entre les cartes graphiques, ce qui impose des exigences plus élevées en matière de densité et de capacité des réseaux.
1.1 Modèles de plus en plus vastes
Temps d'entraînement = Taille des données d'entraînement × Nombre de paramètres du modèle / Taux de calcul Taux de calcul = Taux de calcul par appareil × Nombre d'appareils × Efficacité du parallélisme multi-appareils
Dans la double quête de l'échelle des données d'entraînement et des paramètres, seule une augmentation de l'efficacité de calcul peut réduire le temps d'entraînement. L'amélioration du taux de calcul sur un seul appareil a des cycles et des limitations, donc la manière d'utiliser le réseau pour élargir le "nombre d'appareils" et "l'efficacité parallèle" détermine directement le niveau de puissance de calcul.
1.2 Communication complexe de synchronisation multi-cartes
Dans le processus d'entraînement des grands modèles, après avoir divisé le modèle en cartes individuelles, chaque calcul nécessite un alignement entre les cartes. Dans des primitives de communication comme NCCL, les opérations All-to-All sont assez courantes, ce qui impose des exigences plus élevées en matière de transmission et d'échange de données.
1.3 Coût de défaillance coûteux
L'entraînement des grands modèles dure souvent plusieurs mois, et après une interruption, il est nécessaire de revenir au point d'arrêt pour reprendre l'entraînement. Toute défaillance ou latence élevée dans un maillon du réseau peut entraîner une interruption, augmentant les coûts et prolongeant les délais. Les réseaux d'IA modernes ont évolué pour devenir des systèmes d'ingénierie complexes comparables à des avions ou des porte-avions.
2. Directions de l'innovation numérique
Après deux ans de développement, l'échelle des investissements dans la puissance de calcul mondiale a atteint des centaines de milliards de dollars. Les paramètres du modèle continuent de s'élargir, et la concurrence entre les géants reste intense. Actuellement, "réduction des coûts", "ouverture" et équilibre de l'échelle de puissance de calcul sont devenus les principaux sujets d'innovation dans le réseau.
2.1 Changement des supports de communication
La lumière, le cuivre et le silicium sont les principaux milieux de transmission. À l'ère de l'IA, les modules optiques visent des vitesses plus élevées tout en réduisant les coûts grâce à des solutions telles que LPO, LRO et le silicium photonique. Les câbles en cuivre occupent un avantage en matière de connexion dans les armoires grâce à leur rapport qualité-prix et à leur faible taux de défaillance. De nouvelles technologies telles que Chiplet et Wafer-scaling explorent les limites de l'interconnexion basée sur le silicium.
2.2 La concurrence des protocoles réseau
Les protocoles de communication entre les cartes graphiques, tels que NVLINK et Infinity Fabric, déterminent la limite de puissance de calcul par nœud, constituant un champ de bataille intense entre les géants. La compétition entre IB et Ethernet est le thème principal de la communication entre les nœuds.
2.3 Changements dans l'architecture réseau
L'architecture en feuille et en épine est couramment utilisée dans le réseau entre les nœuds actuels, offrant des avantages tels que la commodité, la simplicité et la stabilité. Cependant, avec l'augmentation du nombre de nœuds dans un seul cluster, l'architecture en feuille et en épine devient redondante dans les clusters super grands, entraînant des coûts réseau considérables. Des nouvelles solutions comme l'architecture Dragonfly et l'architecture rail-only pourraient devenir la direction d'évolution pour la prochaine génération de super grands clusters.
3. Conseils d'investissement
Éléments clés du système de communication : Zhongji Xuchuang, New Ease, Tianfu Communication, Hu Dian Co.
Innovations dans le système de communication : Yangtze Optical Fibre, Zhongtian Technology, Hengtong Optic-Electric, Shengke Communication.
4. Avertissement sur les risques