La red en la era de la IA: Fuente de demanda y dirección de innovación
La red juega un papel clave en la era de los grandes modelos de IA. Con el rápido crecimiento de la escala de los grandes modelos, dispositivos de red como módulos ópticos, conmutadores, etc. están experimentando una explosión de demanda y una aceleración de la iteración. Este artículo comenzará desde los principios para explorar por qué la red se ha convertido en el nuevo foco en la era de la IA, y discutirá las innovaciones y oportunidades de inversión en el lado de la red en medio de los cambios en la industria.
1. Origen de la demanda de la red
Entrando en la era de los grandes modelos, la diferencia entre la escala del modelo y el límite de una sola tarjeta se amplía rápidamente, convirtiendo los clústeres de múltiples servidores en una elección inevitable para resolver el entrenamiento de modelos, lo que constituye la base del aumento de la importancia de la red en la era de la IA. A diferencia de antes, cuando se usaba simplemente para la transmisión de datos, la red ahora se utiliza más para sincronizar los parámetros del modelo entre las tarjetas gráficas, lo que plantea mayores demandas en la densidad y capacidad de la red.
1.1 La creciente escala de modelos
Tiempo de entrenamiento = Escala de datos de entrenamiento × Cantidad de parámetros del modelo / Velocidad de cálculo
Tasa de cálculo = Tasa de cálculo por dispositivo × Número de dispositivos × Eficiencia de paralelismo de múltiples dispositivos
Bajo la doble búsqueda de la escala de datos de entrenamiento y los parámetros, solo acelerando la mejora de la eficiencia computacional se puede acortar el tiempo de entrenamiento. La mejora de la velocidad de cálculo en un solo dispositivo tiene ciclos y limitaciones, por lo tanto, cómo utilizar la red para ampliar el "número de dispositivos" y la "eficiencia paralela" determina directamente el nivel de potencia computacional.
1.2 Comunicación compleja de múltiples tarjetas en sincronización
Durante el proceso de entrenamiento de grandes modelos, después de dividir el modelo en tarjetas individuales, es necesario alinear entre las tarjetas después de cada cálculo. En primitivas de comunicación como NCCL, operaciones como All-to-All son bastante comunes, lo que plantea mayores requisitos para la transmisión y el intercambio de redes.
1.3 Costos de fallos costosos
El entrenamiento de grandes modelos a menudo dura meses, y después de una interrupción, es necesario volver al punto de interrupción para reentrenar. Cualquier fallo o alta latencia en cualquier parte de la red puede causar una interrupción, aumentando los costos y prolongando el cronograma. Las redes modernas de IA se han desarrollado hasta convertirse en sistemas de ingeniería complejos que rivalizan con aviones, portaaviones, etc.
2. Direcciones de innovación en la red
Después de dos años de desarrollo, la escala de inversión en poder de cálculo a nivel mundial ha alcanzado cientos de miles de millones de dólares. Los parámetros del modelo continúan expandiéndose, y la competencia entre los gigantes sigue siendo feroz. Actualmente, "reducción de costos", "apertura" y el equilibrio en la escala de poder de cálculo se han convertido en los principales temas de innovación en la red.
2.1 Cambio de medios de comunicación
La luz, el cobre y el silicio son los principales medios de transmisión. En la era de la IA, los módulos ópticos buscan velocidades más altas mientras también reducen costos a través de soluciones como LPO, LRO y silicio fotónico. Los cables de cobre dominan las conexiones en los racks gracias a su relación costo-beneficio y baja tasa de fallos. Nuevas tecnologías como Chiplet y Wafer-scaling están explorando los límites de la interconexión basada en silicio.
2.2 Competencia de protocolos de red
El protocolo de comunicación entre chips y la fuerte vinculación con las tarjetas gráficas, como NVLINK, Infinity Fabric, etc., determinan el límite superior del poder de cálculo en un solo nodo, siendo un campo de batalla feroz entre los gigantes. La competencia entre IB y Ethernet es el tema principal de la comunicación entre nodos.
2.3 Cambios en la arquitectura de la red
La red entre los nodos actuales generalmente utiliza una arquitectura de hoja y nervio, que tiene ventajas como conveniencia, simplicidad y estabilidad. Sin embargo, a medida que aumenta el número de nodos en un solo clúster, la arquitectura de hoja y nervio se vuelve redundante en clústeres extremadamente grandes, lo que genera altos costos de red. Nuevas soluciones como la arquitectura Dragonfly y la arquitectura solo rail tienen el potencial de convertirse en la dirección evolutiva para la próxima generación de clústeres extremadamente grandes.
3. Sugerencias de inversión
Elementos clave del sistema de comunicación: Zhongji Xuchuang, New Vision, Tianfu Communication, Huadian Co.
Innovación en el sistema de comunicación: Fibra óptica Changfei, Tecnología Zhongtian, Hengtong Optoelectronics, Comunicación Shengke.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
12 me gusta
Recompensa
12
5
Compartir
Comentar
0/400
Layer2Observer
· hace15h
Deja de hablar, los fabricantes de tarjetas gráficas están celebrando en secreto.
Ver originalesResponder0
OnchainDetective
· hace17h
En la cadena pública, simplemente mezcla un poco. Ya estoy acostumbrado a ser tomado por tonto y educado.
Ver originalesResponder0
CryptoMotivator
· hace17h
¡Hagamos una oportunidad, hermanos!
Ver originalesResponder0
CommunitySlacker
· hace17h
Freír y freír, sigue siendo freír la red
Ver originalesResponder0
ShadowStaker
· hace18h
meh... la topología de la red no está lista para esta carga de IA, para ser honesto
La explosión de la demanda de redes en la era de la IA: explorando la innovación en la industria y las oportunidades de inversión
La red en la era de la IA: Fuente de demanda y dirección de innovación
La red juega un papel clave en la era de los grandes modelos de IA. Con el rápido crecimiento de la escala de los grandes modelos, dispositivos de red como módulos ópticos, conmutadores, etc. están experimentando una explosión de demanda y una aceleración de la iteración. Este artículo comenzará desde los principios para explorar por qué la red se ha convertido en el nuevo foco en la era de la IA, y discutirá las innovaciones y oportunidades de inversión en el lado de la red en medio de los cambios en la industria.
1. Origen de la demanda de la red
Entrando en la era de los grandes modelos, la diferencia entre la escala del modelo y el límite de una sola tarjeta se amplía rápidamente, convirtiendo los clústeres de múltiples servidores en una elección inevitable para resolver el entrenamiento de modelos, lo que constituye la base del aumento de la importancia de la red en la era de la IA. A diferencia de antes, cuando se usaba simplemente para la transmisión de datos, la red ahora se utiliza más para sincronizar los parámetros del modelo entre las tarjetas gráficas, lo que plantea mayores demandas en la densidad y capacidad de la red.
1.1 La creciente escala de modelos
Tiempo de entrenamiento = Escala de datos de entrenamiento × Cantidad de parámetros del modelo / Velocidad de cálculo Tasa de cálculo = Tasa de cálculo por dispositivo × Número de dispositivos × Eficiencia de paralelismo de múltiples dispositivos
Bajo la doble búsqueda de la escala de datos de entrenamiento y los parámetros, solo acelerando la mejora de la eficiencia computacional se puede acortar el tiempo de entrenamiento. La mejora de la velocidad de cálculo en un solo dispositivo tiene ciclos y limitaciones, por lo tanto, cómo utilizar la red para ampliar el "número de dispositivos" y la "eficiencia paralela" determina directamente el nivel de potencia computacional.
1.2 Comunicación compleja de múltiples tarjetas en sincronización
Durante el proceso de entrenamiento de grandes modelos, después de dividir el modelo en tarjetas individuales, es necesario alinear entre las tarjetas después de cada cálculo. En primitivas de comunicación como NCCL, operaciones como All-to-All son bastante comunes, lo que plantea mayores requisitos para la transmisión y el intercambio de redes.
1.3 Costos de fallos costosos
El entrenamiento de grandes modelos a menudo dura meses, y después de una interrupción, es necesario volver al punto de interrupción para reentrenar. Cualquier fallo o alta latencia en cualquier parte de la red puede causar una interrupción, aumentando los costos y prolongando el cronograma. Las redes modernas de IA se han desarrollado hasta convertirse en sistemas de ingeniería complejos que rivalizan con aviones, portaaviones, etc.
2. Direcciones de innovación en la red
Después de dos años de desarrollo, la escala de inversión en poder de cálculo a nivel mundial ha alcanzado cientos de miles de millones de dólares. Los parámetros del modelo continúan expandiéndose, y la competencia entre los gigantes sigue siendo feroz. Actualmente, "reducción de costos", "apertura" y el equilibrio en la escala de poder de cálculo se han convertido en los principales temas de innovación en la red.
2.1 Cambio de medios de comunicación
La luz, el cobre y el silicio son los principales medios de transmisión. En la era de la IA, los módulos ópticos buscan velocidades más altas mientras también reducen costos a través de soluciones como LPO, LRO y silicio fotónico. Los cables de cobre dominan las conexiones en los racks gracias a su relación costo-beneficio y baja tasa de fallos. Nuevas tecnologías como Chiplet y Wafer-scaling están explorando los límites de la interconexión basada en silicio.
2.2 Competencia de protocolos de red
El protocolo de comunicación entre chips y la fuerte vinculación con las tarjetas gráficas, como NVLINK, Infinity Fabric, etc., determinan el límite superior del poder de cálculo en un solo nodo, siendo un campo de batalla feroz entre los gigantes. La competencia entre IB y Ethernet es el tema principal de la comunicación entre nodos.
2.3 Cambios en la arquitectura de la red
La red entre los nodos actuales generalmente utiliza una arquitectura de hoja y nervio, que tiene ventajas como conveniencia, simplicidad y estabilidad. Sin embargo, a medida que aumenta el número de nodos en un solo clúster, la arquitectura de hoja y nervio se vuelve redundante en clústeres extremadamente grandes, lo que genera altos costos de red. Nuevas soluciones como la arquitectura Dragonfly y la arquitectura solo rail tienen el potencial de convertirse en la dirección evolutiva para la próxima generación de clústeres extremadamente grandes.
3. Sugerencias de inversión
Elementos clave del sistema de comunicación: Zhongji Xuchuang, New Vision, Tianfu Communication, Huadian Co.
Innovación en el sistema de comunicación: Fibra óptica Changfei, Tecnología Zhongtian, Hengtong Optoelectronics, Comunicación Shengke.
4. Advertencia de riesgos