La explosión de la demanda de redes en la era de la IA: explorando la innovación en la industria y las oportunidades de inversión

robot
Generación de resúmenes en curso

La red en la era de la IA: Fuente de demanda y dirección de innovación

La red juega un papel clave en la era de los grandes modelos de IA. Con el rápido crecimiento de la escala de los grandes modelos, dispositivos de red como módulos ópticos, conmutadores, etc. están experimentando una explosión de demanda y una aceleración de la iteración. Este artículo comenzará desde los principios para explorar por qué la red se ha convertido en el nuevo foco en la era de la IA, y discutirá las innovaciones y oportunidades de inversión en el lado de la red en medio de los cambios en la industria.

1. Origen de la demanda de la red

Entrando en la era de los grandes modelos, la diferencia entre la escala del modelo y el límite de una sola tarjeta se amplía rápidamente, convirtiendo los clústeres de múltiples servidores en una elección inevitable para resolver el entrenamiento de modelos, lo que constituye la base del aumento de la importancia de la red en la era de la IA. A diferencia de antes, cuando se usaba simplemente para la transmisión de datos, la red ahora se utiliza más para sincronizar los parámetros del modelo entre las tarjetas gráficas, lo que plantea mayores demandas en la densidad y capacidad de la red.

1.1 La creciente escala de modelos

Tiempo de entrenamiento = Escala de datos de entrenamiento × Cantidad de parámetros del modelo / Velocidad de cálculo Tasa de cálculo = Tasa de cálculo por dispositivo × Número de dispositivos × Eficiencia de paralelismo de múltiples dispositivos

Bajo la doble búsqueda de la escala de datos de entrenamiento y los parámetros, solo acelerando la mejora de la eficiencia computacional se puede acortar el tiempo de entrenamiento. La mejora de la velocidad de cálculo en un solo dispositivo tiene ciclos y limitaciones, por lo tanto, cómo utilizar la red para ampliar el "número de dispositivos" y la "eficiencia paralela" determina directamente el nivel de potencia computacional.

1.2 Comunicación compleja de múltiples tarjetas en sincronización

Durante el proceso de entrenamiento de grandes modelos, después de dividir el modelo en tarjetas individuales, es necesario alinear entre las tarjetas después de cada cálculo. En primitivas de comunicación como NCCL, operaciones como All-to-All son bastante comunes, lo que plantea mayores requisitos para la transmisión y el intercambio de redes.

1.3 Costos de fallos costosos

El entrenamiento de grandes modelos a menudo dura meses, y después de una interrupción, es necesario volver al punto de interrupción para reentrenar. Cualquier fallo o alta latencia en cualquier parte de la red puede causar una interrupción, aumentando los costos y prolongando el cronograma. Las redes modernas de IA se han desarrollado hasta convertirse en sistemas de ingeniería complejos que rivalizan con aviones, portaaviones, etc.

2. Direcciones de innovación en la red

Después de dos años de desarrollo, la escala de inversión en poder de cálculo a nivel mundial ha alcanzado cientos de miles de millones de dólares. Los parámetros del modelo continúan expandiéndose, y la competencia entre los gigantes sigue siendo feroz. Actualmente, "reducción de costos", "apertura" y el equilibrio en la escala de poder de cálculo se han convertido en los principales temas de innovación en la red.

2.1 Cambio de medios de comunicación

La luz, el cobre y el silicio son los principales medios de transmisión. En la era de la IA, los módulos ópticos buscan velocidades más altas mientras también reducen costos a través de soluciones como LPO, LRO y silicio fotónico. Los cables de cobre dominan las conexiones en los racks gracias a su relación costo-beneficio y baja tasa de fallos. Nuevas tecnologías como Chiplet y Wafer-scaling están explorando los límites de la interconexión basada en silicio.

2.2 Competencia de protocolos de red

El protocolo de comunicación entre chips y la fuerte vinculación con las tarjetas gráficas, como NVLINK, Infinity Fabric, etc., determinan el límite superior del poder de cálculo en un solo nodo, siendo un campo de batalla feroz entre los gigantes. La competencia entre IB y Ethernet es el tema principal de la comunicación entre nodos.

2.3 Cambios en la arquitectura de la red

La red entre los nodos actuales generalmente utiliza una arquitectura de hoja y nervio, que tiene ventajas como conveniencia, simplicidad y estabilidad. Sin embargo, a medida que aumenta el número de nodos en un solo clúster, la arquitectura de hoja y nervio se vuelve redundante en clústeres extremadamente grandes, lo que genera altos costos de red. Nuevas soluciones como la arquitectura Dragonfly y la arquitectura solo rail tienen el potencial de convertirse en la dirección evolutiva para la próxima generación de clústeres extremadamente grandes.

3. Sugerencias de inversión

Elementos clave del sistema de comunicación: Zhongji Xuchuang, New Vision, Tianfu Communication, Huadian Co.

Innovación en el sistema de comunicación: Fibra óptica Changfei, Tecnología Zhongtian, Hengtong Optoelectronics, Comunicación Shengke.

4. Advertencia de riesgos

  1. La demanda de IA no cumple con las expectativas
  2. La ley de escalamiento ha fallado
  3. La competencia en la industria se intensifica
ETH-1.35%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 5
  • Compartir
Comentar
0/400
Layer2Observervip
· hace15h
Deja de hablar, los fabricantes de tarjetas gráficas están celebrando en secreto.
Ver originalesResponder0
OnchainDetectivevip
· hace17h
En la cadena pública, simplemente mezcla un poco. Ya estoy acostumbrado a ser tomado por tonto y educado.
Ver originalesResponder0
CryptoMotivatorvip
· hace17h
¡Hagamos una oportunidad, hermanos!
Ver originalesResponder0
CommunitySlackervip
· hace17h
Freír y freír, sigue siendo freír la red
Ver originalesResponder0
ShadowStakervip
· hace18h
meh... la topología de la red no está lista para esta carga de IA, para ser honesto
Ver originalesResponder0
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)