A explosão da demanda na rede na era da IA: explorando inovações industriais e oportunidades de investimento

robot
Geração de resumo em curso

A Rede na Era da IA: Fonte de Demanda e Direções de Inovação

A rede desempenha um papel crucial na era dos grandes modelos de IA. Com o rápido crescimento da escala dos grandes modelos, dispositivos de rede como módulos ópticos e switches estão enfrentando uma explosão de demanda e uma aceleração na iteração. Este artigo abordará os princípios para explorar por que a rede se tornou o novo foco na era da IA e discutirá as inovações e oportunidades de investimento no lado da rede durante as mudanças na indústria.

1. Origem da demanda da rede

Entrando na era dos grandes modelos, a diferença de escala entre os modelos e o limite de uma única placa gráfica está a aumentar rapidamente, tornando os clusters de múltiplos servidores uma escolha inevitável para a formação de modelos, o que constitui a base para a importância crescente da rede na era da IA. Ao contrário do passado, em que a rede era utilizada apenas para a transmissão de dados, agora a rede é mais utilizada para sincronizar os parâmetros dos modelos entre as placas gráficas, exigindo uma maior densidade e capacidade de rede.

1.1 O tamanho cada vez maior dos modelos

Tempo de treino = Escala de dados de treino × Quantidade de parâmetros do modelo / Taxa de cálculo Taxa de cálculo = Taxa de cálculo por dispositivo × Número de dispositivos × Eficiência de paralelismo em múltiplos dispositivos

Na busca dupla pela escala dos dados de treinamento e pelos parâmetros, só acelerar a eficiência computacional pode reduzir o tempo de treinamento. O aumento da taxa de cálculo em um único dispositivo tem ciclos e limitações, portanto, como utilizar a rede para ampliar o "número de dispositivos" e a "eficiência paralela" determina diretamente o nível de poder computacional.

1.2 Comunicação complexa de múltiplos cartões em sincronização

Durante o processo de treinamento de grandes modelos, após dividir o modelo para uma única placa, é necessário alinhar entre as placas após cada cálculo. Em primitivas de comunicação como NCCL, operações como All-to-All são bastante comuns, o que impõe exigências mais altas para a transmissão e troca de dados na rede.

1.3 Custo de falha caro

O treinamento de grandes modelos geralmente dura meses, e após uma interrupção, é necessário retornar ao ponto de interrupção para recomeçar o treinamento. Qualquer falha ou alta latência em qualquer parte da rede pode causar interrupções, aumentando os custos e prolongando o cronograma. As redes de IA modernas evoluíram para sistemas de engenharia complexos comparáveis a aviões, porta-aviões e outros.

2. Direção da Inovação na Rede

Após dois anos de desenvolvimento, o investimento global em poder de computação atingiu a casa das centenas de bilhões de dólares. Os parâmetros do modelo continuam a se expandir, e a competição entre os gigantes permanece acirrada. Atualmente, "redução de custos", "abertura" e o equilíbrio na escala de poder de computação tornaram-se os principais tópicos da inovação na rede.

2.1 A substituição dos meios de comunicação

A luz, o cobre e o silício são os principais meios de transmissão. Na era da IA, os módulos de luz buscam taxas de transmissão mais altas, ao mesmo tempo que reduzem custos através de soluções como LPO, LRO e silício fotônico. Os cabos de cobre dominam a conexão dentro dos racks devido à sua relação custo-benefício e baixa taxa de falhas. Novas tecnologias como Chiplet e Wafer-scaling estão explorando os limites da interconexão baseada em silício.

2.2 Competição de protocolos de rede

Os protocolos de comunicação entre chips e a forte ligação das placas gráficas, como NVLINK e Infinity Fabric, determinam o limite de capacidade computacional de um único nó, sendo um campo de batalha intenso entre os gigantes. A competição entre IB e Ethernet é a principal melodia da comunicação entre nós.

2.3 Mudanças na arquitetura de rede

A arquitetura de folha e espinha é amplamente utilizada entre os nós de rede atuais, apresentando vantagens de conveniência, simplicidade e estabilidade. No entanto, à medida que o número de nós em um único cluster aumenta, a arquitetura de folha e espinha torna-se redundante em clusters super grandes, acarretando custos de rede consideráveis. Novas soluções, como a arquitetura Dragonfly e a arquitetura apenas ferroviária, têm potencial para se tornarem direções de evolução voltadas para a próxima geração de clusters super grandes.

3. Sugestões de Investimento

Núcleo do sistema de comunicação: Zhongji Xuchuang, Xinyi Sheng, Tianfu Communication, Hudian Co., Ltd.

Inovação no sistema de comunicação: Yangtze Optical, Zhongtian Technology, Hengtong Optic-Electric, Shengke Communication.

4. Aviso de Risco

  1. A demanda por IA não atendeu às expectativas
  2. Lei de escalabilidade falhou
  3. A competição na indústria intensifica-se
ETH-1.35%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 5
  • Partilhar
Comentar
0/400
Layer2Observervip
· 15h atrás
Não me faça rir. Os fabricantes de placas gráficas estão se regozijando nas sombras.
Ver originalResponder0
OnchainDetectivevip
· 17h atrás
Na cadeia, misture-se à vontade, já estou habituado a ser feito de parvo e a ser educado.
Ver originalResponder0
CryptoMotivatorvip
· 17h atrás
Vamos aproveitar a oportunidade, irmãos!
Ver originalResponder0
CommunitySlackervip
· 18h atrás
Fritando e fritando, ainda é fritar a rede
Ver originalResponder0
ShadowStakervip
· 18h atrás
meh... a topologia da rede não está pronta para esta carga de IA, para ser sincero
Ver originalResponder0
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)