Сеть эпохи ИИ: источники спроса и направления инноваций
Сеть играет ключевую роль в эпоху больших моделей ИИ. С быстрым ростом масштаба больших моделей, сетевые устройства, такие как оптические модули, коммутаторы и т.д., встречают爆发需求 и ускорение итераций. В этой статье мы начнем с принципов и обсудим, почему сеть становится новым фокусом эпохи ИИ, а также рассмотрим инновации и инвестиционные возможности на стороне сети в условиях изменений в отрасли.
1. Источник сетевых требований
В эпоху больших моделей разрыв между масштабом модели и пределом одной карты быстро увеличивается, многосерверные кластеры становятся необходимым выбором для решения задач обучения моделей, что составляет основу для повышения важности сети в эпоху ИИ. В отличие от прошлого, когда сеть использовалась исключительно для передачи данных, теперь сеть больше используется для синхронизации параметров моделей между видеокартами, что предъявляет более высокие требования к плотности и ёмкости сети.
1.1 Растущие размеры моделей
Время тренировки = Объем тренировочных данных × Количество параметров модели / Скорость вычислений
Скорость вычислений = скорость вычислений одного устройства × количество устройств × эффективность параллельных вычислений нескольких устройств
В условиях двойного стремления к масштабам обучающих данных и параметрам только ускорение повышения вычислительной эффективности может сократить время обучения. Повышение скорости вычислений на одном устройстве имеет свои циклы и ограничения, поэтому то, как использовать сеть для увеличения "числа устройств" и "параллельной эффективности", напрямую определяет уровень вычислительной мощности.
1.2 Сложная коммуникация многокарт синхронизации
В процессе обучения больших моделей, после разделения модели на отдельные карты, необходимо производить выравнивание между картами после каждого вычисления. В таких коммуникационных примитивах, как NCCL, операции All-to-All довольно распространены, что предъявляет более высокие требования к сетевой передаче и обмену.
1.3 Дорогие затраты на неисправности
Обучение больших моделей часто продолжается несколько месяцев, и после прерывания необходимо возвращаться к контрольной точке для повторного обучения. Любой сбой или высокая задержка на любом этапе сети могут привести к прерыванию, увеличивая затраты и затягивая сроки. Современные ИИ-сети развились в сложные системные инженерные проекты, сопоставимые с самолетами и авианосцами.
2. Направления сетевых инноваций
После двух лет развития глобальные инвестиции в вычислительную мощность достигли уровня в несколько сотен миллиардов долларов. Параметры моделей продолжают расширяться, конкуренция между гигантами по-прежнему ожесточенная. В настоящее время основные темы сетевых инноваций - это "снижение затрат", "открытость" и сбалансированность масштабов вычислительной мощности.
2.1 Смена коммуникационных сред
Свет, медь и кремний являются основными средствами передачи. В эпоху ИИ оптические модули стремятся к более высокой скорости, одновременно снижая затраты с помощью LPO, LRO и кремниевых оптических решений. Медные кабели занимают преимущество в соединениях внутри шкафов благодаря оптимальному соотношению цена-качество и низкому уровню отказов. Новые технологии, такие как Chiplet и Wafer-scaling, исследуют пределы кремниевых соединений.
2.2 Конкуренция сетевых протоколов
Протоколы связи между чипами и тесная привязка к видеокартам, такие как NVLINK и Infinity Fabric, определяют предел вычислительной мощности одного узла и являются ареной жесткой конкуренции между гигантами. Конкуренция между IB и Ethernet является основной темой связи между узлами.
2.3 Изменения в сетевой архитектуре
Текущие сети между узлами в основном используют архитектуру листа и стебля, которая обладает такими преимуществами, как удобство, простота и стабильность. Однако с увеличением числа узлов в одном кластере архитектура листа и стебля проявляет избыточность в сверхбольших кластерах, что приводит к значительным сетевым затратам. Архитектуры Dragonfly, rail-only и другие новые решения могут стать эволюционным направлением для следующего поколения сверхбольших кластеров.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
12 Лайков
Награда
12
5
Поделиться
комментарий
0/400
Layer2Observer
· 15ч назад
Не говори ерунды, производители видеокарт тайно ликуют.
Посмотреть ОригиналОтветить0
OnchainDetective
· 17ч назад
На публичном блокчейне просто развлекайтесь, уже привыкли к тому, что вас разыгрывают как лохов и учат.
Посмотреть ОригиналОтветить0
CryptoMotivator
· 17ч назад
Давайте сделаем это, братья!
Посмотреть ОригиналОтветить0
CommunitySlacker
· 18ч назад
Жарить и жарить, все равно жарим сеть
Посмотреть ОригиналОтветить0
ShadowStaker
· 18ч назад
meh... топология сети не готова к этой нагрузке ИИ, если честно
В эпоху ИИ спрос на интернет растет, исследуя инновации в отрасли и инвестиционные возможности
Сеть эпохи ИИ: источники спроса и направления инноваций
Сеть играет ключевую роль в эпоху больших моделей ИИ. С быстрым ростом масштаба больших моделей, сетевые устройства, такие как оптические модули, коммутаторы и т.д., встречают爆发需求 и ускорение итераций. В этой статье мы начнем с принципов и обсудим, почему сеть становится новым фокусом эпохи ИИ, а также рассмотрим инновации и инвестиционные возможности на стороне сети в условиях изменений в отрасли.
1. Источник сетевых требований
В эпоху больших моделей разрыв между масштабом модели и пределом одной карты быстро увеличивается, многосерверные кластеры становятся необходимым выбором для решения задач обучения моделей, что составляет основу для повышения важности сети в эпоху ИИ. В отличие от прошлого, когда сеть использовалась исключительно для передачи данных, теперь сеть больше используется для синхронизации параметров моделей между видеокартами, что предъявляет более высокие требования к плотности и ёмкости сети.
1.1 Растущие размеры моделей
Время тренировки = Объем тренировочных данных × Количество параметров модели / Скорость вычислений Скорость вычислений = скорость вычислений одного устройства × количество устройств × эффективность параллельных вычислений нескольких устройств
В условиях двойного стремления к масштабам обучающих данных и параметрам только ускорение повышения вычислительной эффективности может сократить время обучения. Повышение скорости вычислений на одном устройстве имеет свои циклы и ограничения, поэтому то, как использовать сеть для увеличения "числа устройств" и "параллельной эффективности", напрямую определяет уровень вычислительной мощности.
1.2 Сложная коммуникация многокарт синхронизации
В процессе обучения больших моделей, после разделения модели на отдельные карты, необходимо производить выравнивание между картами после каждого вычисления. В таких коммуникационных примитивах, как NCCL, операции All-to-All довольно распространены, что предъявляет более высокие требования к сетевой передаче и обмену.
1.3 Дорогие затраты на неисправности
Обучение больших моделей часто продолжается несколько месяцев, и после прерывания необходимо возвращаться к контрольной точке для повторного обучения. Любой сбой или высокая задержка на любом этапе сети могут привести к прерыванию, увеличивая затраты и затягивая сроки. Современные ИИ-сети развились в сложные системные инженерные проекты, сопоставимые с самолетами и авианосцами.
2. Направления сетевых инноваций
После двух лет развития глобальные инвестиции в вычислительную мощность достигли уровня в несколько сотен миллиардов долларов. Параметры моделей продолжают расширяться, конкуренция между гигантами по-прежнему ожесточенная. В настоящее время основные темы сетевых инноваций - это "снижение затрат", "открытость" и сбалансированность масштабов вычислительной мощности.
2.1 Смена коммуникационных сред
Свет, медь и кремний являются основными средствами передачи. В эпоху ИИ оптические модули стремятся к более высокой скорости, одновременно снижая затраты с помощью LPO, LRO и кремниевых оптических решений. Медные кабели занимают преимущество в соединениях внутри шкафов благодаря оптимальному соотношению цена-качество и низкому уровню отказов. Новые технологии, такие как Chiplet и Wafer-scaling, исследуют пределы кремниевых соединений.
2.2 Конкуренция сетевых протоколов
Протоколы связи между чипами и тесная привязка к видеокартам, такие как NVLINK и Infinity Fabric, определяют предел вычислительной мощности одного узла и являются ареной жесткой конкуренции между гигантами. Конкуренция между IB и Ethernet является основной темой связи между узлами.
2.3 Изменения в сетевой архитектуре
Текущие сети между узлами в основном используют архитектуру листа и стебля, которая обладает такими преимуществами, как удобство, простота и стабильность. Однако с увеличением числа узлов в одном кластере архитектура листа и стебля проявляет избыточность в сверхбольших кластерах, что приводит к значительным сетевым затратам. Архитектуры Dragonfly, rail-only и другие новые решения могут стать эволюционным направлением для следующего поколения сверхбольших кластеров.
3. Инвестиционные рекомендации
Ключевые элементы телекоммуникационной системы: Zhongji Xuchuang, Xinyi Sheng, Tianfu Communication, Hudian Co., Ltd.
Инновационные элементы в телекоммуникационных системах: Longi Fiber, Zhongtian Technology, Hengtong Optic-Electric, Shengke Communication.
4. Уведомление о рисках