Mạng đóng vai trò quan trọng trong thời đại mô hình AI lớn. Với sự tăng trưởng nhanh chóng về quy mô của các mô hình lớn, các thiết bị mạng như mô-đun quang, công tắc, v.v. đã chứng kiến sự bùng nổ nhu cầu và gia tăng tốc độ phát triển. Bài viết này sẽ xuất phát từ nguyên lý, khám phá lý do tại sao mạng trở thành tâm điểm mới trong thời đại AI, và thảo luận về những cơ hội đổi mới và đầu tư trong mạng trong bối cảnh biến đổi ngành.
1. Nguồn gốc của nhu cầu mạng
Bước vào thời đại mô hình lớn, sự chênh lệch giữa quy mô mô hình và giới hạn trên một thẻ nhanh chóng mở rộng, cụm máy chủ đa trở thành lựa chọn cần thiết để giải quyết việc đào tạo mô hình, điều này tạo thành nền tảng cho sự gia tăng tầm quan trọng của mạng trong thời đại AI. Khác với việc chỉ sử dụng để truyền dữ liệu trong quá khứ, mạng hiện nay chủ yếu được sử dụng để đồng bộ hóa các tham số mô hình giữa các thẻ đồ họa, đặt ra yêu cầu cao hơn về mật độ và dung lượng mạng.
1.1 Quy mô mô hình ngày càng lớn
Thời gian huấn luyện = Quy mô dữ liệu huấn luyện × Số lượng tham số mô hình / Tốc độ tính toán
Tốc độ tính toán = Tốc độ tính toán của một thiết bị × Số lượng thiết bị × Hiệu suất song song của nhiều thiết bị
Dưới sự theo đuổi kép về quy mô dữ liệu huấn luyện và tham số, chỉ có tăng tốc nâng cao hiệu quả tính toán mới có thể rút ngắn thời gian huấn luyện. Việc nâng cao tốc độ tính toán trên một thiết bị đơn có những chu kỳ và giới hạn, vì vậy cách sử dụng mạng để mở rộng "số lượng thiết bị" và "hiệu suất song song" quyết định trực tiếp đến cấp độ tính toán.
1.2 Sự giao tiếp phức tạp của nhiều thẻ đồng bộ
Trong quá trình huấn luyện mô hình lớn, sau khi chia mô hình thành từng thẻ đơn, mỗi lần tính toán, cần phải thực hiện việc căn chỉnh giữa các thẻ đơn. Trong các nguyên thủy giao tiếp như NCCL, các thao tác All-to-All khá phổ biến, điều này đặt ra yêu cầu cao hơn cho việc truyền tải và trao đổi mạng.
1.3 Chi phí lỗi tốn kém
Việc đào tạo mô hình lớn thường kéo dài hàng tháng, sau khi bị gián đoạn cần quay lại điểm dừng để đào tạo lại. Bất kỳ sự cố hoặc độ trễ cao nào trong một khâu của mạng đều có thể dẫn đến gián đoạn, tăng chi phí và kéo dài tiến độ. Mạng AI hiện đại đã phát triển thành một hệ thống kỹ thuật phức tạp tương đương với máy bay, tàu sân bay, v.v.
2. Hướng đi của đổi mới mạng
Sau hai năm phát triển, quy mô đầu tư sức mạnh tính toán toàn cầu đã đạt hàng trăm tỷ USD. Các tham số mô hình tiếp tục mở rộng, cạnh tranh giữa các ông lớn vẫn rất gay gắt. Hiện tại, "giảm chi phí", "mở cửa" và cân bằng quy mô sức mạnh tính toán trở thành những chủ đề chính của đổi mới mạng.
2.1 Sự thay đổi của môi trường truyền thông
Ánh sáng, đồng và silicon là các phương tiện truyền tải chính. Trong thời đại AI, các mô-đun quang không chỉ theo đuổi tốc độ cao hơn mà còn giảm chi phí thông qua các giải pháp như LPO, LRO, quang silicon. Cáp đồng chiếm ưu thế trong kết nối trong tủ với tỷ lệ giá cả và độ tin cậy thấp. Các công nghệ mới như Chiplet, Wafer-scaling đang khám phá giới hạn của kết nối dựa trên silicon.
2.2 Cạnh tranh giao thức mạng
Giao thức truyền thông giữa các mảnh và sự ràng buộc chặt chẽ với card đồ họa, như NVLINK, Infinity Fabric, quyết định giới hạn sức mạnh tính toán của một nút, là chiến trường khốc liệt giữa các ông lớn. Cạnh tranh giữa IB và Ethernet thì là giai điệu chính trong truyền thông giữa các nút.
2.3 Sự thay đổi trong kiến trúc mạng
Mạng giữa các nút hiện tại thường sử dụng kiến trúc lá và thân, có ưu điểm tiện lợi, đơn giản và ổn định. Tuy nhiên, với sự gia tăng số lượng nút trong một cụm đơn, kiến trúc lá và thân trở nên thừa thãi trong các cụm siêu lớn, dẫn đến chi phí mạng lớn. Các giải pháp mới như kiến trúc Dragonfly, kiến trúc chỉ ray có thể trở thành hướng phát triển cho các cụm siêu lớn thế hệ tiếp theo.
3. Đề xuất đầu tư
Các khâu cốt lõi của hệ thống truyền thông: Zhongji Xuchuang, New Ease, Tianfu Communication, Hode Electronics.
Các giai đoạn đổi mới hệ thống thông tin: Longfly Fiber, Zhongtian Technology, Hengtong Optics, Shengke Communication.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
12 thích
Phần thưởng
12
5
Chia sẻ
Bình luận
0/400
Layer2Observer
· 22giờ trước
Đừng nói linh tinh nữa, các nhà sản xuất card đồ họa đang vui mừng trong bí mật.
Xem bản gốcTrả lời0
OnchainDetective
· 07-21 23:07
Cứ chơi đùa với mọi người trên chuỗi công khai đi, bị割 bị giáo dục cũng đã quen rồi.
Xem bản gốcTrả lời0
CryptoMotivator
· 07-21 23:06
Có cơ hội rồi, các anh em!
Xem bản gốcTrả lời0
CommunitySlacker
· 07-21 22:59
Xào qua xào lại vẫn là xào mạng
Xem bản gốcTrả lời0
ShadowStaker
· 07-21 22:56
meh... cấu trúc mạng chưa sẵn sàng cho tải ai này thật lòng mà nói
Bùng nổ nhu cầu mạng trong thời đại AI: Khám phá đổi mới ngành và cơ hội đầu tư
Mạng lưới thời đại AI: Nguồn cầu và hướng đổi mới
Mạng đóng vai trò quan trọng trong thời đại mô hình AI lớn. Với sự tăng trưởng nhanh chóng về quy mô của các mô hình lớn, các thiết bị mạng như mô-đun quang, công tắc, v.v. đã chứng kiến sự bùng nổ nhu cầu và gia tăng tốc độ phát triển. Bài viết này sẽ xuất phát từ nguyên lý, khám phá lý do tại sao mạng trở thành tâm điểm mới trong thời đại AI, và thảo luận về những cơ hội đổi mới và đầu tư trong mạng trong bối cảnh biến đổi ngành.
1. Nguồn gốc của nhu cầu mạng
Bước vào thời đại mô hình lớn, sự chênh lệch giữa quy mô mô hình và giới hạn trên một thẻ nhanh chóng mở rộng, cụm máy chủ đa trở thành lựa chọn cần thiết để giải quyết việc đào tạo mô hình, điều này tạo thành nền tảng cho sự gia tăng tầm quan trọng của mạng trong thời đại AI. Khác với việc chỉ sử dụng để truyền dữ liệu trong quá khứ, mạng hiện nay chủ yếu được sử dụng để đồng bộ hóa các tham số mô hình giữa các thẻ đồ họa, đặt ra yêu cầu cao hơn về mật độ và dung lượng mạng.
1.1 Quy mô mô hình ngày càng lớn
Thời gian huấn luyện = Quy mô dữ liệu huấn luyện × Số lượng tham số mô hình / Tốc độ tính toán Tốc độ tính toán = Tốc độ tính toán của một thiết bị × Số lượng thiết bị × Hiệu suất song song của nhiều thiết bị
Dưới sự theo đuổi kép về quy mô dữ liệu huấn luyện và tham số, chỉ có tăng tốc nâng cao hiệu quả tính toán mới có thể rút ngắn thời gian huấn luyện. Việc nâng cao tốc độ tính toán trên một thiết bị đơn có những chu kỳ và giới hạn, vì vậy cách sử dụng mạng để mở rộng "số lượng thiết bị" và "hiệu suất song song" quyết định trực tiếp đến cấp độ tính toán.
1.2 Sự giao tiếp phức tạp của nhiều thẻ đồng bộ
Trong quá trình huấn luyện mô hình lớn, sau khi chia mô hình thành từng thẻ đơn, mỗi lần tính toán, cần phải thực hiện việc căn chỉnh giữa các thẻ đơn. Trong các nguyên thủy giao tiếp như NCCL, các thao tác All-to-All khá phổ biến, điều này đặt ra yêu cầu cao hơn cho việc truyền tải và trao đổi mạng.
1.3 Chi phí lỗi tốn kém
Việc đào tạo mô hình lớn thường kéo dài hàng tháng, sau khi bị gián đoạn cần quay lại điểm dừng để đào tạo lại. Bất kỳ sự cố hoặc độ trễ cao nào trong một khâu của mạng đều có thể dẫn đến gián đoạn, tăng chi phí và kéo dài tiến độ. Mạng AI hiện đại đã phát triển thành một hệ thống kỹ thuật phức tạp tương đương với máy bay, tàu sân bay, v.v.
2. Hướng đi của đổi mới mạng
Sau hai năm phát triển, quy mô đầu tư sức mạnh tính toán toàn cầu đã đạt hàng trăm tỷ USD. Các tham số mô hình tiếp tục mở rộng, cạnh tranh giữa các ông lớn vẫn rất gay gắt. Hiện tại, "giảm chi phí", "mở cửa" và cân bằng quy mô sức mạnh tính toán trở thành những chủ đề chính của đổi mới mạng.
2.1 Sự thay đổi của môi trường truyền thông
Ánh sáng, đồng và silicon là các phương tiện truyền tải chính. Trong thời đại AI, các mô-đun quang không chỉ theo đuổi tốc độ cao hơn mà còn giảm chi phí thông qua các giải pháp như LPO, LRO, quang silicon. Cáp đồng chiếm ưu thế trong kết nối trong tủ với tỷ lệ giá cả và độ tin cậy thấp. Các công nghệ mới như Chiplet, Wafer-scaling đang khám phá giới hạn của kết nối dựa trên silicon.
2.2 Cạnh tranh giao thức mạng
Giao thức truyền thông giữa các mảnh và sự ràng buộc chặt chẽ với card đồ họa, như NVLINK, Infinity Fabric, quyết định giới hạn sức mạnh tính toán của một nút, là chiến trường khốc liệt giữa các ông lớn. Cạnh tranh giữa IB và Ethernet thì là giai điệu chính trong truyền thông giữa các nút.
2.3 Sự thay đổi trong kiến trúc mạng
Mạng giữa các nút hiện tại thường sử dụng kiến trúc lá và thân, có ưu điểm tiện lợi, đơn giản và ổn định. Tuy nhiên, với sự gia tăng số lượng nút trong một cụm đơn, kiến trúc lá và thân trở nên thừa thãi trong các cụm siêu lớn, dẫn đến chi phí mạng lớn. Các giải pháp mới như kiến trúc Dragonfly, kiến trúc chỉ ray có thể trở thành hướng phát triển cho các cụm siêu lớn thế hệ tiếp theo.
3. Đề xuất đầu tư
Các khâu cốt lõi của hệ thống truyền thông: Zhongji Xuchuang, New Ease, Tianfu Communication, Hode Electronics.
Các giai đoạn đổi mới hệ thống thông tin: Longfly Fiber, Zhongtian Technology, Hengtong Optics, Shengke Communication.
4. Lời cảnh báo rủi ro