DeepSeek có thể tiếp tục phát triển không?

Question

**Tác giả: Yu Yan, phóng viên tin tức Phùng Thái**· Một nhà tuyển dụng chuyên về khai thác nhân tài công nghệ cao trong lĩnh vực mô hình lớn cho biết với Phong Cách Khoa học, cách tiếp cận nhân sự của DeepSeek không có nhiều khác biệt so với các công ty khác trong lĩnh vực mô hình lớn, các nhãn hiệu chính của nhân tài đều là "trẻ tuổi và tiềm năng", tức là sinh năm khoảng năm 1998, kinh nghiệm làm việc tốt nhất không nên vượt quá năm, "thông minh, kỹ thuật, trẻ tuổi, ít kinh nghiệm."·Theo nhận định của các chuyên gia trong ngành, so với các công ty khởi nghiệp mô hình lớn khác trong nước, DeepSeek may mắn hơn khi không phải chịu áp lực tài chính, không cần phải chứng minh cho nhà đầu tư, không cần phải cân nhắc giữa việc cập nhật công nghệ mô hình và tối ưu hóa ứng dụng sản phẩm. Tuy nhiên, với tư cách là một công ty thương mại, sau khi đầu tư số vốn lớn, sớm muộn cũng phải đối mặt với áp lực và thách thức mà các công ty mô hình khác đang phải đối mặt.DeepSeek là một đối thủ mạnh trong ngành mô hình lớn tại Trung Quốc vào năm 2024? Công ty nghiên cứu công nghệ cơ bản trí tuệ nhân tạo của Hàng Châu DeepSeek đã tạo nên sự chú ý trong công chúng sau khi trở thành người khởi xướng cuộc chiến giá mô hình lớn vào giữa năm ngoái. Đến cuối năm và đầu năm nay, DeepSeek liên tục công bố mô hình mã nguồn mở DeepSeek-V3 và mô hình suy luận DeepSeek-R1, khiến cho cả ngành mô hình lớn bùng nổ. Mọi người đồng thời ngạc nhiên vì chi phí huấn luyện cực kỳ hiệu quả của DeepSeek (theo đồn đoán, DeepSeek-V3 chỉ tốn 5.576.000 USD để huấn luyện), và cũng đồng loạt tán thưởng hành động của họ khi công bố mã nguồn và báo cáo kỹ thuật công khai. Việc công bố DeepSeek-R1 đã khiến nhiều nhà khoa học, nhà phát triển và người dùng hào hứng, thậm chí cho rằng DeepSeek là đối thủ mạnh mẽ của các mô hình suy luận như OpenAI o1.Tại sao công ty này có thể tạo ra mô hình lớn hiệu suất tốt với chi phí đào tạo rất thấp? Sự thành công của nó hôm nay đến từ việc nó đã làm đúng những gì? Trong những ngày tới, công ty sẽ đối mặt với những thách thức gì nếu muốn tiếp tục thành công trong lĩnh vực 'mô hình'?### Sự đổi mới trong thuật toán đã giúp giảm mạnh chi phí tính toán"DeepSeek đã tham gia từ sớm và tích luỹ kinh nghiệm rất nhiều, có đặc điểm riêng trong thuật toán." Cố vấn cấp cao của một công ty khởi nghiệp mô hình lớn nổi tiếng trong nước khi nhắc đến DeepSeek nói rằng, anh ta cho rằng lợi thế cốt lõi nhất của DeepSeek vẫn là nhờ vào sự sáng tạo trong thuật toán, "Do các công ty Trung Quốc thiếu sức mạnh tính toán, nên họ sẽ chú trọng hơn vào việc tiết kiệm chi phí tính toán so với OpenAI."Theo thông tin DeepSeek-R1 được công bố bởi DeepSeek, trong giai đoạn huấn luyện sau (Post-Training), họ đã sử dụng công nghệ học tăng cường một cách rộng rãi với số lượng dữ liệu ghi chú rất ít, từ đó cải thiện đáng kể khả năng suy luận của mô hình. Trên các nhiệm vụ toán học, mã nguồn, suy luận ngôn ngữ tự nhiên, hiệu suất không thua kém so với phiên bản chính thức OpenAI o1.![DeepSeek能一直火下去吗？](https://img.gateio.im/social/moments-83c6f32c3efc3ac478a4fadb8f222ba8)```Giá API DeepSeek-R1```Người sáng lập DeepSeek, Lương Văn Phong, đã nhấn mạnh nhiều lần rằng DeepSeek cam kết mở đường công nghệ khác biệt, không phải sao chép mô hình của OpenAI. DeepSeek phải nghĩ ra những phương pháp hiệu quả hơn để huấn luyện mô hình của mình.“Họ đã sử dụng một loạt các kỹ thuật kỹ thuật để tối ưu hóa kiến trúc mô hình, như sử dụng phương pháp kết hợp mô hình đột phá và những điều đó, mục tiêu cốt lõi là giảm chi phí thông qua kỹ thuật hóa để lợi nhuận được thực hiện.” Một chuyên gia kỹ thuật đã làm việc trong ngành công nghệ nhiều năm cho biết.Theo thông tin được tiết lộ bởi DeepSeek, có thể thấy rằng họ đã có những tiến bộ đáng kể trong cấu trúc MLA (Multi-head Latent Attention) và mô hình chuyên gia kết hợp DeepSeekMOE(Mixture-of-Experts) do họ tự nghiên cứu. Cả hai công nghệ này giúp giảm tài nguyên tính toán đào tạo, làm cho mô hình DeepSeek có chi phí hiệu quả hơn và cũng cải thiện hiệu suất đào tạo. Theo dữ liệu từ tổ chức nghiên cứu Epoch AI, mô hình mới nhất của DeepSeek rất hiệu quả.Về phía dữ liệu, DeepSeek sử dụng thuật toán để tóm tắt và phân loại dữ liệu, sau đó chọn lọc và đưa vào mô hình lớn nhằm nâng cao hiệu suất huấn luyện và giảm chi phí cho DeepSeek. Với sự ra đời của DeepSeek-V3, đã tạo ra sự cân bằng giữa hiệu suất cao và chi phí thấp, mang đến những khả năng mới cho phát triển mô hình lớn.“Có lẽ trong tương lai không cần phải có cụm GPU siêu lớn nữa.” Sau khi mô hình hiệu suất cao của DeepSeek được phát hành, thành viên sáng lập của OpenAI Andrej Karpathy nói.Giáo sư đại học Công nghệ thông tin của Đại học Quốc gia Thanh Hóa, ông Đinh Văn Hạnh, cho biết rằng việc DeepSeek nổi tiếng chứng minh rõ rằng ưu thế cạnh tranh của chúng tôi nằm ở việc tận dụng hiệu quả cực độ tài nguyên hạn chế, đạt được kết quả vượt trội bằng ít hơn. Việc phát hành R1 cũng chứng tỏ khoảng cách sức mạnh trí tuệ nhân tạo giữa chúng tôi và Mỹ đã thu hẹp rõ rệt. Trong bản tin mới nhất, tạp chí The Economist cũng nhấn mạnh: “DeepSeek với việc huấn luyện và thiết kế mô hình chi phí thấp đồng thời đổi mới đã thay đổi ngành công nghệ.”CEO kiêm đồng sáng lập Google DeepMind, Demis Hassabis, cho biết mặc dù vẫn chưa rõ ràng về mức độ phụ thuộc cụ thể của DeepSeek vào dữ liệu huấn luyện và mô hình mã nguồn mở của hệ thống phương Tây, nhưng phải thừa nhận rằng những thành tựu mà đội ngũ này đã đạt được thật sự ấn tượng. Một mặt, ông công nhận Trung Quốc có khả năng kỹ thuật và quy mô vô cùng mạnh mẽ, mặt khác, ông cũng chỉ ra rằng phương Tây vẫn đang dẫn đầu và cần xem xét cách duy trì vị trí dẫn đầu của mô hình phương Tây.### Đã tích lũy trong nhiều nămLý do tại sao DeepSeek có thể đạt được những đổi mới này không đạt được trong một ngày, mà là kết quả của nhiều năm "ươm tạo" và lập kế hoạch dài hạn. Liang Wenfeng cũng là người sáng lập quỹ đầu tư tư nhân định lượng High-Flyer Quantitative. Deepseek được coi là tận dụng tối đa các quỹ, dữ liệu và thẻ được tích lũy bởi High-Flyer Quantitative.Liang Wenfeng tốt nghiệp Đại học Chiết Giang với bằng cử nhân và bằng thạc sĩ về kỹ thuật thông tin và điện tử. Từ năm 2008, ông đã lãnh đạo một nhóm khám phá giao dịch định lượng hoàn toàn tự động bằng cách sử dụng máy học và các công nghệ khác. Năm 2015, High-Flyer Quant được thành lập, mô hình AI đầu tiên được ra mắt vào năm sau, vị thế giao dịch đầu tiên được tạo ra bởi học sâu đã được thực hiện và năm 2018, AI được thiết lập làm hướng phát triển chính. Năm 2020, siêu máy tính AI "Firefly No. 1" của High-Flyer, với số vốn đầu tư tích lũy hơn 100 triệu NDT và diện tích tương đương sân bóng rổ, đã chính thức đi vào hoạt động, tuyên bố có sức mạnh siêu tính toán của 40.000 máy tính cá nhân. Năm 2021, High-Flyer đã đầu tư một tỷ nhân dân tệ để chế tạo "Firefly số 2", được trang bị 10.000 chip A100GPU. Vào thời điểm đó, không có quá 5 công ty có hơn 10.000 GPU ở Trung Quốc và ngoại trừ High-Flyer Quant, 4 công ty còn lại đều là những gã khổng lồ Internet.Tháng 7 năm 2023, DeepSeek chính thức thành lập và gia nhập lĩnh vực Trí tuệ nhân tạo chung, cho đến nay chưa từng huy động vốn từ bên ngoài.“Có số lượng thẻ tương đối dồi dào, không có áp lực tài chính, chỉ tập trung vào mô hình mà không sản xuất sản phẩm trong vài năm qua, khiến DeepSeek và các công ty mô hình lớn khác ở Trung Quốc trở nên đơn giản, tập trung hơn, có thể đạt được tiến bộ trong kỹ thuật và thuật toán.” Một giám đốc điều hành của các công ty mô hình lớn trong nước nói.Ngoài ra, trong khi ngành mô hình lớn đang ngày càng đóng cửa, khi mà OpenAI bị đánh gọi là CloseAI, hành vi mô hình máy mở của DeepSeek và báo cáo kỹ thuật công khai cũng đã thu hút được nhiều lời khen ngự từ các nhà phát triển, đặc biệt là nhận được sự nhàn xét cao về thương hiẹ̣u kỹ thuật của mình cả trên trong nước và quốc tế.Có nhà nghiên cứu cho biết với công nghệ Pengpai rằng tính mở của DeepSeek rất ấn tượng, việc mở nguồn mô hình V3 và R1 đã nâng cao mức cơ bản của các mô hình mã nguồn mở trên thị trường.### chứng minh sức mạnh của thanh niên thành công“Thành công của DeekSeek cũng đã cho thấy sức mạnh của giới trẻ, theo bản chất thì việc phát triển trí tuệ nhân tạo của thế hệ này đòi hỏi trí tuệ trẻ.” Một người đại diện của công ty mô hình nói với công nghệ tức thì.Trước đây, Jack Clark, nguyên Trưởng phòng chính sách của OpenAI và đồng sáng lập Anthropic, cho rằng DeepSeek đã thuê một nhóm "thần đồng khó đoán", tuy nhiên, trong một cuộc phỏng vấn với truyền thông tự do, Lương Văn Phong đã cho biết không có gì đặc biệt về các thần đồng khó đoán đó, tất cả đều là các sinh viên tốt nghiệp từ các trường đại học hàng đầu trong nước, các sinh viên thực tập sau bậc thạc sĩ và tiến sĩ, cùng một số thanh niên mới tốt nghiệp vài năm.Từ các bài báo truyền thông đã công bố cho thấy, điểm đặc biệt lớn nhất của nhóm DeepSeek là họ đến từ các trường đại học danh tiếng và tuổi trẻ, ngay cả những người dẫn đầu nhóm cũng thường dưới 35 tuổi. Nhóm chỉ có hơn 140 người, các kỹ sư và nhà phát triển hầu hết đều tốt nghiệp từ Đại học Tsinghua, Đại học Bắc Kinh, Đại học Sun Yat-sen, Đại học Bưu chính Viễn thông Bắc Kinh và các trường đại học hàng đầu trong nước, và thời gian làm việc không lâu.Một headhunter chịu trách nhiệm khai thác các tài năng khoa học và công nghệ cao cấp trong lĩnh vực mô hình lớn nói với The Paper rằng logic tuyển dụng của DeepSeek không khác nhiều so với logic tuyển dụng của các công ty khác trong lĩnh vực mô hình lớn và nhãn cốt lõi của tài năng là "trẻ và tiềm năng cao", nghĩa là tuổi sinh năm 1998 và kinh nghiệm làm việc không quá năm năm, "thông minh, khoa học và kỹ thuật, trẻ và ít kinh nghiệm". ”Tuy nhiên, những người đầu bếp đã nói, công ty khởi nghiệp lớn vẫn là một công ty khởi nghiệp, không phải là họ không muốn thu hút những tài năng AI hàng đầu từ nước ngoài, mà thực tế là, không có nhiều tài năng AI hàng đầu từ nước ngoài muốn quay trở lại.Một nhân viên của DeepSeek, người không muốn tiết lộ tên, đã tiết lộ cho PingWest rằng quản lý công ty rất phẳng, tạo ra một bầu không khí giao tiếp tự do tương đối tốt. Lương Văn Phong thường không ổn định, hầu hết thời gian mọi người đều giao tiếp với anh ấy trực tuyến.Nhân viên này trước đây đã làm nghiên cứu và phát triển công nghệ mô hình lớn tại một tập đoàn lớn trong nước, nhưng anh cảm thấy mình chỉ như một con ốc vít tại tập đoàn đó, không thể tạo ra giá trị, cuối cùng anh chọn gia nhập DeepSeek. Theo anh, DeepSeek hiện tập trung nhiều hơn vào công nghệ mô hình cơ bản.Bầu không khí làm việc tại DeepSeek hoàn toàn được xây dựng từ dưới lên, tự nhiên phân công công việc, không giới hạn trong việc sắp xếp công việc và nhân sự. Mỗi người đều có ý tưởng của riêng mình, không cần đưa ra sự thúc ép. Trong quá trình khám phá, nếu gặp vấn đề, họ sẽ tự mình tìm người để thảo luận.### “Cho rằng Trí tuệ Nhân tạo của Trung Quốc đã vượt qua Mỹ là còn quá sớm”Trang tin kinh doanh Business Insider của Mỹ phân tích rằng, R1 mới được phát hành cho thấy Trung Quốc có thể sánh ngang với một số mô hình trí tuệ nhân tạo hàng đầu trong ngành và đồng bộ phát triển với tân tiến của thung lũng Silicon; thứ hai, trí tuệ nhân tạo mã nguồn mở tiên tiến như vậy cũng có thể gây thách thức cho các công ty cố gắng kiếm lợi nhuận khổng lồ bằng cách bán công nghệ.Tuy nhiên, việc kêu gọi mạnh mẽ "Trí tuệ nhân tạo của Trung Quốc đã vượt qua Mỹ" ngay bây giờ có lẽ còn quá sớm. Lưu Tri Viễn đã công khai cho biết rằng cần phải cảnh giác với sự chuyển từ quan điểm cực kỳ bi quan sang cực kỳ lạc quan, có cảm giác rằng chúng ta đã vượt qua toàn diện, dẫn đầu từ xa, "rất chẳng phải thế". Lưu Tri Viễn cho rằng, công nghệ mới AGI hiện tại đang tiếp tục tiến hóa nhanh chóng, con đường phát triển trong tương lai vẫn chưa rõ ràng, Trung Quốc vẫn đang ở giai đoạn đuổi kịp, mặc dù không còn là không thể vươn tới, nhưng cũng chỉ có thể nói là có thể vươn tới một mức độ nào đó, "đuổi theo trong con đường mà người khác đã khám phá là một việc tương đối dễ dàng, điều thực sự khó khăn hơn là tiếp tục mở rộng con đường trong sương mù".“Hiện tại mọi thứ đều quá rối rắm, mọi người đều quá vội vàng, không nhận ra rằng DeepSeek cuối cùng cũng đã bùng nổ.” Người tiếp cận DeepSeek tâm sự với PingWest, tốc độ biến đổi ngành công nghiệp quá nhanh, không thể dự đoán được điều gì sẽ xảy ra tiếp theo, chỉ có thể chờ xem sự thay đổi trong quý Q3 tiếp theo.Ông Demis Hassabis một mặt đánh giá cao khả năng kỹ thuật và quy mô rất lớn của Trung Quốc, mặt khác ông cũng chỉ ra rằng phương Tây vẫn dẫn đầu và cần xem xét cách giữ vững vị trí dẫn đầu của các mô hình tiên tiến của phương Tây.Mặc dù trước đây Lương Văn Phong đã nói rằng DeepSeek chỉ làm mô hình không làm sản phẩm. Tuy nhiên, với tư cách là một công ty kinh doanh, gần như không thể luôn chỉ làm mô hình mà không làm sản phẩm. Vào ngày 15 tháng 1, ứng dụng chính thức của DeepSeek đã được phát hành. Một người có liên quan đến DeepSeek nói với công nghệ Pengpai rằng việc kinh doanh đã được đưa vào lịch trình của DeepSeek.Trong mắt những người trong ngành, so với các công ty khởi nghiệp lớn khác trong nước, DeepSeek được coi là may mắn khi không phải chịu áp lực tài chính, không cần phải chứng minh với nhà đầu tư, và không cần phải cân nhắc sự tối ưu hóa của ứng dụng sản phẩm và việc cải tiến công nghệ của mô hình. Tuy nhiên, với tư cách là một công ty thương mại, sau khi đầu tư một số vốn lớn, sớm muộn gì cũng sẽ đối mặt với áp lực và thách thức mà các công ty mô hình khác đang phải đối mặt. "Việc ra ngoài lần này đã giúp DeepSeek có một chiến dịch tiếp thị thành công trước khi thương mại hóa thực sự, nhưng tương lai sau khi thương mại hóa thì cần phải chịu sự kiểm định của thị trường, việc có thể tiếp tục tiến lên hay không vẫn còn khó nói trước." Người đại diện của công ty mô hình đã nói.Điều có thể chắc chắn là DeepSeek sẽ phải đối mặt với nhiều áp lực và thách thức hơn trong tương lai, cuộc đua vào mô hình chung mới chỉ vừa bắt đầu, ai có thể tiến xa còn phụ thuộc vào việc liên tục đầu tư vốn và phát triển công nghệ. Nhưng cũng có người trong ngành cho rằng, “đối với ngành mô hình nội địa, việc có các công ty có sức mạnh kỹ thuật thực sự như DeepSeek tham gia là điều tốt.”