Un chasseur de têtes chargé du recrutement de talents technologiques de haut niveau dans le domaine des grands modèles a indiqué à PingWest Tech que la logique d'embauche de DeepSeek ne diffère pas beaucoup de celle des autres entreprises du domaine des grands modèles. Leur étiquette principale pour les talents est "jeune et à fort potentiel", c'est-à-dire nés autour de 1998, avec de préférence moins de cinq ans d'expérience professionnelle, "intelligents, issus des filières scientifiques et techniques, jeunes et peu expérimentés."
·According to industry insiders, DeepSeek is considered lucky compared to other large-scale model startups in China. It doesn't have the pressure of financing, doesn't need to prove itself to investors, and doesn't need to balance the technical iteration of models and the optimization of product applications. However, as a commercial company, after a huge investment, sooner or later it will face the pressure and challenges faced by other model companies at present.
Quelle est la société la plus en vogue dans le domaine des grands modèles en Chine en 2024 ? DeepSeek, la société de recherche sur les technologies de base de l'intelligence artificielle de Hangzhou, est certainement un concurrent puissant. En tant qu'initiateur de la guerre des prix des grands modèles au milieu de l'année dernière, DeepSeek est entré dans le champ public et a suscité un grand intérêt avec les publications successives du modèle open source DeepSeek-V3 et du modèle d'inférence DeepSeek-R1 en fin d'année. Les gens sont à la fois surpris par son coût de formation très avantageux (on dit que la formation de DeepSeek-V3 n'a coûté que 5,576 millions de dollars) et applaudissent son comportement de mise à disposition des modèles en open source et de publication de rapports techniques. La sortie de DeepSeek-R1 a enthousiasmé de nombreux scientifiques, développeurs et utilisateurs, qui considèrent même DeepSeek comme un concurrent puissant des modèles d'inférence tels que l'o1 d'OpenAI.
Comment cette entreprise discrète parvient-elle à produire de grands modèles performants à faible coût de formation ? Qu'est-ce qui fait son succès aujourd'hui ? Quels défis devra-t-elle relever pour continuer à prospérer dans le futur dans le domaine de la "modélisation" ?
L'innovation algorithmique permet de réduire considérablement le coût de la puissance de calcul
« DeepSeek a commencé tôt, a accumulé beaucoup, et a ses propres caractéristiques en termes d'algorithme. » Un cadre d'une entreprise chinoise de modélisation de grande envergure a déclaré que selon lui, l'avantage principal de DeepSeek pour réussir est dû à l'innovation de son algorithme. « Les entreprises chinoises sont plus axées sur l'économie des coûts de calcul que OpenAI en raison du manque de puissance de calcul. »
Selon les informations publiées par DeepSeek, DeepSeek-R1 a largement utilisé la technologie de l'apprentissage par renforcement dans la phase de post-entraînement, ce qui a considérablement amélioré les capacités de raisonnement du modèle avec très peu de données annotées, rivalisant avec la version officielle d'OpenAI o1 dans des tâches telles que les mathématiques, le code et le raisonnement en langage naturel.
Prix de l'API DeepSeek-R1
Le fondateur de DeepSeek, Liang Wenfeng, a souligné à plusieurs reprises que DeepSeek s'engageait à ouvrir une voie technologique différenciée plutôt que de copier le modèle d'OpenAI. DeepSeek doit trouver des méthodes plus efficaces pour entraîner son modèle.
Ils ont utilisé une série de compétences en génie pour optimiser l'architecture du modèle, telles que l'utilisation innovante de méthodes de fusion de modèles, dans le but fondamental de réduire les coûts par l'ingénierie pour le rendre rentable, a déclaré un vétéran de l'industrie technologique à The Paper Tech.
Selon les informations divulguées par DeepSeek, il a réalisé des progrès majeurs dans la structure de la MLA (Multi-head Latent Attention) et du modèle DeepSeekMOE(Mixture-of-Experts auto-développé, ces deux conceptions techniques réduisent les ressources de calcul d'entraînement, rendant le modèle DeepSeek plus rentable et améliorant également l'efficacité de l'entraînement. Selon les données de l'institut de recherche Epoch AI, le dernier modèle de DeepSeek est très efficace.
En termes de données, contrairement à la méthode « d'alimentation massive de données » d'OpenAI, DeepSeek résume et classe les données à l'aide d'algorithmes, les traite sélectivement et les transmet aux grands modèles, ce qui améliore l'efficacité de l'entraînement et réduit les coûts de DeepSeek. L'apparition de DeepSeek-V3 a permis d'atteindre un équilibre entre haute performance et faible coût, offrant de nouvelles possibilités pour le développement des grands modèles.
"Peut-être que l'avenir n'aura plus besoin de clusters de GPU de grande taille." Après la publication du modèle à haute performance et à bon rapport qualité-prix de DeepSeek, le membre fondateur d'OpenAI, Andrej Karpathy, a déclaré.
Le professeur associé à long terme du département d'informatique de l'Université de Tsinghua, Liu Zhiyuan, a déclaré à Pengpai Technology que le décollage de DeepSeek prouve précisément notre avantage concurrentiel, en utilisant de manière extrêmement efficace des ressources limitées pour réaliser plus avec moins. La publication de R1 indique clairement que notre puissance IA se rapproche considérablement de celle des États-Unis. The Economist a également déclaré dans son dernier numéro: 'DeepSeek change l'industrie technologique grâce à son innovation en matière de formation et de conception de modèles à faible coût'.
Le PDG et co-fondateur de Google DeepMind, Demis Hassabis, a déclaré qu'il n'était pas encore clair dans quelle mesure DeepSeek dépendait des données d'entraînement et des modèles open source des systèmes occidentaux, mais il faut reconnaître que l'équipe a réalisé des réalisations impressionnantes. D'une part, il reconnaît que la Chine dispose d'une capacité d'ingénierie et de mise à l'échelle très puissante, d'autre part, il souligne que l'Occident reste en tête et qu'il faut réfléchir à la manière de maintenir l'avantage des modèles occidentaux de pointe.
ans d’accumulation ciblée
DeepSeek n'a pas réussi à réaliser ces innovations en un jour, mais a plutôt été le résultat de plusieurs années d'incubation et de planification à long terme. Liang Wenfeng est également le fondateur du fonds quantitatif privé de premier plan, Quantitative Magic. DeepSeek est considéré comme ayant pleinement exploité les fonds, les données et les cartes accumulés par Quantitative Magic.
Liang Wenfeng est titulaire d’une licence et d’une maîtrise en ingénierie de l’information et de l’électronique de l’Université du Zhejiang. Depuis 2008, il dirige une équipe chargée d’explorer le trading quantitatif entièrement automatisé à l’aide de l’apprentissage automatique et d’autres technologies. En 2015, High-Flyer Quant a été créé, le premier modèle d’IA a été lancé l’année suivante, la première position de trading générée par l’apprentissage profond a été exécutée et, en 2018, l’IA a été établie comme principale direction de développement. En 2020, le supercalculateur d’IA « Firefly No. 1 » de High-Flyer, avec un investissement cumulé de plus de 100 millions de yuans et une superficie équivalente à un terrain de basket, a été officiellement mis en service, affirmant être comparable à la super puissance de calcul de 40 000 ordinateurs personnels. En 2021, High-Flyer a investi un milliard de yuans pour construire le « Firefly No. 2 », équipé de 10 000 puces A100GPU. À cette époque, il n’y avait pas plus de 5 entreprises avec plus de 10 000 GPU en Chine, et à l’exception de High-Flyer Quant, les 4 autres entreprises étaient toutes des géants de l’Internet.
En juillet 2023, DeepSeek a été officiellement fondée et a fait son entrée dans le domaine de l'intelligence artificielle générale. Jusqu'à présent, elle n'a jamais levé de fonds extérieurs.
« Avec des cartes relativement abondantes et pas de pression de financement, nous avons seulement fait des modèles sans produire de produits au cours des dernières années, ce qui rend DeepSeek et d'autres grandes entreprises de modélisation du pays plus simples et plus concentrées, leur permettant de réaliser des percées en matière de technologie et d'algorithmes. » a déclaré un haut dirigeant de la société de modélisation intérieure susmentionnée.
De plus, alors que l'industrie des grands modèles tend à devenir de plus en plus fermée, le comportement de l'open-sourcing des modèles DeepSeek et la publication de rapports techniques ont également valu de nombreux éloges aux développeurs, permettant à sa marque technologique de se démarquer rapidement sur le marché mondial des grands modèles.
Des chercheurs ont dit à PingWest Tech que l'ouverture de DeepSeek est remarquable, et la publication des modèles V3 et R1 élève le niveau de référence des modèles open source sur le marché.
a prouvé la force des jeunes.
Le succès de DeekSeek a également montré la puissance des jeunes, fondamentalement, le développement de l'intelligence artificielle a besoin de jeunes esprits. Un représentant de la société de modélisation a déclaré à Pengpai Technology.
Auparavant, Jack Clark, ancien directeur des politiques d'OpenAI et cofondateur d'Anthropic, a déclaré que DeepSeek employait "un groupe de prodiges profonds et impénétrables". À cet égard, Liang Wenfeng a déclaré lors d'une interview avec les médias qu'il n'y avait pas de prodiges profonds et impénétrables, mais plutôt des diplômés des meilleures universités nationales, des stagiaires de niveau doctorat non diplômés, des stagiaires de niveau doctorat cinq et quelques jeunes diplômés depuis seulement quelques années.
D'après les rapports médiatiques actuellement disponibles, la principale caractéristique de l'équipe DeepSeek est d'être composée de jeunes diplômés d'universités renommées. Même les membres de l'équipe ayant un statut de leader ont généralement moins de 35 ans. Cette équipe compte moins de 140 personnes, et la plupart des ingénieurs et des chercheurs proviennent des meilleures universités chinoises telles que Tsinghua, Pékin, Sun Yat-sen et Beijing University of Posts and Telecommunications. Leur expérience professionnelle est également relativement courte.
Un chasseur de têtes responsable du recrutement de talents technologiques de haut niveau dans le domaine des grands modèles a déclaré à PingWest Tech que la logique de recrutement de DeepSeek ne diffère pas beaucoup de celle des autres entreprises dans le domaine des grands modèles. L'étiquette principale pour les talents est "jeune et à fort potentiel", c'est-à-dire qu'ils sont nés vers 1998, avec de préférence moins de cinq ans d'expérience professionnelle, et sont décrits comme "intelligents, issus des filières scientifiques et techniques, jeunes et peu expérimentés".
Cependant, le chasseur de têtes susmentionné a également indiqué que les grandes entreprises de modèles sont essentiellement des startups, et elles ne veulent pas embaucher des talents en IA de premier plan à l'étranger. La réalité est que peu de talents en IA de premier plan à l'étranger sont disposés à revenir.
Un employé de DeepSeek qui souhaite rester anonyme a révélé à Pengpai Technology que la gestion de l'entreprise est très décentralisée et que l'atmosphère de communication libre est bonne. Liang Wenfeng est souvent difficile à localiser et la plupart du temps, il communique en ligne avec tout le monde.
L'employé avait précédemment travaillé dans une grande usine en Chine, développant des technologies de modélisation à grande échelle, mais il se sentait plus comme un simple élément dans cette grande usine, incapable de créer de la valeur. Il a finalement décidé de rejoindre DeepSeek. Selon lui, DeepSeek se concentre actuellement davantage sur la technologie de modélisation de base.
L'atmosphère de travail chez DeepSeek est entièrement auto-organisée, avec une répartition naturelle des tâches et une absence de limites en ce qui concerne la gestion des projets et des personnes. "Ils ont leurs propres idées et n'ont pas besoin d'être poussés. S'ils rencontrent des problèmes dans leur exploration, ils en discutent avec leurs collègues." a déclaré Liang Wenfeng dans une interview précédente.
“Penser que l'IA chinoise a déjà dépassé l'américaine est encore prématuré”
Selon une analyse de Business Insider, le nouveau R1 récemment publié montre que la Chine peut rivaliser avec certains des meilleurs modèles d'intelligence artificielle de l'industrie et rester à la pointe du développement de l'innovation en matière d'intelligence artificielle dans la Silicon Valley. De plus, la mise en open source d'une telle technologie avancée peut également représenter un défi pour les entreprises qui cherchent à réaliser d'énormes profits en vendant leur technologie.
Cependant, il est peut-être trop tôt pour crier haut et fort que l'IA chinoise a déjà dépassé celle des États-Unis. Liu Zhiyuan a publiquement averti qu'il faut se méfier du passage de l'opinion publique de l'extrême pessimisme à l'extrême optimisme, et penser que nous avons déjà largement dépassé et sommes largement en avance, ce qui n'est pas du tout le cas. Liu Zhiyuan estime que les nouvelles technologies AGI actuelles évoluent encore rapidement et que la voie future de développement n'est pas encore claire. La Chine est toujours dans la phase de rattrapage, bien qu'elle ne soit plus aussi loin derrière qu'avant, mais on peut simplement dire qu'elle est encore dans la course. Il est relativement facile de suivre rapidement le chemin déjà exploré par d'autres, mais le plus grand défi sera de trouver de nouvelles voies dans le brouillard qui se profile devant nous.
« C'est trop enroulé maintenant, tout le monde est trop pressé, sans se rendre compte que DeepSeek est sorti à la fin. » Une personne proche de DeepSeek s'est exclamée sur la technologie de Pengpai, la vitesse de changement de l'industrie est trop rapide, on ne peut pas prévoir ce que l'on peut faire ensuite, on ne peut que voir les changements du prochain trimestre Q3.
Démis Hassabis reconnaît d'une part la capacité d'ingénierie et d'échelle très puissante de la Chine, mais d'autre part, il souligne également que l'Occident est toujours en tête et qu'il faut réfléchir à la manière de maintenir sa position de leader dans les modèles de pointe de l'Occident.
Bien que Liang Wenfeng ait déclaré précédemment que DeepSeek ne faisait que des modèles et pas de produits, en tant qu'entreprise commerciale, il est presque impossible de ne faire que des modèles sans produits. Le 15 janvier, l'application officielle de DeepSeek a été officiellement lancée. Une source proche de DeepSeek a déclaré à Pengpai Technology que la commercialisation était déjà à l'ordre du jour.
Aux yeux des professionnels de l'industrie, par rapport à d'autres grandes entreprises de modélisation en Chine, DeepSeek a de la chance. Il n'a pas la pression du financement, n'a pas besoin de prouver aux investisseurs, et n'a pas besoin de concilier l'itération technologique du modèle et l'optimisation de l'application du produit. Mais en tant qu'entreprise commerciale, après un investissement massif, tôt ou tard, il devra faire face aux pressions et défis auxquels sont actuellement confrontées les autres entreprises de modélisation. 'Cette sortie a été une réussite pour DeepSeek juste avant sa commercialisation, mais une fois réellement commercialisé, il devra être testé par le marché. Il est encore difficile de dire s'il pourra continuer à avancer avec succès.' a déclaré un professionnel de l'entreprise de modélisation susmentionnée.
Il est certain que DeepSeek sera confronté à davantage de pression et de défis à l'avenir. La compétition pour les modèles généraux ne fait que commencer, et la capacité de continuer à investir en termes de fonds et de technologie déterminera qui sortira vainqueur. Cependant, les professionnels de l'industrie estiment également que « pour l'industrie des modèles nationaux, il est bon qu'une entreprise comme DeepSeek, dotée d'une réelle expertise technologique, se joigne à elle ».
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
DeepSeek peut-il rester chaud pour toujours?
Auteur: Yu Yan, journaliste de The Paper
Un chasseur de têtes chargé du recrutement de talents technologiques de haut niveau dans le domaine des grands modèles a indiqué à PingWest Tech que la logique d'embauche de DeepSeek ne diffère pas beaucoup de celle des autres entreprises du domaine des grands modèles. Leur étiquette principale pour les talents est "jeune et à fort potentiel", c'est-à-dire nés autour de 1998, avec de préférence moins de cinq ans d'expérience professionnelle, "intelligents, issus des filières scientifiques et techniques, jeunes et peu expérimentés."
·According to industry insiders, DeepSeek is considered lucky compared to other large-scale model startups in China. It doesn't have the pressure of financing, doesn't need to prove itself to investors, and doesn't need to balance the technical iteration of models and the optimization of product applications. However, as a commercial company, after a huge investment, sooner or later it will face the pressure and challenges faced by other model companies at present.
Quelle est la société la plus en vogue dans le domaine des grands modèles en Chine en 2024 ? DeepSeek, la société de recherche sur les technologies de base de l'intelligence artificielle de Hangzhou, est certainement un concurrent puissant. En tant qu'initiateur de la guerre des prix des grands modèles au milieu de l'année dernière, DeepSeek est entré dans le champ public et a suscité un grand intérêt avec les publications successives du modèle open source DeepSeek-V3 et du modèle d'inférence DeepSeek-R1 en fin d'année. Les gens sont à la fois surpris par son coût de formation très avantageux (on dit que la formation de DeepSeek-V3 n'a coûté que 5,576 millions de dollars) et applaudissent son comportement de mise à disposition des modèles en open source et de publication de rapports techniques. La sortie de DeepSeek-R1 a enthousiasmé de nombreux scientifiques, développeurs et utilisateurs, qui considèrent même DeepSeek comme un concurrent puissant des modèles d'inférence tels que l'o1 d'OpenAI.
Comment cette entreprise discrète parvient-elle à produire de grands modèles performants à faible coût de formation ? Qu'est-ce qui fait son succès aujourd'hui ? Quels défis devra-t-elle relever pour continuer à prospérer dans le futur dans le domaine de la "modélisation" ?
L'innovation algorithmique permet de réduire considérablement le coût de la puissance de calcul
« DeepSeek a commencé tôt, a accumulé beaucoup, et a ses propres caractéristiques en termes d'algorithme. » Un cadre d'une entreprise chinoise de modélisation de grande envergure a déclaré que selon lui, l'avantage principal de DeepSeek pour réussir est dû à l'innovation de son algorithme. « Les entreprises chinoises sont plus axées sur l'économie des coûts de calcul que OpenAI en raison du manque de puissance de calcul. »
Selon les informations publiées par DeepSeek, DeepSeek-R1 a largement utilisé la technologie de l'apprentissage par renforcement dans la phase de post-entraînement, ce qui a considérablement amélioré les capacités de raisonnement du modèle avec très peu de données annotées, rivalisant avec la version officielle d'OpenAI o1 dans des tâches telles que les mathématiques, le code et le raisonnement en langage naturel.
Le fondateur de DeepSeek, Liang Wenfeng, a souligné à plusieurs reprises que DeepSeek s'engageait à ouvrir une voie technologique différenciée plutôt que de copier le modèle d'OpenAI. DeepSeek doit trouver des méthodes plus efficaces pour entraîner son modèle.
Ils ont utilisé une série de compétences en génie pour optimiser l'architecture du modèle, telles que l'utilisation innovante de méthodes de fusion de modèles, dans le but fondamental de réduire les coûts par l'ingénierie pour le rendre rentable, a déclaré un vétéran de l'industrie technologique à The Paper Tech.
Selon les informations divulguées par DeepSeek, il a réalisé des progrès majeurs dans la structure de la MLA (Multi-head Latent Attention) et du modèle DeepSeekMOE(Mixture-of-Experts auto-développé, ces deux conceptions techniques réduisent les ressources de calcul d'entraînement, rendant le modèle DeepSeek plus rentable et améliorant également l'efficacité de l'entraînement. Selon les données de l'institut de recherche Epoch AI, le dernier modèle de DeepSeek est très efficace.
En termes de données, contrairement à la méthode « d'alimentation massive de données » d'OpenAI, DeepSeek résume et classe les données à l'aide d'algorithmes, les traite sélectivement et les transmet aux grands modèles, ce qui améliore l'efficacité de l'entraînement et réduit les coûts de DeepSeek. L'apparition de DeepSeek-V3 a permis d'atteindre un équilibre entre haute performance et faible coût, offrant de nouvelles possibilités pour le développement des grands modèles.
"Peut-être que l'avenir n'aura plus besoin de clusters de GPU de grande taille." Après la publication du modèle à haute performance et à bon rapport qualité-prix de DeepSeek, le membre fondateur d'OpenAI, Andrej Karpathy, a déclaré.
Le professeur associé à long terme du département d'informatique de l'Université de Tsinghua, Liu Zhiyuan, a déclaré à Pengpai Technology que le décollage de DeepSeek prouve précisément notre avantage concurrentiel, en utilisant de manière extrêmement efficace des ressources limitées pour réaliser plus avec moins. La publication de R1 indique clairement que notre puissance IA se rapproche considérablement de celle des États-Unis. The Economist a également déclaré dans son dernier numéro: 'DeepSeek change l'industrie technologique grâce à son innovation en matière de formation et de conception de modèles à faible coût'.
Le PDG et co-fondateur de Google DeepMind, Demis Hassabis, a déclaré qu'il n'était pas encore clair dans quelle mesure DeepSeek dépendait des données d'entraînement et des modèles open source des systèmes occidentaux, mais il faut reconnaître que l'équipe a réalisé des réalisations impressionnantes. D'une part, il reconnaît que la Chine dispose d'une capacité d'ingénierie et de mise à l'échelle très puissante, d'autre part, il souligne que l'Occident reste en tête et qu'il faut réfléchir à la manière de maintenir l'avantage des modèles occidentaux de pointe.
ans d’accumulation ciblée
DeepSeek n'a pas réussi à réaliser ces innovations en un jour, mais a plutôt été le résultat de plusieurs années d'incubation et de planification à long terme. Liang Wenfeng est également le fondateur du fonds quantitatif privé de premier plan, Quantitative Magic. DeepSeek est considéré comme ayant pleinement exploité les fonds, les données et les cartes accumulés par Quantitative Magic.
Liang Wenfeng est titulaire d’une licence et d’une maîtrise en ingénierie de l’information et de l’électronique de l’Université du Zhejiang. Depuis 2008, il dirige une équipe chargée d’explorer le trading quantitatif entièrement automatisé à l’aide de l’apprentissage automatique et d’autres technologies. En 2015, High-Flyer Quant a été créé, le premier modèle d’IA a été lancé l’année suivante, la première position de trading générée par l’apprentissage profond a été exécutée et, en 2018, l’IA a été établie comme principale direction de développement. En 2020, le supercalculateur d’IA « Firefly No. 1 » de High-Flyer, avec un investissement cumulé de plus de 100 millions de yuans et une superficie équivalente à un terrain de basket, a été officiellement mis en service, affirmant être comparable à la super puissance de calcul de 40 000 ordinateurs personnels. En 2021, High-Flyer a investi un milliard de yuans pour construire le « Firefly No. 2 », équipé de 10 000 puces A100GPU. À cette époque, il n’y avait pas plus de 5 entreprises avec plus de 10 000 GPU en Chine, et à l’exception de High-Flyer Quant, les 4 autres entreprises étaient toutes des géants de l’Internet.
En juillet 2023, DeepSeek a été officiellement fondée et a fait son entrée dans le domaine de l'intelligence artificielle générale. Jusqu'à présent, elle n'a jamais levé de fonds extérieurs.
« Avec des cartes relativement abondantes et pas de pression de financement, nous avons seulement fait des modèles sans produire de produits au cours des dernières années, ce qui rend DeepSeek et d'autres grandes entreprises de modélisation du pays plus simples et plus concentrées, leur permettant de réaliser des percées en matière de technologie et d'algorithmes. » a déclaré un haut dirigeant de la société de modélisation intérieure susmentionnée.
De plus, alors que l'industrie des grands modèles tend à devenir de plus en plus fermée, le comportement de l'open-sourcing des modèles DeepSeek et la publication de rapports techniques ont également valu de nombreux éloges aux développeurs, permettant à sa marque technologique de se démarquer rapidement sur le marché mondial des grands modèles.
Des chercheurs ont dit à PingWest Tech que l'ouverture de DeepSeek est remarquable, et la publication des modèles V3 et R1 élève le niveau de référence des modèles open source sur le marché.
a prouvé la force des jeunes.
Le succès de DeekSeek a également montré la puissance des jeunes, fondamentalement, le développement de l'intelligence artificielle a besoin de jeunes esprits. Un représentant de la société de modélisation a déclaré à Pengpai Technology.
Auparavant, Jack Clark, ancien directeur des politiques d'OpenAI et cofondateur d'Anthropic, a déclaré que DeepSeek employait "un groupe de prodiges profonds et impénétrables". À cet égard, Liang Wenfeng a déclaré lors d'une interview avec les médias qu'il n'y avait pas de prodiges profonds et impénétrables, mais plutôt des diplômés des meilleures universités nationales, des stagiaires de niveau doctorat non diplômés, des stagiaires de niveau doctorat cinq et quelques jeunes diplômés depuis seulement quelques années.
D'après les rapports médiatiques actuellement disponibles, la principale caractéristique de l'équipe DeepSeek est d'être composée de jeunes diplômés d'universités renommées. Même les membres de l'équipe ayant un statut de leader ont généralement moins de 35 ans. Cette équipe compte moins de 140 personnes, et la plupart des ingénieurs et des chercheurs proviennent des meilleures universités chinoises telles que Tsinghua, Pékin, Sun Yat-sen et Beijing University of Posts and Telecommunications. Leur expérience professionnelle est également relativement courte.
Un chasseur de têtes responsable du recrutement de talents technologiques de haut niveau dans le domaine des grands modèles a déclaré à PingWest Tech que la logique de recrutement de DeepSeek ne diffère pas beaucoup de celle des autres entreprises dans le domaine des grands modèles. L'étiquette principale pour les talents est "jeune et à fort potentiel", c'est-à-dire qu'ils sont nés vers 1998, avec de préférence moins de cinq ans d'expérience professionnelle, et sont décrits comme "intelligents, issus des filières scientifiques et techniques, jeunes et peu expérimentés".
Cependant, le chasseur de têtes susmentionné a également indiqué que les grandes entreprises de modèles sont essentiellement des startups, et elles ne veulent pas embaucher des talents en IA de premier plan à l'étranger. La réalité est que peu de talents en IA de premier plan à l'étranger sont disposés à revenir.
Un employé de DeepSeek qui souhaite rester anonyme a révélé à Pengpai Technology que la gestion de l'entreprise est très décentralisée et que l'atmosphère de communication libre est bonne. Liang Wenfeng est souvent difficile à localiser et la plupart du temps, il communique en ligne avec tout le monde.
L'employé avait précédemment travaillé dans une grande usine en Chine, développant des technologies de modélisation à grande échelle, mais il se sentait plus comme un simple élément dans cette grande usine, incapable de créer de la valeur. Il a finalement décidé de rejoindre DeepSeek. Selon lui, DeepSeek se concentre actuellement davantage sur la technologie de modélisation de base.
L'atmosphère de travail chez DeepSeek est entièrement auto-organisée, avec une répartition naturelle des tâches et une absence de limites en ce qui concerne la gestion des projets et des personnes. "Ils ont leurs propres idées et n'ont pas besoin d'être poussés. S'ils rencontrent des problèmes dans leur exploration, ils en discutent avec leurs collègues." a déclaré Liang Wenfeng dans une interview précédente.
“Penser que l'IA chinoise a déjà dépassé l'américaine est encore prématuré”
Selon une analyse de Business Insider, le nouveau R1 récemment publié montre que la Chine peut rivaliser avec certains des meilleurs modèles d'intelligence artificielle de l'industrie et rester à la pointe du développement de l'innovation en matière d'intelligence artificielle dans la Silicon Valley. De plus, la mise en open source d'une telle technologie avancée peut également représenter un défi pour les entreprises qui cherchent à réaliser d'énormes profits en vendant leur technologie.
Cependant, il est peut-être trop tôt pour crier haut et fort que l'IA chinoise a déjà dépassé celle des États-Unis. Liu Zhiyuan a publiquement averti qu'il faut se méfier du passage de l'opinion publique de l'extrême pessimisme à l'extrême optimisme, et penser que nous avons déjà largement dépassé et sommes largement en avance, ce qui n'est pas du tout le cas. Liu Zhiyuan estime que les nouvelles technologies AGI actuelles évoluent encore rapidement et que la voie future de développement n'est pas encore claire. La Chine est toujours dans la phase de rattrapage, bien qu'elle ne soit plus aussi loin derrière qu'avant, mais on peut simplement dire qu'elle est encore dans la course. Il est relativement facile de suivre rapidement le chemin déjà exploré par d'autres, mais le plus grand défi sera de trouver de nouvelles voies dans le brouillard qui se profile devant nous.
« C'est trop enroulé maintenant, tout le monde est trop pressé, sans se rendre compte que DeepSeek est sorti à la fin. » Une personne proche de DeepSeek s'est exclamée sur la technologie de Pengpai, la vitesse de changement de l'industrie est trop rapide, on ne peut pas prévoir ce que l'on peut faire ensuite, on ne peut que voir les changements du prochain trimestre Q3.
Démis Hassabis reconnaît d'une part la capacité d'ingénierie et d'échelle très puissante de la Chine, mais d'autre part, il souligne également que l'Occident est toujours en tête et qu'il faut réfléchir à la manière de maintenir sa position de leader dans les modèles de pointe de l'Occident.
Bien que Liang Wenfeng ait déclaré précédemment que DeepSeek ne faisait que des modèles et pas de produits, en tant qu'entreprise commerciale, il est presque impossible de ne faire que des modèles sans produits. Le 15 janvier, l'application officielle de DeepSeek a été officiellement lancée. Une source proche de DeepSeek a déclaré à Pengpai Technology que la commercialisation était déjà à l'ordre du jour.
Aux yeux des professionnels de l'industrie, par rapport à d'autres grandes entreprises de modélisation en Chine, DeepSeek a de la chance. Il n'a pas la pression du financement, n'a pas besoin de prouver aux investisseurs, et n'a pas besoin de concilier l'itération technologique du modèle et l'optimisation de l'application du produit. Mais en tant qu'entreprise commerciale, après un investissement massif, tôt ou tard, il devra faire face aux pressions et défis auxquels sont actuellement confrontées les autres entreprises de modélisation. 'Cette sortie a été une réussite pour DeepSeek juste avant sa commercialisation, mais une fois réellement commercialisé, il devra être testé par le marché. Il est encore difficile de dire s'il pourra continuer à avancer avec succès.' a déclaré un professionnel de l'entreprise de modélisation susmentionnée.
Il est certain que DeepSeek sera confronté à davantage de pression et de défis à l'avenir. La compétition pour les modèles généraux ne fait que commencer, et la capacité de continuer à investir en termes de fonds et de technologie déterminera qui sortira vainqueur. Cependant, les professionnels de l'industrie estiment également que « pour l'industrie des modèles nationaux, il est bon qu'une entreprise comme DeepSeek, dotée d'une réelle expertise technologique, se joigne à elle ».