¿DeepSeek puede seguir siendo popular?

Question

**Autor: Yu Yan, periodista de Pengpai News**Un cazatalentos responsable de la búsqueda de talentos de alta tecnología en el campo de los grandes modelos le dijo a Pengpai Technology que la lógica de contratación de DeepSeek no difiere mucho de la de otras empresas en el mismo campo, y que la etiqueta principal para los talentos es "joven y con gran potencial", es decir, nacidos alrededor de 1998, preferiblemente con no más de cinco años de experiencia laboral, "inteligentes, con formación en ciencias, jóvenes y con poca experiencia".Según los profesionales de la industria, en comparación con otras grandes empresas emergentes de modelos en China, DeepSeek tiene suerte. No tiene presión de financiamiento, no necesita demostrar a los inversores, ni necesita equilibrar la iteración técnica del modelo con la optimización de la aplicación del producto. Sin embargo, como empresa comercial, tarde o temprano, después de una gran inversión, tendrá que enfrentar las presiones y desafíos que enfrentan actualmente otras empresas de modelos.¿Cuál es la empresa más candente en el campo de los grandes modelos en China en 2024? Sin duda DeepSeek, Hangzhou DeepSeek Artificial Intelligence Research Co., Ltd. (en adelante, DeepSeek), es un competidor fuerte. Siendo el iniciador de la guerra de precios de los grandes modelos a mediados del año pasado, DeepSeek llamó la atención del público después de lanzar los modelos de código abierto DeepSeek-V3 y el modelo de inferencia DeepSeek-R1 a finales de año y principios de este año, lo que provocó un gran revuelo en el campo de los grandes modelos. La gente se sorprendió por el costo de entrenamiento de alta relación calidad-precio de DeepSeek-V3 (se dice que solo costó 5.576 millones de dólares estadounidenses), y aplaudió su comportamiento de código abierto y la publicación de informes técnicos. El lanzamiento de DeepSeek-R1 ha emocionado a muchos científicos, desarrolladores y usuarios, incluso considerándolo un fuerte competidor de los modelos de inferencia como O1 de OpenAI.¿Cómo puede esta empresa discreta crear modelos grandes de alto rendimiento con costos de entrenamiento extremadamente bajos? ¿Qué ha hecho bien para disfrutar del éxito hoy? ¿Qué desafíos enfrentará en el futuro si quiere seguir avanzando en el mundo de los modelos?### La innovación algorítmica ha llevado a una disminución significativa en el costo de la potencia de cálculo"DeepSeek se ha involucrado temprano y ha acumulado mucha experiencia, y tiene sus propias características en términos de algoritmos." Dijo un alto ejecutivo de una empresa líder en modelos de negocios en China al referirse a DeepSeek, y cree que la razón por la que DeepSeek se ha destacado es gracias a la innovación en algoritmos. "Debido a la falta de energía computacional, las empresas chinas tienden a ser más ahorrativas en el costo computacional que OpenAI".Según la información publicada por DeepSeek, DeepSeek-R1 utilizó ampliamente la tecnología de aprendizaje por refuerzo en la etapa posterior al entrenamiento, lo que mejoró en gran medida la capacidad de inferencia del modelo con muy pocos datos etiquetados. Su rendimiento es comparable al de la versión oficial de OpenAI o1 en tareas como matemáticas, código, razonamiento de lenguaje natural, etc.![¿DeepSeek puede mantenerse popular?](https://img.gateio.im/social/moments-83c6f32c3efc3ac478a4fadb8f222ba8)```Precio de la API DeepSeek-R1```El fundador de DeepSeek, Liang Wenfeng, ha enfatizado en varias ocasiones que DeepSeek se dedica a abrir una ruta tecnológica diferenciada en lugar de copiar el modelo de OpenAI. DeepSeek debe encontrar métodos más efectivos para entrenar su modelo."Utilizaron una serie de técnicas de ingeniería para optimizar la arquitectura del modelo, como el uso innovador de un enfoque de modelo híbrido, con el objetivo intrínseco de reducir los costes a través de la ingeniería y hacerlos rentables". Un veterano que ha trabajado en la industria de la tecnología durante muchos años le dijo a The Paper.Según la información revelada por DeepSeek, ha logrado avances significativos en la estructura de MLA (Multi-head Latent Attention, atención latente de múltiples cabezas) y su modelo propio de mezcla de expertos DeepSeekMOE( (Mixture-of-Experts). Estos dos diseños tecnológicos reducen los recursos computacionales de entrenamiento, lo que hace que el modelo DeepSeek sea más rentable y mejore la eficiencia de entrenamiento. Según los datos de la agencia de investigación Epoch AI, el último modelo de DeepSeek es altamente eficiente.En cuanto a los datos, a diferencia del enfoque de OpenAI de "alimentar datos a gran escala", DeepSeek utiliza algoritmos para resumir y clasificar los datos, los procesa selectivamente y luego los suministra a modelos grandes, lo que mejora la eficiencia del entrenamiento y reduce los costos de DeepSeek. La aparición de DeepSeek-V3 logra un equilibrio entre alto rendimiento y bajo costo, proporcionando nuevas posibilidades para el desarrollo de modelos grandes."Quizás no se necesiten grandes clústeres de GPU en el futuro." Después de que DeepSeek lanzara su modelo de alta relación calidad-precio, Andrej Karpathy, miembro fundador de OpenAI, lo afirmó.El profesor asociado de tiempo completo en el Departamento de Computación de la Universidad Tsinghua, Liu Zhiyuan, le dijo a PingWest Tech que la salida de DeepSeek demuestra precisamente nuestra ventaja competitiva, logrando más con menos recursos a través de una utilización extrema y eficiente. El lanzamiento de R1 indica claramente que la brecha en la fortaleza de la IA entre nosotros y Estados Unidos se ha reducido significativamente. En su último informe, The Economist también señaló: 'DeepSeek está cambiando la industria tecnológica con su innovación en el entrenamiento y diseño de modelos de bajo costo'.El actual director ejecutivo y cofundador de Google DeepMind, Demis Hassabis, ha expresado que si bien aún no está completamente claro el grado específico de dependencia de DeepSeek en los datos de entrenamiento y modelos de código abierto occidentales, se debe reconocer que el logro del equipo es realmente impresionante. Por un lado, reconoce la gran capacidad de ingeniería y de escala en China, y por otro lado, también señala que Occidente sigue estando a la vanguardia y es necesario considerar cómo mantener esa posición líder con los modelos de vanguardia occidentales.### El espesor acumulado durante muchos años se desata.El hecho de que DeepSeek logre estas innovaciones no es algo que se logre de la noche a la mañana, sino el resultado de años de 'incubación' y planificación a largo plazo. Liang Wenfeng también es el fundador de Quantitative Private Equity Illusion Quantification. Se cree que Deepseek ha aprovechado plenamente los fondos, datos y tarjetas acumulados por la cuantificación de la ilusión.Liang Wenfeng se graduó de la Universidad de Zhejiang con una licenciatura y una maestría en ingeniería electrónica e información. Desde 2008, ha liderado un equipo para explorar el trading cuantitativo totalmente automatizado utilizando el aprendizaje automático y otras tecnologías. En 2015, se estableció High-Flyer Quant, se lanzó el primer modelo de IA al año siguiente, se ejecutó la primera posición comercial generada por el aprendizaje profundo y, en 2018, la IA se estableció como la principal dirección de desarrollo. En 2020, se puso oficialmente en funcionamiento la supercomputadora de IA "Firefly No. 1" de High-Flyer, con una inversión acumulada de más de 100 millones de yuanes y un área equivalente a una cancha de baloncesto, afirmando ser comparable a la potencia de supercomputación de 40,000 computadoras personales. En 2021, High-Flyer invirtió mil millones de yuanes para construir el "Firefly No. 2", que estaba equipado con 10.000 chips A100GPU. En ese momento, no había más de 5 empresas con más de 10.000 GPU en China, y a excepción de High-Flyer Quant, las otras 4 empresas eran todas gigantes de Internet.En julio de 2023, DeepSeek fue establecido oficialmente y se adentró en el campo de la inteligencia artificial general, y nunca ha obtenido financiamiento externo hasta ahora."Tener tarjetas relativamente abundantes y sin presión de financiamiento, solo hacer modelos en los últimos años en lugar de productos, hace que DeepSeek y otras grandes empresas nacionales de modelos parezcan más simples y enfocadas, lo que les permite lograr avances en ingeniería, tecnología y algoritmos." según altos ejecutivos de las grandes empresas nacionales de modelos mencionadas anteriormente.Además, en un momento en que la industria de los modelos grandes se está volviendo cada vez más cerrada y OpenAI se burla llamándola CloseAI, el comportamiento de DeepSeek al abrir y publicar informes técnicos de modelos ha ganado muchos elogios de los desarrolladores, lo que ha permitido que su marca tecnológica destaque rápidamente en el mercado de modelos grandes tanto nacional como internacionalmente.Un investigador de ciencia y tecnología de Pengpai Technology dijo que la apertura de DeepSeek es impresionante, y la liberación de los modelos V3 y R1 ha elevado el nivel de referencia de los modelos de código abierto en el mercado.### ha demostrado el poder de los jóvenes"El éxito de DeekSeek también ha demostrado el poder de los jóvenes, en esencia, el desarrollo de la inteligencia artificial en esta generación requiere mentes jóvenes", dijo un representante de una empresa de modelos a Pengpai Technology.Anteriormente, Jack Clark, ex director de políticas de OpenAI y cofundador de Anthropic, consideraba que DeepSeek contrataba a un grupo de talentos misteriosos y profundos. Sin embargo, Liang Wenfeng, en una entrevista con medios de comunicación, declaró que no había talentos misteriosos y profundos, sino graduados de las mejores universidades nacionales, pasantes de cuarto y quinto año de doctorado, y también jóvenes que se graduaron hace apenas unos años.A partir de los informes públicos de los medios de comunicación existentes, se puede ver que la característica más destacada del equipo de DeepSeek es que son estudiantes de prestigiosas universidades y jóvenes. Incluso los líderes del equipo tienen menos de 35 años. El equipo, que consta de menos de 140 personas, está compuesto principalmente por ingenieros e investigadores de las mejores universidades de China, como la Universidad de Tsinghua, la Universidad de Pekín, la Universidad de Sun Yat-sen y la Universidad de Correos y Telecomunicaciones de Pekín. No han estado trabajando durante mucho tiempo.Un cazatalentos que se encarga de buscar talentos de alta tecnología en el campo de modelos grandes le dijo a PingWest Tech que la lógica de contratación de DeepSeek no difiere mucho de la de otras empresas en el campo de modelos grandes. La etiqueta principal para el talento es "joven y con gran potencial", es decir, nacido alrededor de 1998, con preferiblemente menos de cinco años de experiencia laboral, "inteligente, STEM, joven, con poca experiencia".Sin embargo, el mencionado cazatalentos también señaló que, en esencia, una empresa de puesta en marcha de gran envergadura sigue siendo una empresa de puesta en marcha, y no es que no quieran contratar talento de IA de primer nivel en el extranjero, pero la realidad es que hay pocos talentos de IA de primer nivel en el extranjero dispuestos a regresar.Un empleado de DeepSeek, que no quiso revelar su nombre, reveló a PingWest que la gestión de la empresa es bastante plana y que hay un buen ambiente de comunicación libre. Liang Wenfeng suele tener un paradero desconocido, y la mayoría del tiempo la comunicación con él es en línea.El empleado solía trabajar en una gran empresa en China, donde se dedicaba al desarrollo de tecnología de modelos a gran escala. Sin embargo, se sentía como un simple tornillo en la gran empresa y no podía crear valor, por lo que finalmente decidió unirse a DeepSeek. En su opinión, DeepSeek se centra actualmente en tecnología de modelos de nivel inferior.El ambiente de trabajo de DeepSeek es completamente de abajo hacia arriba, con una distribución natural de tareas y sin límites para la movilidad de personal y proyectos. "Traen sus propias ideas y no necesitan empujones. Cuando encuentran problemas en el proceso de exploración, buscan a sus colegas para discutirlos", dijo Liang Wenfeng en una entrevista anterior.### "Creer que la IA de China ya ha superado a la de Estados Unidos es demasiado pronto"El medio comercial estadounidense Business Insider ha analizado que el nuevo lanzamiento de R1 demuestra que China puede estar a la par con algunos de los mejores modelos de inteligencia artificial de la industria y mantenerse al día con los avances en la vanguardia de Silicon Valley; además, la inteligencia artificial de código abierto tan avanzada también podría suponer un desafío para aquellas empresas que intentan obtener ganancias enormes mediante la venta de tecnología.Sin embargo, es posible que sea demasiado pronto para proclamar enérgicamente que la IA china ha superado a la estadounidense. Liu Zhiyuan advierte públicamente que debemos estar alerta ante el cambio de la opinión pública, pasando de un extremo pesimismo a un extremo optimismo, creyendo que ya hemos superado ampliamente y estamos muy por delante, lo cual no es el caso. Liu Zhiyuan considera que la nueva tecnología AGI está evolucionando rápidamente, y el camino futuro de desarrollo aún no está claro. China todavía está en una etapa de alcanzar, aunque no está completamente rezagada, aún se puede decir que está en camino, "seguir corriendo rápidamente en el camino que otros ya han explorado es relativamente fácil, pero el verdadero desafío es cómo abrir nuevos caminos en la niebla"."Es demasiado volátil ahora, y todos están tan ansiosos que no se dan cuenta de que DeepSeek finalmente se ha agotado". Personas cercanas a DeepSeek lamentaron a The Paper que la velocidad del cambio en la industria es demasiado rápida para predecir lo que se puede hacer a continuación, y solo pueden mirar los cambios en el próximo trimestre del tercer trimestre.Por un lado, Demis Hassabis reconoce la capacidad de ingeniería y la capacidad de escala extremadamente fuertes de China, por otro lado, señala que Occidente sigue liderando y necesita considerar cómo mantener su posición líder en los modelos de vanguardia occidentales.Aunque anteriormente Liang Wenfeng había afirmado que DeepSeek solo se enfocaría en modelos y no en productos, como empresa comercial, es casi imposible seguir solo enfocado en modelos. El 15 de enero, la aplicación oficial de DeepSeek fue lanzada. Una fuente cercana a DeepSeek le dijo a Pengpai Technology que la comercialización ya está en agenda.Según los profesionales de la industria, en comparación con otras grandes empresas emergentes de modelos en China, DeepSeek es afortunada. No tiene presión de financiamiento, no necesita demostrar nada a los inversores, y no tiene que equilibrar la iteración técnica del modelo con la optimización de la aplicación del producto. Sin embargo, como empresa comercial que ha recibido una gran inversión, tarde o temprano tendrá que enfrentar las presiones y desafíos que enfrentan actualmente otras empresas de modelos. "Esta vez, la salida de DeepSeek ha sido un exitoso movimiento de marketing previo a la comercialización, pero en el futuro, una vez que se comercialice realmente, tendrá que someterse a la prueba del mercado. Aún no está claro si podrá continuar avanzando con éxito", dijo un profesional de la empresa de modelos mencionada anteriormente.Lo que se puede determinar es que DeepSeek enfrentará más presión y desafíos en el futuro. La competencia hacia modelos generales acaba de comenzar, y quién podrá ganar dependerá del continuo aporte de fondos y la iteración tecnológica. Sin embargo, los profesionales de la industria también creen que "para la industria de modelos nacionales, es algo bueno que empresas como DeepSeek, que tienen verdadera fuerza técnica, se unan."