Pode o DeepSeek continuar a ser popular?

Question

**Autor: Yu Yan, repórter da The Paper**Um headhunter responsável pela busca de talentos de ponta no campo de grandes modelos disse à PingWest Tech que a lógica de contratação da DeepSeek não é muito diferente da de outras empresas no campo de grandes modelos. O rótulo central para talentos é 'jovem e com grande potencial', ou seja, nascidos por volta de 1998, com preferência por menos de cinco anos de experiência de trabalho, 'inteligente, formação em ciências e engenharia, jovem, com pouca experiência'.· In the eyes of industry insiders, DeepSeek is lucky compared to other large-scale model startups in China. It does not have financing pressure, does not need to prove to investors, and does not need to balance the technical iteration of the model and the optimization of product applications. However, as a commercial company, after a huge investment, sooner or later, it will face the pressure and challenges faced by other model companies at present.Qual é a empresa mais popular no círculo de grandes modelos da China em 2024? A DeepSeek, a empresa de pesquisa em tecnologia básica de inteligência artificial de Hangzhou (doravante referida como DeepSeek), é definitivamente uma concorrente forte. Como o iniciador da guerra de preços dos grandes modelos no ano passado, DeepSeek entrou no campo de visão do público. Após o lançamento sucessivo dos modelos de código aberto DeepSeek-V3 e do modelo de raciocínio DeepSeek-R1 no final do ano, DeepSeek provocou completamente o debate público no círculo de grandes modelos. As pessoas ficam surpresas com o custo de treinamento de alto custo (diz-se que DeepSeek-V3 custou apenas 5,576 milhões de dólares americanos), e aplaudem a abertura do modelo e a publicação de relatórios técnicos. O lançamento do DeepSeek-R1 deixou muitos cientistas, desenvolvedores e usuários animados, e até mesmo consideram a DeepSeek como um concorrente forte dos modelos de raciocínio, como o o1 da OpenAI.Como essa empresa discreta consegue criar grandes modelos de desempenho com custos de treinamento tão baixos? O que ela fez certo para obter sucesso hoje? Quais desafios ela enfrentará no futuro para continuar avançando no campo dos modelos?### A inovação algorítmica resultou em uma redução significativa nos custos de computação"DeepSeek entered early and accumulated a lot, with its own unique features in algorithms." The executive of a well-known large-scale model startup in China said when referring to DeepSeek that he believes that the core advantage of DeepSeek's popularity is still due to the innovation in algorithms. "Chinese companies, due to the lack of computing power, will pay more attention to cost savings in computing power costs compared to OpenAI."De acordo com as informações divulgadas pela DeepSeek sobre o DeepSeek-R1, a tecnologia de aprendizado por reforço foi amplamente utilizada na fase de pós-treinamento para melhorar consideravelmente a capacidade de inferência do modelo, mesmo com muito poucos dados de marcação. O desempenho é comparável ao OpenAI o1 oficial em tarefas como matemática, código e raciocínio de linguagem natural.![DeepSeek can it continue to be popular?](https://img.gateio.im/social/moments-83c6f32c3efc3ac478a4fadb8f222ba8)```Preço da API DeepSeek-R1```O fundador da DeepSeek, Liang Wenfeng, enfatizou várias vezes que a DeepSeek está comprometida em abrir uma linha de tecnologia diferenciada, em vez de copiar o modelo da OpenAI. A DeepSeek deve encontrar maneiras mais eficazes de treinar seus modelos."Eles usaram uma série de habilidades de engenharia para otimizar a arquitetura do modelo, como o uso inovador de métodos de modelo híbrido, etc. O objetivo fundamental é reduzir os custos através da engenharia para que ela possa ser lucrativa," disse um profissional sênior que trabalha há anos na indústria de tecnologia à PingWest Tech.De acordo com as informações divulgadas pela DeepSeek, eles fizeram grandes avanços em termos de mecanismo de atenção latente de várias cabeças (MLA) e no modelo de especialistas mistos DeepSeekMOE( de desenvolvimento próprio. Esses dois projetos reduzem os recursos de computação necessários para o treinamento, tornando o modelo DeepSeek mais rentável e aumentando a eficiência do treinamento. De acordo com os dados da Epoch AI, o modelo mais recente da DeepSeek é extremamente eficiente.Em termos de dados, ao contrário da abordagem de "alimentação massiva de dados" da OpenAI, o DeepSeek utiliza algoritmos para resumir e classificar os dados, processando-os seletivamente antes de os fornecer aos grandes modelos, aumentando a eficiência do treino e reduzindo os custos do DeepSeek. A introdução do DeepSeek-V3 alcançou um equilíbrio entre alto desempenho e baixo custo, oferecendo novas possibilidades para o desenvolvimento de grandes modelos."No futuro, talvez não seja mais necessário um cluster de GPU de grande escala." Após o lançamento do modelo de alto custo-benefício da DeepSeek, o membro fundador da OpenAI, Andrej Karpathy, afirmou.Liu Zhiyuan, tenured associate professor of the Department of Computer Science, Tsinghua University, told Pengpai Technology that the rise of DeepSeek precisely proves our competitive advantage, achieving more with less through the ultimate efficient use of limited resources. The release of R1 signifies that the gap in AI capabilities between us and the United States has significantly narrowed. The Economist also stated in its latest issue: 'DeepSeek is changing the technology industry with its innovative low-cost training and model design.'Demis Hassabis, atual CEO e co-fundador da Google DeepMind, afirmou que, embora não esteja claro o grau de dependência exato do DeepSeek em relação aos sistemas ocidentais em termos de dados de treinamento e modelos de código aberto, é preciso reconhecer que as conquistas da equipe são impressionantes. Por um lado, ele reconhece a forte capacidade de engenharia e escalabilidade da China, mas, por outro lado, observa que o Ocidente ainda está na vanguarda e precisa considerar como manter sua liderança em modelos avançados.### A acumulação sólida após anos de focoA capacidade do DeepSeek de alcançar essas inovações não é obra de um dia, mas sim o resultado de anos de 'incubação' e planejamento a longo prazo. Liang Wenfeng também é o fundador do fundo privado quantitativo de destaque, Fantasia Quantitativa. O Deepseek é considerado como aproveitando plenamente os fundos, dados e estratégias acumulados pela Fantasia Quantitativa.Liang Wenfeng formou-se na Universidade de Zhejiang com uma licenciatura e um mestrado em engenharia da informação e eletrónica. Desde 2008, ele liderou uma equipe para explorar a negociação quantitativa totalmente automatizada usando aprendizado de máquina e outras tecnologias. Em 2015, o High-Flyer Quant foi estabelecido, o primeiro modelo de IA foi lançado no ano seguinte, a primeira posição de negociação gerada pelo deep learning foi executada e, em 2018, a IA foi estabelecida como a principal direção de desenvolvimento. Em 2020, o supercomputador de IA da High-Flyer "Firefly No. 1", com um investimento acumulado de mais de 100 milhões de yuans e uma área equivalente a uma quadra de basquete, foi oficialmente colocado em operação, alegando ser comparável ao poder de supercomputação de 40.000 computadores pessoais. Em 2021, a High-Flyer investiu um bilhão de yuans para construir o "Firefly No. 2", que foi equipado com 10.000 chips A100GPU. Naquela época, não havia mais de 5 empresas com mais de 10.000 GPUs na China, e com exceção da High-Flyer Quant, as outras 4 empresas eram todas gigantes da Internet.Em julho de 2023, a DeepSeek foi oficialmente fundada e entrou no campo geral de inteligência artificial, e até agora nunca recebeu financiamento externo.Um executivo de uma grande empresa chinesa de modelos disse: "Temos cartões relativamente suficientes e não há pressão de financiamento. Nos últimos anos, apenas criamos modelos e não lançamos produtos, o que torna a DeepSeek e outras grandes empresas chinesas de modelos mais simples e focadas, permitindo a elas fazer avanços em engenharia, tecnologia e algoritmos."Além disso, à medida que a indústria de modelos em grande escala se torna mais fechada e a OpenAI é apelidada de CloseAI, as ações de código aberto e relatórios técnicos públicos do modelo DeepSeek também receberam muitos elogios dos desenvolvedores, permitindo que sua marca tecnológica se destaque rapidamente no mercado de modelos em grande escala nacional e internacional.Alguns pesquisadores disseram à PingWest que a abertura do DeepSeek é impressionante, e a disponibilidade dos modelos V3 e R1 elevou o padrão dos modelos de código aberto no mercado.### provou o poder dos jovensO sucesso alcançado pela DeekSeek também mostrou a todos o poder dos jovens, essencialmente, o desenvolvimento da inteligência artificial nesta geração precisa de mentes jovens. Um representante de uma empresa de modelos disse à Pengpai Technology.Anteriormente, Jack Clark, ex-diretor de políticas da OpenAI e co-fundador da Anthropic, acreditava que a DeepSeek havia contratado "um grupo de talentos misteriosos e profundos". No entanto, Liang Wenfeng afirmou em uma entrevista para a mídia que não há talentos misteriosos e profundos, apenas graduados das melhores universidades domésticas, estagiários de doutorado e pós-doutorado que ainda não se formaram, e alguns jovens que se formaram há apenas alguns anos.A partir das reportagens de mídia já divulgadas até o momento, é possível perceber que a maior característica da equipe DeepSeek é ser formada por pessoas jovens e de universidades renomadas. Mesmo os líderes da equipe têm menos de 35 anos. Com uma equipe de menos de 140 pessoas, a maioria dos engenheiros e desenvolvedores são provenientes de universidades de prestígio na China, como Tsinghua, Universidade de Pequim, Universidade Sun Yat-sen e Universidade de Telecomunicações de Pequim, e têm pouco tempo de trabalho.Um headhunter responsável por recrutar talentos de alta tecnologia no campo de modelos grandes disse à Pengpai Technology que a lógica de contratação da DeepSeek não é muito diferente da lógica de contratação de outras empresas no campo de modelos grandes. A etiqueta principal para os talentos é 'jovem e com grande potencial', ou seja, nascidos por volta de 1998, com preferência por até cinco anos de experiência de trabalho. Inteligente, com formação em ciência e tecnologia, jovem e com pouca experiência.No entanto, o mencionado headhunter também afirmou que, a empresa de grande porte é essencialmente uma startup, e não é que não queira contratar talentos de IA de ponta do exterior, mas a realidade é que não há muitos talentos de IA de ponta dispostos a retornar.Um funcionário da DeepSeek, que preferiu não se identificar, revelou à PingWest que a gestão da empresa é bastante plana e que há um bom ambiente de comunicação livre. Liang Wenfeng geralmente tem um paradeiro incerto e a maioria das interações com ele é feita online.O funcionário trabalhou anteriormente no desenvolvimento de tecnologia de modelos grandes em uma grande empresa doméstica, mas sentiu que era apenas um parafuso na grande empresa e não podia criar valor, então decidiu ingressar na DeepSeek. Na sua opinião, a DeepSeek está atualmente mais focada na tecnologia de modelos de base.O ambiente de trabalho na DeepSeek é completamente bottom-up, com divisão natural do trabalho, sem limites para a movimentação de cartões e pessoas. 'Traga suas próprias ideias, não precisa de empurrão. Durante a exploração, se ele encontrar problemas, ele vai chamar pessoas para discutir', disse Liang Wenfeng em uma entrevista anterior.### "Acreditar que a IA chinesa já ultrapassou os Estados Unidos é prematuro"A mídia comercial americana Business Insider analisou que o recém-lançado R1 mostrou que a China pode ser comparável a alguns dos principais modelos de inteligência artificial da indústria e manter-se em sincronia com o desenvolvimento de ponta do Vale do Silício nos Estados Unidos; em segundo lugar, a inteligência artificial tão avançada de código aberto também pode representar um desafio para empresas que tentam obter lucros enormes vendendo tecnologia.No entanto, é talvez demasiado cedo para proclamar agora que a IA chinesa já ultrapassou a americana. Liu Zhiyuan expressou publicamente a necessidade de estar atento à mudança da opinião pública, passando de extremamente pessimista para extremamente otimista, acreditando que já ultrapassamos completamente e estamos muito à frente, o que está longe de ser verdade. Liu Zhiyuan acredita que as novas tecnologias AGI atuais ainda estão a evoluir rapidamente e o caminho futuro do desenvolvimento ainda não está claro. A China ainda está numa fase de alcançar, embora já não esteja fora de alcance, ainda é relativamente fácil seguir o caminho que os outros já exploraram. O próximo grande desafio será como abrir novos caminhos na névoa."Agora está tudo muito agitado, todo mundo está muito apressado e não percebeu que o DeepSeek finalmente saiu." As pessoas próximas ao DeepSeek expressaram ao The Paper Technology que a velocidade das mudanças na indústria é muito rápida, sendo impossível prever o que fazer em seguida, apenas observar as mudanças no próximo trimestre Q3.Dmitri Hashabbis acknowledges on the one hand that China has very strong engineering and scaling capabilities, and on the other hand, he also points out that the West is still ahead and needs to consider how to maintain the leading position of Western cutting-edge models.Embora Liang Wenfeng tenha afirmado anteriormente que a DeepSeek só faz modelos e não produtos, como uma empresa comercial, é praticamente impossível continuar apenas fazendo modelos sem fazer produtos. No dia 15 de janeiro, o aplicativo oficial da DeepSeek foi oficialmente lançado. Pessoas próximas à DeepSeek disseram à Pengpai Technology que a comercialização já está na agenda da DeepSeek.Na opinião de profissionais da indústria, em comparação com outras grandes empresas de modelo de negócios nacionais, a DeepSeek é sortuda por não ter pressão de financiamento, não precisar provar aos investidores e não precisar equilibrar a iteração técnica do modelo e a otimização da aplicação do produto. Mas como uma empresa comercial, após um grande investimento, cedo ou tarde enfrentará a pressão e os desafios que outras empresas de modelos enfrentam atualmente. "Esta vez, o DeepSeek fez uma campanha bem-sucedida antes da comercialização, mas no futuro, após a verdadeira comercialização, precisará ser testado pelo mercado, e se poderá continuar a avançar ainda é difícil de dizer", disse o funcionário da empresa de modelos acima mencionado.It can be certain that DeepSeek will face more pressure and challenges in the future, and the competition towards universal models is just beginning. Who can win depends on the continuous investment of funds and technological iteration. But industry insiders also believe, "For the domestic model industry, it is a good thing to have companies with true technical strength like DeepSeek joining."