Может ли DeepSeek оставаться в тренде?

Автор: Ю Янь, журналист новостей Пэньпай

· Один из руководителей по подбору высококвалифицированных технологических специалистов в области больших моделей сообщил Пэньпай Технолоджи, что логика найма в DeepSeek и других компаниях в области больших моделей практически не отличается, основными метками для специалистов являются «молодость и высокий потенциал», то есть рождение примерно в 1998 году, желательный опыт работы не более пяти лет: «умный, естественные науки, молодой, мало опыта».

По мнению инсайдеров индустрии, по сравнению с другими крупными стартапами в области моделей DeepSeek считается удачливой, так как у нее нет финансовых давлений, не нужно доказывать перед инвесторами, нет необходимости уделять внимание техническому развитию модели и оптимизации продукта. Но как коммерческая компания, после крупных инвестиций, рано или поздно ей придется столкнуться с давлением и вызовами, с которыми сталкиваются другие компании в этой сфере.

Какая компания была самой популярной в китайской сфере больших моделей в 2024 году? Однозначно, это Hangzhou DeepSeek AI Research Co., Ltd. (далее - DeepSeek). Если говорить о том, что DeepSeek, как инициатор ценовой войны на рынке больших моделей в середине прошлого года, попал в общественное поле зрения, а затем в конце года и начале нового года последовательно выпустил свои открытые модели DeepSeek-V3 и рекомендательную модель DeepSeek-R1, то DeepSeek полностью взорвал информационное поле сферы больших моделей. Люди были поражены его высокой стоимостью обучения (говорят, что обучение модели DeepSeek-V3 обошлось всего в 557,6 миллиона долларов США), а также приветствовали его открытость и публикацию технических отчетов. Выпуск DeepSeek-R1 вызвал восторг у многих ученых, разработчиков и пользователей, и многие считают, что DeepSeek является мощным конкурентом модели o1 от OpenAI.

Как эта скромная компания может создавать большие модели с хорошей производительностью при очень низкой стоимости обучения? Чему она обязана своей сегодняшней популярностью? Какие вызовы она будет сталкиваться в будущем, если хочет продолжать успешно развиваться в мире "моделей"?

Инновации в алгоритмах существенно снижают затраты на вычислительную мощность.

«DeepSeek инвестировал рано, накопил много и имеет свои особенности в алгоритме». Ссылаясь на DeepSeek, топ-менеджер отечественной звездной стартап-компании по производству крупномасштабных моделей сказал, что, по его мнению, основное преимущество DeepSeek связано с инновационными алгоритмами: «Китайские компании будут уделять больше внимания экономии затрат на вычислительную мощность, чем OpenAI, из-за нехватки вычислительных мощностей». ”

Согласно информации, опубликованной DeepSeek-R1, во время последнего этапа обучения (Post-Training) широко использовалась технология обучения с подкреплением (Reinforcement learning), что значительно улучшило способности модели в выводе при минимальном количестве размеченных данных. На математических, программных, задачах естественного языка и других задачах производительность сравнима с официальной версией OpenAI o1.

! [Может ли DeepSeek оставаться в огне?] ](https://img.gateio.im/social/moments-83c6f32c3efc3ac478a4fadb8f222ba8)

Цена API DeepSeek-R1

Основатель DeepSeek Лян Вэнфэн ранее неоднократно подчеркивал, что DeepSeek стремится открыть дифференцированный технический путь, а не копировать модель OpenAI, DeepSeek должен придумать более эффективные методы обучения своей модели.

«Они использовали ряд инженерных приемов для оптимизации архитектуры модели, таких как инновационное использование метода гибридной модели и т. д. Основная цель - снизить затраты за счет инженерии, чтобы она могла приносить прибыль», - сказал опытный специалист, работающий в технологической отрасли уже несколько лет, в интервью порталу PingWest Technology.

Согласно информации, опубликованной DeepSeek, можно увидеть, что они сделали значительные успехи в области структуры MLA (Multi-head Latent Attention) и своей собственной модели DeepSeekMOE(Mixture-of-Experts (смесь экспертов), что позволяет уменьшить вычислительные ресурсы обучения и делает модель DeepSeek более эффективной с точки зрения затрат, а также повышает эффективность обучения. Согласно данным исследовательского института Epoch AI, последняя модель DeepSeek очень эффективна.

В отношении данных DeepSeek использует алгоритм для суммирования и классификации данных, которые отличаются от подхода OpenAI «подачи огромного объема данных». После селективной обработки данные передаются большой модели, что повышает эффективность обучения и снижает затраты на DeepSeek. Появление DeepSeek-V3 достигает баланса между высокой производительностью и низкой стоимостью, предоставляя новые возможности для развития больших моделей.

"Возможно, в будущем не понадобится огромное количество кластеров GPU." После выпуска высокоэффективной модели DeepSeek основной участник OpenAI Андрей Карпати заявил.

Лю Чжиюань, штатный доцент кафедры компьютерных наук в Университете Цинхуа, сказал The Paper, что появление DeepSeek в этом круге только доказывает наше конкурентное преимущество, благодаря чрезвычайно эффективному использованию ограниченных ресурсов, чтобы достичь большего с меньшими затратами. Релиз R1 показывает, что разрыв между нами и Соединенными Штатами в силе ИИ значительно сократился. Журнал The Economist также сообщил в последнем выпуске: «DeepSeek трансформирует технологическую отрасль благодаря своему недорогому обучению и инновациям в области проектирования моделей. ”

Главный исполнительный директор и сооснователь Google DeepMind Демис Хассабис заявил, что хотя пока не ясно, в какой степени DeepSeek зависит от западных систем в области обучающих данных и открытых моделей, следует признать, что достижения этой команды действительно впечатляют. С одной стороны, он признает, что в Китае есть очень мощная инженерная и масштабируемая способность, а с другой стороны, он также указывает на то, что запад остается впереди и что нужно обеспечить сохранение лидирующего положения западных передовых моделей.

Много лет сосредоточения приводят к накоплению и развитию

DeepSeek не является результатом однодневной работы, а является результатом нескольких лет «инкубации» и долгосрочного планирования. Лян Вэньфэн - также основатель ведущего квантового фонда Хуанфан Лянфан. Deepseek считается полноценно использующим средства, данные и карты, накопленные квантовым фондом Хуанфан.

Лян Вэнфэн окончил бакалавриат и магистратуру в Университете Чжэцзян в Китае с дипломами по информатике и электронной инженерии. С 2008 года он начал руководить командой, исследующей автоматизированную квантовую торговлю с использованием машинного обучения и других технологий. В 2015 году была создана квантовая компания Huobi Quantitative, а на следующий год была запущена первая модель искусственного интеллекта, алгоритмы которой были разработаны с использованием глубокого обучения. В 2018 году компания определила развитие на основе искусственного интеллекта как основное направление. В 2020 году Huobi Quantitative инвестировала более миллиарда юаней и запустила в работу сверхкомпьютер YH-1, площадью, сравнимой с баскетбольным кортом, который обладает вычислительной мощностью, эквивалентной 40 000 ПК. В 2021 году был запущен проект YH-2, в который было инвестировано 1 миллиард юаней и который оснащен 10 000 графическими процессорами A100. В то время количество компаний в Китае, имеющих более 10 000 графических процессоров, не превышало 5, и за исключением Huobi Quantitative, все они были крупными интернет-компаниями.

В июле 2023 года DeepSeek была официально создана и вошла в область общего искусственного интеллекта, и до сих пор не привлекала внешние инвестиции.

«Есть относительно достаточно карт, нет финансового давления, в течение нескольких предыдущих лет мы только создавали модели, не выпуская продукцию, что делает DeepSeek и другие крупные компании по созданию моделей в Китае более чистыми и сфокусированными, что позволяет сделать прорывы в инженерных технологиях и алгоритмах» - заявил высокопоставленный сотрудник одной из таких китайских компаний.

Кроме того, поскольку в крупной отрасли моделей все больше идет к закрытию, когда OpenAI шутливо называют CloseAI, поведение DeepSeek по открытию модели и публикации технических отчетов также получило много положительных отзывов разработчиков, что позволило его технологическому бренду быстро выйти на мировой рынок крупных моделей.

Одни исследователи сообщили PingWest о том, что открытость DeepSeek впечатляет, и открытость моделей V3 и R1 подняла базовый уровень открытых моделей на рынке.

успешно доказал силу молодежи

«Успех DeekSeek также позволяет увидеть силу молодежи, по сути, развитие искусственного интеллекта в этом поколении требует более молодых умов», - сказал представитель модельной компании Пэньпай Технолоджи.

Ранее бывший глава отдела политики OpenAI и сооснователь Anthropic Джек Кларк считал, что DeepSeek наняла "группу загадочных талантов", но Лян Вэньфэн в интервью для средств массовой информации отметил, что нет ничего загадочного в этих талантах, все они являются выпускниками ведущих университетов Китая, стажерами четвёртого и пятого года обучения, а также молодыми людьми, которые окончили университет всего несколько лет назад.

Из открытых сведений в средствах массовой информации можно сделать вывод, что основной особенностью команды DeepSeek является принадлежность к престижным университетам и молодой возраст, даже у руководителей команды возраст редко превышает 35 лет. В команде, насчитывающей менее 140 человек, практически все инженеры и разработчики происходят из ведущих университетов Китая, таких как Университет Цинхуа, Пекинский университет, Университет Чжуншань, Пекинский университет почтовой связи, их трудовой стаж также не очень большой.

Одна из ответственных рекрутов, занимающихся привлечением высококлассных технических специалистов в области крупных моделей, рассказала "Ping West Technology", что кадровая политика DeepSeek практически не отличается от политики других компаний в этой области. Основные характеристики специалистов - "молодой высокопотенциальный", то есть родившиеся примерно в 1998 году, с опытом работы не более пяти лет, "умные, научно-техническое образование, молодые, мало опыта".

Однако, как сказал вышеупомянутый охотник за головами, компания с крупной моделью все равно остается стартапом, и не так много зарубежных талантов в области искусственного интеллекта хотят вернуться.

Сотрудник DeepSeek, который не желает раскрывать свое имя, рассказал технологическому изданию Pengpai, что управление в компании очень плоское, и здесь царит атмосфера свободного общения. Лян Вэньфэн часто меняет местоположение, и большую часть времени общение с ним происходит онлайн.

Этот сотрудник ранее работал над разработкой технологии больших моделей в крупной отечественной фабрике, но почувствовал, что в крупной фабрике он больше похож на винт, не способный создавать ценность, и в конечном итоге решил присоединиться к DeepSeek. По его мнению, в настоящее время DeepSeek более сосредоточена на технологии низкоуровневых моделей.

Рабочая атмосфера DeepSeek полностью формируется снизу вверх, естественное разделение труда, у каждого нет ограничений в отношении перемещения карт и людей, "с собственными идеями, не нуждается в наставлении. В процессе исследования, когда он сталкивается с проблемой, он сам начинает обсуждение". - сказал Лян Вэнфэнь в предыдущем интервью.

"Считать, что искусственный интеллект в Китае уже превзошел США, еще рано"

Американское деловое издание Business Insider считает, что новая модель R1 показывает, что Китай может быть на уровне некоторых лучших моделей искусственного интеллекта в отрасли и держать шаг с передовым развитием в Силиконовой долине в США; во-вторых, открытый и настолько передовой искусственный интеллект также может представлять вызов для компаний, которые пытаются получить огромные прибыли за счет продажи технологий.

Однако сейчас, возможно, еще рано говорить, что «китайский AI уже превзошел Америку». Лю Чжиюань открыто сказал, что необходимо быть осторожным с тем, чтобы общественное мнение не перешло от крайне пессимистичного к крайне оптимистическому, думая, что мы уже полностью превзошли и далеко опережаем других, «этого еще нет». Лю Чжиюань считает, что новые технологии AGI все еще развиваются с ускоренными темпами, путь будущего развития еще не определен, Китай до сих пор находится в стадии догоняющего развития, хотя он уже не так далек от других стран, но можно сказать, что он все еще находится в начальном этапе. «Быстро следовать по дороге, которую уже исследовали другие, все еще относительно легко. Но как открыть новый путь в тумане, это гораздо большой вызов», - говорит Лю Чжиюань.

«Сейчас все слишком заволнованы и спешат, но не осознают, что DeepSeek в конце концов успешно стартовал». Люди, близкие к DeepSeek, выразили свои впечатления для печатного издания Пеньпай Кэцзи, заявив, что темпы изменений в отрасли слишком высоки, и невозможно предсказать, что можно сделать дальше, только можно наблюдать изменения в следующем третьем квартале.

Демис Хасабис с одной стороны признает, что Китай обладает очень сильными инженерными и масштабными способностями, с другой стороны он также указывает на то, что запад остается впереди и нужно рассмотреть, как сохранить ведущие позиции западной передовой модели.

Хотя ранее Лян Вэньфэнг заявил, что DeepSeek занимается только моделями, а не продуктами, но как коммерческая компания практически невозможно всегда оставаться только моделями. 15 января официально запущено приложение DeepSeek. Источник, близкий к DeepSeek, сообщил Пэньпай технологиям, что коммерциализация уже включена в планы DeepSeek.

По мнению инсайдеров отрасли, по сравнению с другими крупными модельными стартапами в Китае, DeepSeek считается удачливой компанией, не испытывающей финансового давления, не нуждающейся в доказательствах перед инвесторами, не обязанной одновременно заботиться о технической итерации моделей и оптимизации их продуктового применения. Однако, будучи коммерческой компанией, после крупных инвестиций она рано или поздно столкнется с давлением и вызовами, с которыми сталкиваются другие компании-модели на рынке. “Этот выход DeepSeek на новый уровень является успешным маркетинговым ходом перед коммерциализацией, но в будущем, после настоящей коммерциализации, ей придется пройти проверку рынка, и пока трудно сказать, сможет ли она продолжать свой путь,” - заявил представитель вышеупомянутой модельной компании.

Можно утверждать, что DeepSeek в будущем столкнется с еще большим давлением и вызовами. Соревнование за универсальные модели только начинается, и победа зависит от постоянных инвестиций в финансы и технологическую итерацию. Однако в отрасли также считают, что "для отечественной отрасли моделей важно, чтобы в нее вступали компании с настоящими техническими возможностями, такие как DeepSeek".

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить