DeepSeek може постійно горіти?

Автор: Ю Янь, журналіст новин Пенхуай

·Рекрутер, відповідальний за залучення висококваліфікованих технологічних кадрів в галузі великих моделей, розповів журналістам PingWest, що логіка працевлаштування в DeepSeek майже не відрізняється від логіки інших компаній в цій галузі, а основними характеристиками талантів є «молодий високопотенційний» - тобто народжені приблизно в 1998 році, найкраще мати досвід роботи не більше п'яти років, «розумний, технічний, молодий, мало досвіду».

У спеціалістів галузі вважають, що на відміну від інших великих компаній, які розвивають моделі DeepSeek має щастя, не має фінансового тиску, не потрібно доводити свою вартість інвесторам, не потрібно одночасно забезпечувати технічну ітерацію моделі та оптимізацію застосування продукту. Але як комерційна компанія, після великих інвестицій, рано чи пізно вона так чи інакше стикається з тиском і викликами, які стикаються інші модельні компанії на сьогоднішній день.

У якій китайській компанії в 2024 році найбільше популярності великі моделі? Глибокошукана компанія з обмеженою відповідальністю з основних технологій штучного інтелекту у Ханчжоу (далі - DeepSeek) обов'язково буде сильним конкурентом. Якщо вона була ініціатором минулорічного великого модельного бою напівроку, DeepSeek, що вперше потрапила в громадське бачення, після виходу у світ відкритих моделей DeepSeek-V3 та розуміючих моделей DeepSeek-R1 в кінці року - на початку наступного, DeepSeek повністю вибухнула в громадському обговоренні великих моделей. Люди були шоковані її високим відношенням ціни до якості тренування (говорять, що витрати на тренування моделі DeepSeek-V3 склали всього 5,576 мільйонів доларів США), і водночас вони вітали її за відкритість моделей та публікацію технічних звітів. Вихід DeepSeek-R1 вразив багатьох вчених, розробників та користувачів, навіть деякі вважають, що DeepSeek є потужним конкурентом для моделей розуміння, таких як OpenAI's o1.

Як ця скромна компанія може створити велику модель з високою продуктивністю за допомогою дуже низьких витрат на навчання? Чому вона сьогодні так популярна? Які виклики вона зустріне в майбутні дні, якщо вона буде продовжувати просуватися вперед у світі «модельного круга»?

Інноваційні алгоритми значно знижують вартість обчислювальної потужності

"DeepSeek вклався рано, набрав багато досвіду, має власні особливості в алгоритмах". Високопосадовець відомої внутрішньої компанії з великими моделями, говорячи про DeepSeek, вважає, що головна перевага DeepSeek полягає в інноваціях в алгоритмах: "Китайські компанії через відсутність обчислювальних потужностей більше звертають увагу на економію витрат на обчислювальні потужності, ніж OpenAI".

Згідно з інформацією, опублікованою DeepSeek, DeepSeek-R1 широко використовує техніку підсиленого навчання (Reinforcement learning) на пост-тренувальному етапі, що значно підвищило можливості моделі в момент виведення при мінімальній кількості позначених даних. На завданнях математики, коду та мовного мислення вона показує результати, що рівні офіційній версії OpenAI o1.

! [Чи може DeepSeek горіти?] ](https://img.gateio.im/social/moments-83c6f32c3efc3ac478a4fadb8f222ba8)

Ціна API DeepSeek-R1

Засновник DeepSeek, Лян Венфен, раніше наголошував, що DeepSeek прагне відкрити відмінний технологічний шлях, а не копіювати модель OpenAI; DeepSeek повинен знайти більш ефективний спосіб навчання своїх моделей.

"Вони використовували ряд інженерних прийомів для оптимізації архітектури моделі, таких як інноваційне використання методу гібридних моделей та інші, суть полягає в зниженні витрат шляхом інженерних заходів, щоб зробити його прибутковим." Старший фахівець, який працює в галузі технологій протягом багатьох років, розповів PingWestTech.

За інформацією, оприлюдненою DeepSeek, можна встановити, що вона зробила значний прогрес у структурі MLA (багатоголовий латентний механізм уваги) та власній моделі DeepSeekMOE(Mixture-of-Experts (змішаний експертний модель) через зменшення ресурсів для навчання, роблячи модель DeepSeek більш вигідною з точки зору витрат та підвищуючи ефективність навчання. За даними дослідницької організації Epoch AI, остання модель DeepSeek є дуже ефективною.

У сфері даних DeepSeek використовує алгоритм для узагальнення та класифікації даних, відправляючи їх на велику модель після вибіркової обробки, що підвищує ефективність тренування та знижує витрати DeepSeek. Поява DeepSeek-V3 забезпечує баланс високої продуктивності та низьких витрат, відкриваючи нові можливості для розвитку великих моделей.

Після випуску високоефективної моделі DeepSeek з високою вартістю відношення OpenAI засновник-учасник Андрей Карпаті заявив, що майбутнє, можливо, не потребуватиме великих кластерів GPU.

Професор-доцент кафедри комп'ютерних наук Університету Цінхуа Лю Чжіюань заявив виданню Pingwest, що вихід DeepSeek доводить наші конкурентні переваги, досягаючи більше з менше витрат обмежених ресурсів. Випуск R1 свідчить про те, що відставання нашої AI-потужності від США значно зменшилося. The Economist також у своєму останньому випуску зазначив: "DeepSeek змінює технологічну галузь шляхом інноваційного навчання та модельного дизайну за низькою вартістю."

Головний виконавчий директор та співзасновник Google DeepMind Деміс Хассабіс заявив, що хоча ще не повністю зрозуміло, наскільки система DeepSeek залежить від навчальних даних та відкритих моделей від західних систем, треба визнати, що досягнення цієї команди дійсно вражають. З одного боку, він визнає, що Китай має дуже потужні інженерні та масштабні можливості, а з іншого боку, він вказує на те, що західні системи все ще ведуть, і потрібно розглядати, як зберегти лідируючу позицію західних передових моделей.

багаторічний акцент на накопичення розвитку

DeepSeek не може досягти цих інновацій не за один день, а являє собою результат довгострокового планування та розробки протягом кількох років. Лян Венфен також є засновником квантового приватного фонду Fantasia Quantitative. DeepSeek вважається повністю використовує кошти, дані та карти, накопичені квантовим приватним фондом Fantasia.

Лян Веньфен закінчив Чжецзянський університет зі ступенем бакалавра та магістра в галузі інформаційної та електронної інженерії. З 2008 року він очолює команду, яка досліджує повністю автоматизовану кількісну торгівлю з використанням машинного навчання та інших технологій. У 2015 році була створена компанія High-Flyer Quant, наступного року була запущена перша модель штучного інтелекту, виконана перша торгова позиція, згенерована за допомогою глибокого навчання, а у 2018 році ШІ затвердилася як основний напрямок розвитку. У 2020 році був офіційно введений в експлуатацію суперкомп'ютер зі штучним інтелектом «Firefly No. 1» компанії High-Flyer із сукупними інвестиціями понад 100 мільйонів юанів і площею, еквівалентною баскетбольному майданчику, який претендує на те, щоб бути порівнянним із суперобчислювальною потужністю 40 000 персональних комп'ютерів. У 2021 році High-Flyer інвестувала один мільярд юанів у створення «Світлячка No2», який був оснащений 10 000 A100GPU чіпів. На той момент у Китаї налічувалося не більше 5 компаній з більш ніж 10 000 графічних процесорів, і за винятком High-Flyer Quant, всі інші 4 компанії були інтернет-гігантами.

У липні 2023 року DeepSeek була офіційно створена, вона увійшла в галузь загального штучного інтелекту та досі не залучала зовнішніх інвестицій.

«Є відносно велика кількість карт, немає фінансового тиску, лише робота з моделями без виробництва протягом попередніх кількох років дозволяє DeepSeek і іншим великим вітчизняним компаніям з моделями виглядати більш просто і фокусовано, здатними зробити прорив в інженерній техніці та алгоритміці». Зазначений вище керівник великої вітчизняної компанії з моделями.

Крім того, в умовах все більшого закриття великих моделей, коли OpenAI жартома називають CloseAI, дії DeepSeek щодо відкритості моделей і публікації технічних звітів здобули велику популярність серед розробників, що дозволило їм швидко заявити про свою технологічну марку на внутрішньому та зовнішньому ринках великих моделей.

Дослідники розповіли PingWest, що відкритість DeepSeek дійсно дивовижна, відкриття моделей V3 і R1 підняли планку відкритих моделей на ринку.

підтвердив успіх молоді

«Успіх, досягнутий DeekSeek, показав всій людності силу молоді. В основному, для розвитку штучного інтелекту потрібні молоді розуми», - сказав представник модельної компанії Пенпай Кехтек до технологій.

Раніше, колишній політичний керівник OpenAI та співзасновник Anthropic Джек Кларк вважав, що DeepSeek найняв «групу недоступних геніїв». Про це Лян Веньфен під час інтерв'ю для медіа заявив, що немає ніяких недоступних геніїв, всі вони - випускники провідних університетів країни, або стажуванці, які ще не закінчили аспірантуру, або молоді люди, які закінчили всього кілька років тому.

З вже опублікованих медіа-звітів видно, що головною особливістю команди DeepSeek є вищі навчальні заклади та молодість. Навіть на рівні керівників команди більшість не перетинає 35-річного віку. Команда, менша за 140 осіб, практично повністю складається з випускників провідних університетів Китаю, таких як Тсінхуа, Пекінський, Сунь Ятсен, Пекінський університет пошти та телекомунікацій тощо, і майже всі мають невеликий досвід роботи.

Людина, відповідальна за видобуток високотехнологічних кадрів у сфері великих моделей, розповіла PingWest Technology, що логіка найму в DeepSeek і інших компаніях у сфері великих моделей практично не відрізняється, а основні мітки для кадрів - «молоді та перспективні», тобто народжені приблизно в 1998 році, краще всього з досвідом роботи не більше п'яти років, «розумні, технічні спеціалісти, молоді, з мінімальним досвідом».

Проте вищезазначений рекрутер також вказує, що велика модель компанії заснована на стартапі, і намагається залучити висококваліфікованих фахівців зі штатів, але реальність полягає в тому, що небагато висококваліфікованих фахівців із галузі штатів хочуть повертатися.

Співробітник DeepSeek, який відмовився назвати своє ім'я, розповів технології Penta, що управління в компанії досить плоске, існує добра атмосфера вільного спілкування. Лян Венфенг часто знаходиться в невизначеному місці, і більшість часу усі спілкуються з ним онлайн.

Цей співробітник раніше працював у великому виробництві в країні та розробляв великі технічні моделі, але відчував, що у великому виробництві він більше схожий на гвинт, не може створювати цінність, і в кінцевому підсумку вирішив приєднатися до DeepSeek. На його думку, наразі DeepSeek більше уваги приділяє технології нижнього рівня.

Робоча атмосфера DeepSeek повністю формується знизу вгору, природна розподіл праці, для кожної карти та робочих переміщень немає обмежень, "зі своїми власними думками, не потрібен тиск. Під час дослідницького процесу, коли він зіткнеться з проблемою, він сам залучить людей до обговорення", - зазначив Лян Венфен у попередньому інтерв'ю.

"Вважати, що китайський штучний інтелект вже випередив американський, ще зарано"

Американське комерційне видання Business Insider аналізує, що нова модель R1 свідчить про те, що Китай може бути на рівні з деякими провідними моделями штучного інтелекту в галузі та дотримуватися розвитку сучасних технологій Сіліконової долини; крім того, відкритий доступ до такого передового штучного інтелекту також може становити виклик для компаній, які намагаються заробити величезні прибутки, продаючи технології.

Проте зараз гучно оголошувати, що "китайський штучний інтелект вже випередив США", можливо, ще зарано. Лю Чжиюань публічно заявив, що потрібно бути обачними на те, щоб не дозволити громадській думці перейти від надмірно песимістичної до надмірно оптимістичної, вважати, що ми вже повністю випередили і далеко випереджаємо, "далеко не так". Лю Чжиюань вважає, що нові технології AGI наразі все ще прискорено розвиваються, майбутній шлях розвитку ще не визначено, Китай все ще переслідує, хоча вже не можна сказати, що він недосяжний, але можна сказати, що це все ще можливо, "бігти швидше вздовж шляху, який вже досліджено іншими, є відносно просто, а подальше відкриття нових шляхів у тумані - це вже більше виклик".

“Зараз все занадто перебірливо, всі занадто поспішають і не усвідомлюють, що DeepSeek вийшов останнім.” Люди, які були близькі до DeepSeek, висловлюють свої враження Помічають, що зміни в галузі відбуваються занадто швидко, і неможливо передбачити, що можна зробити далі, хіба що подивитися, як зміниться наступний третій квартал.

Деміс Хасабіс визнає, що Китай має дуже потужні інженерні та масштабні здібності, але водночас вказує на те, що західні країни все ще перебувають на чолі і потрібно розглядати шляхи збереження лідерства західних моделей.

Хоча раніше Лян Венфенг заявив, що DeepSeek робить лише модель, а не продукт. Однак як комерційна компанія, майже неможливо завжди робити лише модель, а не продукт. 15 січня офіційно випущено DeepSeek App. Представники, які близькі до DeepSeek, повідомили Пенхай технології, що комерціалізація була включена до порядку денного DeepSeek.

За словами фахівців галузі, у порівнянні з іншими великими модельними компаніями в Китаї, DeepSeek є щасливою, оскільки вона не має фінансового тиску, не потрібно доводити свою цінність інвесторам, і не потрібно забезпечувати одночасну оптимізацію технічної ітерації моделі та застосування продукту. Однак, як комерційна компанія, після значних інвестицій вона рано чи пізно зіткнеться з тиском та викликами, які стикаються інші модельні компанії на сьогоднішній день. «Цей успіх вибив DeepSeek перед комерціалізацією, але у майбутньому, після справжньої комерціалізації, вона має пройти перевірку ринку, щоб побачити, чи може продовжувати боротьбу з хвилями», - зазначив представник зазначеної модельної компанії.

Безсумнівним є те, що в майбутньому DeepSeek зіткнеться з більшим тиском і викликами, а гонка за універсальною моделлю тільки почалася, і хто переможе, залежатиме від постійного інвестування грошей і ітерації технологій. Однак інсайдери галузі також вважають, що «для вітчизняної модельної індустрії добре, що до неї приєдналася компанія з реальною технічною силою, така як DeepSeek». ”

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити