DeepSeek能一直火下去嗎?

作者:喻琰,澎湃新聞記者

·有負責大模型領域挖掘高端科技人才的獵頭告訴澎湃科技,DeepSeek的用人邏輯和大模型領域其他公司的用人邏輯並無太大差異,對人才的核心標籤都是“年輕高潛”,即年齡在1998年出生左右,工作經驗最好不要超過五年,“聰明、理工科、年輕、經驗少。”

·在業內人士看來,和國內其他大模型創業公司相比DeepSeek是幸運的,沒有融資壓力,不需要向投資人證明,不需要兼顧模型的技術迭代和產品應用的優化。但作為一家商業公司,巨資投入後,或早或晚都要面臨目前其他模型公司面臨的壓力和挑戰。

2024年中國大模型圈最火的是哪家?杭州深度求索人工智能基礎技術研究有限公司(以下簡稱DeepSeek)一定是有力競爭者,如果說作為去年年中大模型價格戰的發起者,DeepSeek初入公眾視野,到了歲末年初先後對外發布開源模型DeepSeek-V3和推理模型DeepSeek-R1後,DeepSeek徹底引爆了大模型圈的輿論場。人們一邊驚訝於其高性價比的訓練成本(據說DeepSeek-V3僅花費了557.6萬美元的訓練成本),另一方面為其模型開源和公開技術報告的行為鼓掌稱讚。DeepSeek-R1的發佈,讓不少科學家、開發者和用戶們都興奮不已,甚至認為DeepSeek是OpenAI的o1等推理模型強有力的競爭對手。

這家低調的公司為何可以做到用極低的訓練成本做出性能不差的大模型?它今天的火爆得益於它做對了什麼?在未來的日子裡,它要想繼續在“模圈”乘風破浪一路向前將會面臨怎樣的挑戰?

算法創新使得算力成本大幅下降

“DeepSeek投入早,積累多,在算法上有自己的特色。”國內一家明星大模型創業公司的高管在提及DeepSeek時表示,他認為DeepSeek之所以能火出圈,最核心的優勢還是得益於算法上的創新,“中國公司因為缺乏算力,所以在算力成本上會比OpenAI更注重節約。”

根據DeepSeek公佈的DeepSeek-R1信息顯示,其在後訓練階段(Post-Training)大規模使用了強化學習(Reinforcement learning)技術,在僅有極少標註數據的情況下,極大提升了模型推理能力。在數學、代碼、自然語言推理等任務上,性能比肩 OpenAI o1 正式版。

DeepSeek能一直火下去嗎?

DeepSeek-R1 API價格

DeepSeek創始人樑文鋒此前曾多次強調,DeepSeek致力於開闢差異化技術路線,而非複製OpenAI的模式,DeepSeek必須想出更有效的方法來訓練其模型。

“他們使用了一系列工程技巧優化了模型架構,比如創新地使用模型混合方法等,本質的目的是透過工程化降低成本使其可以盈利。”在科技行業從業多年的資深人士告訴澎湃科技。

根據DeepSeek對外披露的信息可以發現,其在MLA(Multi-head Latent Attention)多頭潛在注意力機制和自研的DeepSeekMOE(Mixture-of-Experts混合專家模型)結構方面取得了重大進展,這兩種技術設計通過減少訓練計算資源,使DeepSeek模型更具成本效益,也提升了訓練效率。根據研究機構Epoch AI的數據,DeepSeek 的最新模型非常高效。

在數據方面,與OpenAI“海量數據投喂”的方式不同,DeepSeek利用算法把數據進行總結和分類,經過選擇性處理之後,輸送給大模型,提高了訓練效率,也降低了DeepSeek的成本。DeepSeek-V3的出現,實現了高性能與低成本的平衡,給大模型發展提供了新的可能性。

“未來或許不需要超大規模的GPU集群了。”在DeepSeek的高性價比模型發佈後,OpenAI創始成員Andrej Karpathy表示。

清華大學計算機系長聘副教授劉知遠向澎湃科技表示,DeepSeek的出圈,恰恰證明了我們的競爭優勢所在,通過有限資源的極致高效利用,實現以少勝多。R1的發佈,正表明我們與美國的AI實力差距明顯縮小了。《經濟學人》也在最新一期報道中稱:“DeepSeek以其低成本的訓練與模型設計的創新同步改變科技行業。”

現任Google DeepMind的首席執行官兼聯合創始人德米斯·哈薩比斯(Demis Hassabis)表示,雖然尚不完全清楚DeepSeek在訓練數據和開源模型方面對西方系統的具體依賴程度,但必須承認該團隊所取得的成就確實令人印象深刻。一方面,他認可中國擁有非常強大的工程能力和規模化能力,另一方面,他也指出,西方仍然領先,並且需要考慮如何保持西方前沿模型的領先地位。

多年聚焦的厚積薄發

DeepSeek之所以能取得這些創新並非一日之功,而是“孵化”數年之久,長期謀劃後的結果。樑文鋒也是頭部量化私募幻方量化的創始人。Deepseek被認為充分利用了幻方量化積累的資金、數據和卡。

樑文鋒本科、研究生畢業於浙江大學,擁有信息與電子工程學系本科和碩士學位。2008年起,他開始帶領團隊使用機器學習等技術探索全自動量化交易。2015年,幻方量化成立,次年推出第一個AI模型,第一份由深度學習生成的交易倉位上線執行,2018年確立以AI為主要發展方向。2020年,幻方累計投資超億元、佔地面積相當於一個籃球場的AI超級計算機“螢火一號”正式投入運作,號稱可以匹敵4萬臺個人電腦的超級算力。2021年,幻方投入十億建設“螢火二號”,“配備了1萬張A100GPU芯片”。當時國內超過1萬枚GPU的企業不超過5家,而且除了幻方量化之外,其他4家公司都是互聯網大廠。

2023年7月,DeepSeek正式成立,進軍通用人工智能領域,至今從未對外融資。

“有相對充裕的卡,沒有融資壓力,前面幾年只做模型不做產品,讓DeepSeek和其他國內大模型公司相比顯得更加單純、聚焦,能夠在工程技術和算法上有所突破。”上述國內大模型公司高管表示。

此外,在大模型行業日漸走向封閉,OpenAI被戲稱為CloseAI時,DeepSeek的模型開源和公開技術報告的行為也贏得了開發者們的眾多好評,使得其技術品牌迅速在海內外大模型市場得以脫穎而出。

有科研人員告訴澎湃科技,DeepSeek的開放性非常了不起,模型V3和R1的開源抬高了市場上開源模型的基準水平。

成功證明了年輕人的力量

“DeekSeek取得的成功也讓大家看到了年輕人的力量,從本質上來說這一代人工智能發展更需要年輕的頭腦。”一位模型公司的人士向澎湃科技說。

此前,OpenAI前政策主管、Anthropic聯合創始人Jack Clark認為DeepSeek僱用了“一批高深莫測的奇才”,對此,樑文峰在接受自媒體採訪時曾表示,並沒有什麼高深莫測的奇才,都是來自國內頂尖高校的畢業生、沒畢業的博四、博五實習生,還有一些畢業才幾年的年輕人。

從目前已有的媒體公開報道中可以看出,DeepSeek團隊最大的特點是名校、年輕,即使是團隊Leader級別,年紀也多在35歲以下。不到140人的團隊,工程師和研發人員幾乎都來自清華大學、北京大學、中山大學、北京郵電大學等國內頂尖高校,工作時間都不長。

有負責大模型領域挖掘高端科技人才的獵頭告訴澎湃科技,DeepSeek的用人邏輯和大模型領域其他公司的用人邏輯並無太大差異,對人才的核心標籤都是“年輕高潛”,即年齡在1998年出生左右,工作經驗最好不要超過五年,“聰明、理工科、年輕、經驗少。”

不過,前述獵頭也表示,大模型創業公司本質還是一家創業公司,並非不想招到海外頂尖AI人才,而現實環境是,海外頂尖AI人才願意回來的不多。

一位不願透露姓名的DeepSeek員工向澎湃科技透露,公司管理很扁平化,自由交流的氛圍比較好。樑文峰平日行蹤不定,大多數時間大家和他都是線上交流。

該員工此前曾在國內大廠做大模型技術研發,但感覺自己在大廠更像一顆螺絲釘,無法創造價值,最終選擇加入DeepSeek。在他看來,DeepSeek目前更專注底層模型技術。

DeepSeek的工作氛圍完全自下而上,自然分工,每個人對於卡和人的調動都不設上限,“自帶想法,不需要Push。在探索過程中,他遇到問題,自己就會拉人討論。”樑文峰此前在接受採訪時稱。

“認為中國AI已經超越美國還為時過早”

美國商業媒體Business Insider分析認為,新發布的R1表明,中國可以與業內一些頂尖的人工智能模型相媲美,並與美國硅谷前沿發展保持同步;其次,開源如此先進的人工智能也可能對那些試圖通過出售技術來獲取鉅額利潤的公司構成挑戰。

不過,現在就高呼“中國 AI 已經超越美國”或許還為時過早。劉知遠公開表示,需要警惕輿論從極度悲觀轉向極度樂觀,覺得我們已經全面超越、遙遙領先了,“遠遠沒有”。劉知遠認為,當前AGI新技術還在加速演進,未來發展路徑還不明確,中國仍在追趕的階段,雖然已經不是望塵莫及,但也只能說尚可望其項背,“在別人已經探索出的路上跟隨快跑還是相對容易的,接下來如何在迷霧中開拓新路,才是更大的挑戰。”

“現在太捲了,大家都太著急了,沒有意識到DeepSeek最後跑出來了。”接近DeepSeek的人向澎湃科技感慨,行業變化的速度太快,無法預測下一步能做什麼,只能看下一個Q3季度的變化。

德米斯·哈薩比斯一方面認可中國擁有非常強大的工程能力和規模化能力,另一方面,他也指出,西方仍然領先,並且需要考慮如何保持西方前沿模型的領先地位。

雖然此前樑文峰對外表示,DeepSeek只做模型不做產品。但是作為一家商業化公司,幾乎不可能一直只做模型不做產品。1月15日,DeepSeek官方App正式發佈。接近DeepSeek的人士向澎湃科技表示,商業化已經被DeepSeek提上日程。

在業內人士看來,和國內其他大模型創業公司相比DeepSeek是幸運的,沒有融資壓力,不需要向投資人證明,不需要兼顧模型的技術迭代和產品應用的優化。但作為一家商業公司,巨資投入後,或早或晚都要面臨目前其他模型公司面臨的壓力和挑戰。“這次出圈為DeepSeek在商業化前夕做了一次成功的營銷,但未來真正商業化後,需要接受市場的檢驗,能否繼續破浪前行尚難定論。”上述模型公司人士表示。

可以確定的是,DeepSeek未來將要面臨更多的壓力和挑戰,通往通用模型的競賽現在才剛剛拉開序幕,誰能贏下去還取決於持續投入的資金和技術的迭代。但業內人士也都認為,“對於國內模型行業來說,有像DeepSeek這樣具備真正技術實力的公司加入,是件好事。”

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)