Google DeepMindのCEO兼共同創設者であるデミス・ハサビス(Demis Hassabis)は、DeepSeekが西洋のシステムにおけるトレーニングデータとオープンソースモデルへの具体的な依存度について完全に理解されていないとしても、チームの成果は印象的であることを認めなければならないと述べました。一方で、彼は中国が非常に強力なエンジニアリング能力とスケーラビリティを持っていることを認めていますが、同時に、西洋が依然としてリードしており、西洋の先進モデルのリードを維持する方法について考える必要があるとも指摘しました。
DeepSeekはずっと人気が続くのでしょうか?
著者:Yu Yan、急成長するニュースレポーター
· 高度なテクノロジー人材を掘り起こす大規模モデル領域のヘッドハンターによれば、DeepSeekの採用ロジックは他の大規模モデル企業と大きな違いはありません。人材の中核的な要素は「若くて成長ポテンシャルが高い」という点で、1998年前後に生まれた若い人で、最適な経験年数は5年未満であることが望ましいです。すなわち、「頭が良く、理工科の専門知識を持ち、若くて経験が少ない」です。
業界では、他の大規模モデルスタートアップと比較して、DeepSeekは幸運だと考えられています。資金調達の圧力もなく、投資家に証明する必要もなく、モデルの技術改善と製品の最適化の両方を考慮する必要もありません。しかし、商業企業として、巨額の資金を投入した後、いずれは他のモデル企業が直面している圧力と課題に直面することになります。
2024年、中国の大規模モデル業界で最も注目される企業は何ですか?DeepSeekは、AI基盤技術研究に特化した杭州深度求索人工知能基盤技術研究有限公司(以下、DeepSeek)が有力な競合相手になるでしょう。昨年中盤の大規模モデル価格戦の発起者として初めて公に知られるようになり、年末年始にはオープンソースモデルのDeepSeek-V3と推論モデルのDeepSeek-R1を公開したことで、DeepSeekはモデル業界の話題を一気に引き起こしました。DeepSeek-V3のトレーニングコストが557.6万ドルにすぎないという高いコストパフォーマンスに驚きながら、モデルのオープンソース化と技術報告の公開について拍手喝采しています。DeepSeek-R1のリリースにより、多くの科学者、開発者、ユーザーたちは興奮し、DeepSeekはOpenAIのo1などの推論モデルに対する強力な競合相手とみなされるようになりました。
この控えめな会社は、非常に低いトレーニングコストでパフォーマンスの劣らない大規模モデルを作成することができるのはなぜですか?それは何を正しくしたために今日のような人気を得ているのですか?将来、「モデルの世界」で引き続き成功を収めるために、どのような課題が待ち受けているのでしょうか?
アルゴリズムの革新により、コンピューティングパワーのコストが大幅に削減されました
"DeepSeekは早く投入され、多くの経験を積んでおり、独自の特徴を持つアルゴリズムを持っています。"国内の有名な大規模モデルのスタートアップ企業の幹部は、DeepSeekについて語る際に、DeepSeekが火付け役になった最も核心的な利点はアルゴリズムの革新にあると語りました。「中国企業は計算能力に乏しいため、OpenAIよりも計算能力のコストにより重点を置いています。」
DeepSeekが公開したDeepSeek-R1情報によると、Post-Training段階で強化学習技術を大規模に使用することにより、わずかなラベルデータのみでモデル推論能力を大幅に向上させました。数学、コード、自然言語推論などのタスクにおいて、OpenAI o1正式版に匹敵する性能を発揮しています。
! DeepSeekは炎上し続けることができますか?
DeepSeekの創設者である梁文鋒は以前に何度も強調しており、DeepSeekは差別化された技術路線を開拓することに力を入れており、OpenAIのモデルを複製するのではなく、より効果的な方法を見つけ出してモデルを訓練する必要があります。
「彼らは、モデルのアーキテクチャを最適化するために、モデルのハイブリッド手法などの一連のエンジニアリングテクニックを使用しました。本質的な目的は、エンジニアリングを通じてコストを削減し、収益化することです。」と、科学技術業界で長年の経験を持つ専門家は澎湃科技に語った。
DeepSeekの公開情報によると、MLA(Multi-head Latent Attention)のマルチヘッド潜在注意機構と独自のDeepSeekMOE(Mixture-of-Experts混合専門家モデル)構造の両方で重要な進展を遂げており、これら2つの技術設計によりトレーニング計算リソースを削減し、DeepSeekモデルをよりコスト効率の高いものにし、トレーニング効率も向上させています。研究機関Epoch AIのデータによると、DeepSeekの最新モデルは非常に効率的です。
データの面では、OpenAIの「海量データフィード」の方法とは異なり、DeepSeekはアルゴリズムを使用してデータを要約および分類し、選択的な処理を経て大規模モデルに送信することで、トレーニング効率を向上させ、DeepSeekのコストを削減します。DeepSeek-V3の登場により、高性能と低コストのバランスが実現され、大規模モデルの開発に新たな可能性が生まれました。
「未来、超大規模なGPUクラスターは必要ないかもしれません。」DeepSeekの高性能モデルがリリースされた後、OpenAIの創設メンバーであるAndrej Karpathy氏は述べています。
清華大学コンピュータ科学部門の常勤准教授である劉知遠は、DeepSeekの成功は、限られたリソースを極限まで効率的に活用することにより、私たちの競争上の優位性を証明していると澎湃科技に語った。R1のリリースは、私たちとアメリカのAIの力の差が明らかに縮小していることを示している。エコノミスト誌も最新号の記事で、「DeepSeekは、低コストのトレーニングとモデル設計の革新によって、テクノロジー業界を変革している」と述べています。
Google DeepMindのCEO兼共同創設者であるデミス・ハサビス(Demis Hassabis)は、DeepSeekが西洋のシステムにおけるトレーニングデータとオープンソースモデルへの具体的な依存度について完全に理解されていないとしても、チームの成果は印象的であることを認めなければならないと述べました。一方で、彼は中国が非常に強力なエンジニアリング能力とスケーラビリティを持っていることを認めていますが、同時に、西洋が依然としてリードしており、西洋の先進モデルのリードを維持する方法について考える必要があるとも指摘しました。
多年にわたる焦点の厚い積み重ね
DeepSeekがこれらのイノベーションを達成するためには、一日でできるものではありません。それは数年間にわたる「孵化」の結果であり、長期的な計画の成果です。梁文锋は、ヘッドトップの量化プライベートエクイティファンドであるFantasy Quantitativeの創設者でもあります。Deepseekは、Fantasy Quantitativeが蓄積した資金、データ、およびノウハウを最大限に活用していると見なされています。
浙江大学を卒業し、情報電子工学の学士号と修士号を取得しました。 2008年からは、機械学習やその他のテクノロジーを使用した完全自動定量取引を探求するチームを率いてきました。 2015年にはHigh-Flyer Quantが設立され、翌年には最初のAIモデルが発売され、ディープラーニングによって生成された最初の取引ポジションが実行され、2018年にはAIが主要な開発方向として確立されました。 2020年には、累積投資額1億元以上、バスケットボールコート相当の面積を持つハイフライヤーのAIスーパーコンピューター「Firefly No.1」が正式に運用を開始し、パーソナルコンピュータ4万台分のスーパーコンピューティングパワーに匹敵すると主張しました。 2021年、High-Flyerは10億元を投資して、10,000個のA100GPUチップを搭載した「Firefly No.2」を製造しました。 当時、中国には10,000基以上のGPUを持つ企業は5社しかなく、High-Flyer Quantを除いて、他の4社はすべてインターネットの巨人でした。
2023年7月、DeepSeekは正式に設立され、汎用人工知能領域に参入し、現在まで外部からの資金調達を行ったことはありません。
「比較的余裕のあるカードがあり、資金調達のプレッシャーはありません。過去数年間はモデルのみを作成し、製品を作らなかったため、DeepSeekは他の国内の大手モデル会社と比べてより単純で焦点を絞った存在になり、エンジニアリング技術とアルゴリズムの面で突破できるようになりました。」と、上述の国内の大手モデル会社の幹部は述べています。
また、大規模モデル産業が閉鎖的な方向に向かう中、OpenAIがCloseAIと揶揄される中、DeepSeekのモデルのオープンソース化と技術レポートの公開は、開発者たちから多くの賞賛を得ており、その技術ブランドは急速に国内外の大規模モデル市場で注目されています。
研究者によると、DeepSeekは非常にオープンであり、モデルV3とR1のオープンソース化により、市場のオープンソースモデルの基準水準が向上しました。
成功は若者の力を証明しました
「DeekSeekの成功は、若者の力を見せることもできました。本質的には、この世代のAIの発展には若い頭脳が必要です。」と、あるモデル会社の関係者は澎湃科技に語った。
以前、OpenAIの前政策責任者であり、Anthropicの共同創設者であるJack Clarkは、DeepSeekは"一批高深莫测的奇才"を雇用していると考えていますが、梁文峰は自分のメディアの取材で、高深莫测の奇才はいないと述べており、国内の一流大学の卒業生、博士課程の卒業生、インターン生、数年前に卒業した若者が多いと語っています。
現在のメディア報道からは、DeepSeekチームの最大の特徴は名門校出身で若いことです。リーダーレベルのメンバーでも35歳以下が多いです。チームは140人に満たず、エンジニアや研究開発者のほとんどは清華大学、北京大学、中山大学、北京郵電大学などの国内の一流大学出身で、働く期間も長くありません。
大型モデル領域での高度な技術人材を発掘する責任を負うヘッドハンターは、DeepSeekの雇用ロジックと他の大型モデル領域の企業の雇用ロジックには大きな違いはなく、人材の核心的なラベルはすべて「若くて有望」であり、つまり1998年頃に生まれ、最高5年以上の経験を持つことは望ましくなく、「賢明で理工系で若くて経験が少ない」ことです。
ただし、前述のヘッドハンターは、大規模なモデルのスタートアップ企業は本質的にスタートアップ企業であり、海外のトップクラスのAI人材を採用したくないわけではないが、現実的な状況では、海外のトップクラスのAI人材が戻ってくることはあまりないと述べています。
DeepSeekの匿名の従業員は、会社の管理は非常に平坦で、自由なコミュニケーションの雰囲気が比較的良いことを澎湃科技に明かしました。梁文峰は日常的に行動が不規則で、ほとんどの時間をオンラインで過ごしています。
この従業員は以前、国内の大手企業で大規模なモデル技術の研究開発をしていましたが、自分が大手企業ではただのボルトのように感じ、価値を創造することができないと感じ、最終的にDeepSeekに参加することを選びました。彼にとって、DeepSeekは現在、より基盤となるモデル技術に特化していると考えています。
DeepSeekの作業環境は完全にボトムアップであり、自然な役割分担があり、カードや人員の配置に制限はありません。彼は自分自身でアイデアを持ち、プッシュは必要ありません。問題が発生した場合、彼は自分自身でディスカッションを持ちます。」梁文峰は以前のインタビューで述べました。
「中国のAIがアメリカを超えたと考えるのはまだ早い」と思われています。
アメリカのビジネスメディアBusiness Insiderは、新たに発表されたR1は中国が一部のトップクラスのAIモデルと競合し、米国のシリコンバレーの最先端技術と同期することを示していると分析しています。さらに、このように先進的なオープンソースの人工知能は、技術を販売して巨額の利益を得ようとする企業にとっても挑戦となる可能性があります。
ただし、「中国のAIがアメリカを超えた」と高を括るのはまだ時期尚早かもしれません。劉知遠氏は、極端な悲観から極端な楽観への舆論の変化に警戒すべきだと公言し、私たちがすでに完全に超越し、遥かに先行していると考えるのはまだ時期尚早であると述べています。「まだまだです」と。劉知遠氏によると、現在のAGI新技術は依然として急速に進化しており、将来の発展の道筋はまだ明確ではなく、中国はまだ追いついている段階にあると考えています。他を追いかける必要はなくなったとはいえ、まだまだ可能性があるという程度です。「他の人々がすでに探求した道に沿って走るのは比較的簡単ですが、次にどのように霧の中で新たな道を切り拓くか、それこそがより大きな挑戦です。」
「今はみんな急ぎすぎて、DeepSeekが最後に出てきたことに気づいていない。」近くの人は澎湃科技に感嘆し、業界の変化が速すぎて、次に何ができるか予測できない、次の第3四半期の変化を見るしかない。
デミス・ハサビスは、中国が非常に強力なエンジニアリング能力とスケーラビリティを持っていることを認めつつも、西洋がまだリードしており、西洋の先進モデルのリード地位を維持する方法を考える必要があると指摘しています。
梁文峰氏は以前にDeepSeekはモデルのみを作成し、製品は作成しないと表明していました。しかし、商業化企業として、モデルだけを作成し、製品を作成しないことはほぼ不可能です。1月15日、DeepSeek公式アプリがリリースされました。DeepSeekに近い関係者は澎湃科技に語ったところによると、商業化がDeepSeekの日程に上がっています。
業界関係者の目から見ると、中国の他の大規模モデルスタートアップと比較して、DeepSeekは資金調達の圧力がなく、投資家に証明する必要がなく、モデルの技術的な反復と製品アプリケーションの最適化を考慮する必要がないという点で幸運です。 しかし、営利企業として、巨額の投資をした後は、遅かれ早かれ、他のモデル企業が直面するプレッシャーや課題に直面することになります。 「今回のアウト・オブ・ザ・サークルは、製品化前夜にDeepSeekのマーケティングを成功させたが、今後の本格的な製品化以降は、市場でテストする必要があり、この波を打ち破り続けられるかどうかはまだ判断が難しい」と述べた。 上記のモデル会社は言った。
DeepSeekは将来、より多くのプレッシャーや挑戦に直面することになることは確かです。汎用モデルへの競争は今始まったばかりで、誰が勝利するかは継続的な資金投入と技術のイテレーションにかかっています。しかし、業界関係者は「国内のモデル業界にとって、DeepSeekのような本当の技術力を持つ企業が参加することは良いことだ」と考えています。