DeepSeek devam eder mi?

Yazar: Yu Yan, The Paper News Reporter

Büyük model alanında yüksek teknoloji yeteneklerini keşfeden bir kafa avcısı, DeepSeek'in işe alım mantığının diğer büyük model alanı şirketlerinden çok farklı olmadığını, yeteneklerin temel etiketinin "genç ve yüksek potansiyel" olduğunu, yani yaklaşık 1998 doğumlu, iş deneyiminin en fazla beş yıl olmaması gerektiğini, "zeki, fen bilimleri, genç, az deneyimli" olduğunu söyledi.

· Endüstri uzmanlarına göre, DeepSeek, diğer büyük model girişim şirketleriyle karşılaştırıldığında şanslıdır çünkü finansal baskıya sahip değildir, yatırımcılara kanıt sunmak zorunda değildir ve modelin teknolojik gelişimini ve ürün uygulamasının optimizasyonunu dengeleme zorunluluğu yoktur. Ancak bir ticari şirket olarak, büyük miktarda sermaye yatırımından sonra, diğer model şirketlerinin karşı karşıya olduğu baskı ve zorluklarla er ya da geç karşılaşacaktır.

2024 yılında, Çin'deki büyük model çevresinde en popüler olan hangi şirket? Hangzhou merkezli Derin Arama Yapay Zeka Temel Teknoloji Araştırma Limited Şirketi (kısaca DeepSeek olarak adlandırılır), geçen yılın ortalarında büyük model fiyat savaşının başlatıcısı olarak halkın dikkatini çekti. Sonbaharın sonu ve yeni yılın başında sırasıyla DeepSeek-V3 ve çıkarım modeli DeepSeek-R1'ı duyurduktan sonra DeepSeek, büyük model çevresindeki tartışmaları tam anlamıyla alevlendirdi. İnsanlar, DeepSeek-V3'ün iddia edilen eğitim maliyeti olan sadece 557.6 milyon dolarlık yüksek performanslı maliyeti karşısında şaşkınlık yaşarken, aynı zamanda modelin açık kaynaklı olması ve teknik raporunun açık olması nedeniyle şirketi alkışlıyor. DeepSeek-R1'in duyurulması, birçok bilim insanı, geliştirici ve kullanıcıyı heyecanlandırdı ve hatta DeepSeek'in OpenAI'in o1 gibi çıkarım modellerine güçlü bir rakip olduğuna inanıyorlar.

Bu düşük profil şirket, neden düşük eğitim maliyetleriyle iyi performans gösteren büyük modeller yapabiliyor? Bugünkü patlaması neye doğru yaptı? Gelecekte, "model endüstrisi" nde başarılı olmak için karşılaşacağı zorluklar nelerdir?

Algoritma yeniliği, hesaplama maliyetini büyük ölçüde düşürdü

"DeepSeek, which has been invested early and has accumulated a lot, has its own characteristics in algorithms." A senior executive of a well-known large model startup in China said that when it comes to DeepSeek, he believes that the core advantage of DeepSeek's popularity is still due to the innovation in algorithms. "Chinese companies pay more attention to saving costs in algorithmic power because of the lack of computing power, so the cost of computing power is more important than OpenAI."

DeepSeek-R1 bilgilerini açıklayan DeepSeek'e göre, son eğitim aşamasında (Post-Training) yoğun bir şekilde Pekiştirmeli Öğrenme (Reinforcement learning) teknolojisini kullandı ve çok az etiketli veri durumunda modelin çıkarım yeteneğini büyük ölçüde artırdı. Matematik, kodlama, doğal dil çıkarımı gibi görevlerde performansı OpenAI o1'in resmi sürümüne eşit.

DeepSeek能一直火下去吗?

DeepSeek-R1 API fiyatı

DeepSeek kurucusu Liang Wenfeng daha önce birçok kez vurgulamıştı ki, DeepSeek farklılaştırılmış bir teknoloji yoluna odaklanıyor ve OpenAI'nin modelini kopyalamıyor. DeepSeek, modelini eğitmenin daha etkili yollarını düşünmek zorunda.

“Bir dizi mühendislik becerisi kullanarak model mimarisini optimize ettiler, model karışım yöntemini yenilikçi bir şekilde kullandılar ve temel amaç, mühendislik yoluyla maliyeti düşürerek kârlı hale getirmekti.” Teknoloji sektöründe uzun yıllar çalışan deneyimli bir kişi Pengpai Technology'e söyledi.

DeepSeek'in açıkladığı bilgilere göre, MLA (Multi-head Latent Attention) çoklu kafa gizli dikkat mekanizması ve kendi geliştirdiği DeepSeekMOE(Mixture-of-Experts karışık uzman modeli yapısında büyük ilerleme kaydetti, bu iki teknoloji, eğitim hesaplama kaynaklarının azaltılması yoluyla DeepSeek modelinin maliyet etkinliğini artırarak eğitim verimliliğini de artırdı. Epoch AI araştırma kuruluşunun verilerine göre, DeepSeek'in en son modeli çok verimli.

Veri açısından, OpenAI'nin "büyük veri besleme" yönteminden farklı olarak DeepSeek, verileri özetlemek ve sınıflandırmak için algoritmalar kullanır ve seçici işlemeden sonra büyük modellere teslim edilir, bu da eğitim verimliliğini artırır ve DeepSeek'in maliyetini düşürür. DeepSeek-V3'ün ortaya çıkışı, yüksek performans ve düşük maliyet arasında bir denge sağlar ve büyük modellerin geliştirilmesi için yeni olanaklar sağlar.

"Gelecekte muhtemelen devasa GPU kümelemesine ihtiyaç duyulmayabilir." DeepSeek'in yüksek performanslı ve uygun fiyatlı modelinin piyasaya sürülmesinden sonra OpenAI'nın kurucu üyesi Andrej Karpathy belirtti.

Tsinghua University's computer science department tenured associate professor Liu Zhiyuan told Pengpai Technology that DeepSeek's emergence precisely proves our competitive advantage, achieving more with less through the extreme efficient use of limited resources. The release of R1 indicates that the gap in AI capabilities between us and the United States has significantly narrowed. The Economist also stated in its latest issue: 'DeepSeek's innovative low-cost training and model design are changing the technology industry in sync.'

Google DeepMind'ın şu anki CEO'su ve kurucu ortağı Demis Hassabis, DeepMind'in Batı sistemlerine eğitim veri ve açık kaynaklı modeller açısından tam olarak ne kadar bağımlı olduğu konusunda hala tam olarak net olmasa da, takımın elde ettiği başarıların gerçekten etkileyici olduğunu kabul etmek zorunda olduklarını belirtti. Bir yandan, Çin'in çok güçlü mühendislik yeteneklerine ve ölçeklenebilirlik yeteneğine sahip olduğunu kabul ederken, diğer yandan, Batı'nın hala önde olduğunu ve Batı'nın öncü modellerin önde olma konumunu nasıl koruyacağını düşünmesi gerektiğini de belirtti.

Yıllardır odaklandığı derin birikim ve ince çıkış.

DeepSeek'ın bu yenilikleri elde etmesi bir gecede gerçekleşen bir şey değil, uzun vadeli planlamanın ve hazırlığın bir sonucudur. Liang Wenfeng aynı zamanda başlıca nicel özel fonu Fantom Quantitative'nin kurucusudur. Deepseek'ın, Fantom Quantitative'nin biriktirdiği fonları, verileri ve bilgileri etkili bir şekilde kullandığı düşünülmektedir.

Liang Wenfeng, Zhejiang University undergraduate and postgraduate, with a degree in Information and Electronic Engineering. Since 2008, he has led a team to explore fully automated quantitative trading using machine learning technologies. In 2015, Quantum Quantification was established, and the next year, the first AI model was launched, with trading positions generated by deep learning. In 2018, it established AI as its main development direction. In 2020, Quantum Quantification invested over 100 million yuan in a basketball court-sized AI supercomputer called 'Firefly 1', which was officially put into operation and claimed to have the same supercomputing power as 40,000 personal computers. In 2021, Quantum Quantification invested 1 billion yuan to build 'Firefly 2', which is equipped with 10,000 A100 GPU chips. At that time, there were no more than 5 domestic companies with over 10,000 GPUs, and aside from Quantum Quantification, the other 4 companies were all internet giants.

2023 Temmuz'da, DeepSeek resmi olarak kuruldu ve genel yapay zeka alanına giriş yaptı, o zamandan beri hiçbir dış finansman almadı.

“Yeterli miktarda kartı var, finansal baskı yok, birkaç yıl boyunca sadece model yapıp ürün yapmadı, DeepSeek ve diğer yerli büyük model şirketlerine kıyasla daha saf ve odaklanmış görünüyor, mühendislik teknolojisinde ve algoritmada biraz ilerleme kaydedebiliyor.” Yukarıdaki yerli büyük model şirketi yöneticisi belirtti.

Ayrıca, büyük model endüstrisinde kapalı bir şekilde ilerlerken, OpenAI'in CloseAI olarak alay konusu olduğu zamanlarda, DeepSeek'in modelin açık kaynaklı olması ve teknik raporların açıklanması geliştiricilerden birçok övgü aldı, bu da teknoloji markasının hızla yurt içinde ve yurt dışında büyük model pazarında öne çıkmasını sağladı.

Araştırmacılara göre, DeepSeek'in açıklığı çok etkileyici, V3 ve R1 modellerinin açık kaynak olması, pazardaki açık kaynak modellerin standart seviyesini yükseltti.

Gençlerin gücünü başarıyla kanıtladı.

DeekSeek'ın başarısı, insanların gençlerin gücünü görmesine neden oldu ve aslında bu neslin yapay zeka gelişimi için daha genç zihinlere ihtiyaç duyduğunu söyledi bir model şirketi yetkilisi.

Daha önce, OpenAI eski politika direktörü ve Anthropic'in ortak kurucularından Jack Clark, DeepSeek'in 'gizemli deha'larından oluşan bir grup işe aldığını düşünüyordu. Bununla ilgili olarak, Leung Man Fung, bir medya mülakatında, gizemli dehalar olmadığını, hepsinin yerli üst düzey üniversitelerden mezun, mezun olmayan dört veya beşüncü sınıf doktora öğrencileri, birkaç yıl önce mezun olmuş gençler olduğunu belirtti.

Mevcut medya açıklamalarından, DeepSeek ekibinin en büyük özelliğinin ünlü okullar ve gençlik olduğu görülebilir; hatta lider düzeyindeki ekibin yaşı 35 yaşın altında. Yaklaşık 140 kişilik bir ekip, mühendislerin ve AR-GE personelinin neredeyse tamamı, Tsinghua Üniversitesi, Pekin Üniversitesi, Sun Yat-sen Üniversitesi, Beijing Post and Telecommunications Üniversitesi gibi ülkenin önde gelen üniversitelerinden geliyor, çalışma süreleri de kısa.

Büyük model alanında üst düzey teknoloji yeteneklerini keşfetmekle ilgilenen bir baş avcı, DeepSeek'in işe alım mantığının diğer büyük model şirketlerinin işe alım mantığından çok farklı olmadığını söyledi. Yeteneklerin temel etiketi hep 'genç ve yüksek potansiyelli' olarak tanımlanıyor, yani yaklaşık olarak 1998 doğumlu, en iyi durumda beş yıldan fazla çalışma deneyimi olmayan, 'zeki, mühendislik ve bilim alanında yetenekli, genç ve tecrübesiz.'

Ancak, yukarıda bahsedilen avcılar, büyük ölçekli model girişim şirketlerinin aslında bir girişim şirketi olduğunu ve yurt dışından en iyi AI yeteneklerini çekmek istemediklerini, ancak gerçek ortamda yurt dışından gelen en iyi AI yeteneklerinin çok azının geri dönmek istediğini belirtiyor.

Bir DeepSeek çalışanı, kimliğini açıklamak istemeyen, Pengpai Teknoloji'ye şirketin yönetiminin oldukça düz olduğunu ve serbest iletişim ortamının oldukça iyi olduğunu açıkladı. Liang Wenfeng'in günlük programı belirsiz, çoğu zaman herkesle çevrimiçi iletişim kuruyor.

Bu çalışan önceki olarak büyük bir model teknolojisi geliştirme çalışmalarını yerel bir fabrikada yapmıştı, ancak kendini bir vida gibi hissettiğini ve değer yaratamadığını düşündü. Sonunda DeepSeek'e katılmayı seçti. Ona göre, DeepSeek şu anda daha çok alt katman model teknolojisine odaklanıyor.

DeepSeek'in çalışma ortamı tamamen alttan yukarıya, doğal olarak bölünmüş bir yapıya sahip, herkes için kart ve insan hareketliliği için üst sınır olmadan, 'kendi fikirleriyle, itme gerektirmeyen'. Keşif sürecinde sorunlarla karşılaştığında, kendi kendine insanları tartışmaya çekecektir." Liang Wenfeng daha önce bir röportajda belirtmişti.

"Çin AI'nin zaten ABD'yi geride bıraktığını düşünmek için henüz erken olduğunu düşünüyor."

ABD Ticaret Medyası Business Insider, yeni yayınlanan R1'in, Çin'in sektördeki bazı önde gelen yapay zeka modelleriyle rekabet edebileceğini ve ABD Silikon Vadisi'nin öncü gelişimini takip edebileceğini gösterdiğini analiz ediyor; ikinci olarak, bu kadar ileri düzeyde açık kaynaklı bir yapay zeka, teknolojiyi satmak suretiyle büyük kar elde etmeye çalışan şirketlere meydan okuyabilir.

Ancak şu anda "Çin AI'nın Amerika'yı aştığını" söylemek belki de erken. Liu Zhiyuan açıkça belirtti ki, kamuoyunun aşırı derecede olumsuzdan aşırı derecede olumluya dönüşünü dikkatli bir şekilde izlememiz gerekiyor, çünkü bizim kapsamlı olarak aştığımızı ve lider olduğumuzu düşünmek "çok çok uzakta". Liu Zhiyuan, mevcut AGI yeni teknolojisinin hala hızla evrildiğini ve gelecekteki gelişme yolunun hala belirsiz olduğunu düşünüyor ve Çin'in hala yetişme aşamasında olduğunu düşünüyor, artık tozun gerisinde kalmadığımızı, ancak hala umut verici olduğumuzu söyleyebiliriz. "Başkalarının zaten keşfettiği yolda hızlı koşmak, sonraki adımları nasıl keşfedeceğimiz, bu daha büyük bir zorluk."

"Şu anda her şey çok karışık, herkes çok aceleci, DeepSeek'in sonunda ortaya çıktığının farkında değildi." DeepSeek'e yakın biri, endüstri değişiminin hızının çok hızlı olduğunu, bir sonraki adımın ne olabileceğini tahmin edemediğini, sadece bir sonraki Q3 dönemine bakabileceğini ifade etti.

Demis Hassabis, Çin'in çok güçlü mühendislik yeteneklerine ve ölçeklendirme yeteneklerine sahip olduğunu kabul ederken, Batı'nın hala önde olduğuna ve Batı'nın son teknoloji modellerinin lider konumunu nasıl koruyacağını düşünmesi gerektiğine de dikkat çekti.

Önceden Liang Wenfeng, DeepSeek'in sadece modeller yapacağını ancak bir ticari şirket olarak neredeyse sürekli olarak modeller yapmayacağını söylemişti. Ancak bir ticari şirket olarak, neredeyse sürekli modeller yapmamak imkansızdır. 15 Ocak'ta DeepSeek resmi uygulaması piyasaya sürüldü. DeepSeek'e yakın kişiler, ticarileşmenin artık DeepSeek gündemine alındığını söyledi.

Sektörün içindekilerin gözünde, Çin'deki diğer büyük ölçekli model girişimlerle karşılaştırıldığında, DeepSeek, finansman baskısı olmaması, yatırımcılara kanıtlaması gerekmemesi ve modelin teknik yinelemesini ve ürün uygulamasının optimizasyonunu hesaba katması gerekmediği için şanslı. Bununla birlikte, ticari bir şirket olarak, büyük bir yatırımdan sonra, er ya da geç diğer model şirketlerin karşılaştığı baskı ve zorluklarla yüzleşmek zorunda kalacaktır. "Bu sefer çemberin dışında, ticarileştirmenin arifesinde DeepSeek için başarılı bir pazarlama yaptı, ancak gelecekteki gerçek ticarileştirmeden sonra, pazar tarafından test edilmesi gerekiyor ve dalgaları kırmaya devam edip edemeyeceğini belirlemek hala zor." Yukarıda adı geçen model firma dedi.

Kesin olan şudur ki, DeepSeek'in gelecekte daha fazla baskı ve zorlukla karşılaşması gerekecek, evrensel model yarışına yönelik rekabet şimdi sadece başlıyor, kimin kazanacağı sürekli yatırımın fon ve teknoloji iterasyonuna bağlı. Ancak sektördeki insanlar, "yerli model endüstrisi için, DeepSeek gibi gerçek teknik güce sahip şirketlerin katılması iyi bir şey" diye düşünüyor.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)