AI endüstrisinin son dönemdeki gelişmeleri bazıları tarafından dördüncü sanayi devrimi olarak görülmektedir. Büyük modellerin ortaya çıkışı, çeşitli sektörlerde verimliliği önemli ölçüde artırdı ve ABD için iş verimliliğini yaklaşık %20 oranında artırdığı tahmin edilmektedir. Aynı zamanda büyük modellerin sağladığı genelleme yeteneği, yeni bir yazılım tasarım paradigması olarak kabul edilmektedir; geçmişte yazılım tasarımı kesin kodlardan oluşuyordu, şimdi ise daha genelleştirilmiş büyük model çerçevelerinin yazılıma entegre edilmesiyle yazılımlar daha iyi performans göstermekte ve daha geniş modalite giriş ve çıkışlarını destekleyebilmektedir. Derin öğrenme teknolojisi AI endüstrisine dördüncü bir refah getirdi ve bu akım kripto para endüstrisini de etkilemiştir.
Bu rapor, AI endüstrisinin gelişim tarihini, teknoloji kategorilerini ve derin öğrenme teknolojisinin sektöre olan etkisini ayrıntılı olarak inceleyecektir. Ardından, derin öğrenme alanında GPU, bulut bilişim, veri kaynakları, kenar cihazları gibi endüstri zincirinin yukarı ve aşağı akışındaki gelişim durumu ve eğilimleri derinlemesine analiz edilecektir. Son olarak, kripto para birimi ile AI endüstrisi arasındaki ilişkiyi temelde inceleyerek, kripto para birimine bağlı AI endüstri zinciri yapısını gözden geçirecektir.
AI sektörünün gelişim tarihi
AI endüstrisi 1950'li yıllardan itibaren başlamış olup, yapay zekanın vizyonunu gerçekleştirmek için akademik ve endüstriyel alanlarda farklı dönemlerde farklı disiplinler altında çeşitli yapay zeka akımları geliştirilmiştir.
Modern yapay zeka teknolojisi, "makine öğrenimi" terimini esas alır; bu teknolojinin temel ilkesi, makinelerin verilerle görevlerde tekrar tekrar iterasyon yaparak sistem performansını iyileştirmesidir. Ana adımlar, verilerin algoritmaya gönderilmesi, bu verilerin modelin eğitilmesi için kullanılması, modelin test edilip dağıtılması ve modelin otomatik tahmin görevlerini tamamlamak için kullanılmasıdır.
Şu anda makine öğreniminde üç ana yaklaşım bulunmaktadır: bağlantıcılık, sembolistlik ve davranışçılık; bunlar sırasıyla insanın sinir sistemi, düşünce ve davranışını taklit eder.
Şu anda sinir ağlarıyla temsil edilen bağlantıcılık, derin öğrenme olarak da bilinen ( ile üstünlük sağlamaktadır. Bunun başlıca nedeni, bu yapının bir giriş katmanı, bir çıkış katmanı ve birden fazla gizli katmana sahip olmasıdır. Katman sayısı ve nöron ) parametre ( sayısı yeterince fazla olduğunda, karmaşık genel görevleri uyum sağlamak için yeterli fırsat sunar. Veri girişi yoluyla, nöronların parametreleri sürekli olarak ayarlanabilir ve sonunda birçok veriden geçerek, bu nöron en iyi duruma ulaşacaktır ) parametre (. Bu da "güçlü bir şekilde mucizeler yaratmak" olarak adlandırılır ve "derinlik" kelimesinin kökenidir - yeterince fazla katman ve nöron.
Bir örnek vermek gerekirse, basitçe şöyle anlaşılabilir: bir fonksiyon oluşturulmuştur; bu fonksiyona X=2 girdiğinde Y=3, X=3 girdiğinde Y=5 değerleri verilmiştir. Eğer bu fonksiyonun tüm X değerlerine karşılık gelmesi isteniyorsa, bu fonksiyonun derecesini ve parametrelerini sürekli olarak eklemek gerekir. Örneğin, şu anda bu koşulu sağlayan fonksiyonu Y = 2X -1 olarak oluşturabilirim. Ancak eğer X=2, Y=11 şeklinde bir veri varsa, bu üç veri noktasına uygun yeni bir fonksiyon inşa etmek gerekir. GPU kullanarak brute force ile Y = X2 -3X +5'in daha uygun olduğunu buldum; ancak verilerle tamamen örtüşmesine gerek yok, sadece dengeyi koruması ve benzer bir çıktı vermesi yeterlidir. Burada X2, X ve X0 farklı nöronları temsil ederken, 1, -3, 5 ise bunların parametreleridir.
Bu durumda, sinir ağına büyük miktarda veri girdiğimizde, yeni verileri uyumlu hale getirmek için nöronları artırabilir ve parametreleri yineleyebiliriz. Böylece tüm verileri uyumlu hale getirebiliriz.
Ve sinir ağına dayalı derin öğrenme teknolojisi, en erken sinir ağları, ileri beslemeli sinir ağları, RNN, CNN, GAN gibi birçok teknik iterasyon ve evrim geçirmiştir ve en son modern büyük modeller gibi GPT vb. için kullanılan Dönüşümcü teknolojisine evrilmiştir. Dönüşümcü teknolojisi, sinir ağlarının bir evrim yönüdür, bir dönüştürücü ) Dönüşümcü ( ekleyerek, tüm modları ) ses, video, resim vb. ( verilerini karşılık gelen sayılara kodlamak için kullanılır. Daha sonra bu veriler sinir ağına girilir, böylece sinir ağı her türlü veriye uyum sağlayabilir, yani çok modlu hale getirilir.
![Yeni başlayanlar için bilgi丨AI x Kripto: Sıfırdan Zirveye])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
Yapay zeka gelişimi üç teknolojik dalgadan geçti, birincisi 1960'lı yıllarda, yapay zeka teknolojisinin ortaya çıkmasından on yıl sonra, bu dalga sembolist teknolojinin geliştirilmesiyle ortaya çıktı, bu teknoloji genel doğal dil işleme ve insan-makine diyalogu sorunlarını çözdü. Aynı dönemde, uzman sistemler doğdu, bu, Stanford Üniversitesi'nin NASA'nın teşvikiyle tamamladığı DENRAL uzman sistemidir, bu sistem oldukça güçlü bir kimya bilgisine sahiptir, sorular aracılığıyla çıkarım yaparak kimya uzmanıyla aynı cevapları üretir, bu kimya uzmanı sistemi kimya bilgi havuzu ve çıkarım sisteminin bir kombinasyonu olarak görülebilir.
Uzman sistemlerinin ardından, 1990'larda İsrailli Amerikalı bilim insanı ve filozof Judea Pearl), Bayes ağlarını ortaya koydu, bu ağlar aynı zamanda inanç ağları olarak da bilinir. Aynı dönemde, Brooks davranışa dayalı robotik alanında çalışmalar yaptı ve davranışçılığın doğuşunu simgeledi.
1997 yılında, IBM'in derin mavi "Blue" 3.5:2.5'lik bir skorla satranç şampiyonu Kasparov'u (Kasparov) yenerek, bu zafer yapay zekanın bir dönüm noktası olarak kabul edildi ve AI teknolojisi ikinci gelişim dalgasına girdi.
Üçüncü AI teknolojisi dalgası 2006 yılında gerçekleşti. Derin öğrenmenin üç büyük ismi Yann LeCun, Geoffrey Hinton ve Yoshua Bengio, veri temsili öğrenimi için yapay sinir ağlarını temel alan bir algoritma olan derin öğrenme kavramını ortaya koydular. Sonrasında derin öğrenme algoritmaları RNN, GAN'dan Transformer ve Stable Diffusion'a kadar evrim geçirdi. Bu iki algoritma, bu üçüncü teknolojik dalgayı şekillendirdi ve aynı zamanda bağlantıcılığın altın çağıydı.
Çok sayıda ikonik olay, derin öğrenme teknolojisinin keşfi ve evrimi ile birlikte yavaş yavaş ortaya çıkmaktadır, bunlar arasında:
2011 yılında, IBM'in Watson(, "Tehlike Sınırı") adlı bilgi yarışmasında insanları yenerek şampiyon oldu.
2014 yılında, Goodfellow GAN( Üretken Çatışma Ağı, Generative Adversarial Network)'yi önerdi; iki sinir ağının karşılıklı rekabet ettiği bir öğrenme yöntemi ile gerçek gibi görünen fotoğraflar üretebiliyor. Aynı zamanda Goodfellow, derin öğrenme alanında önemli bir başlangıç kitabı olan "Deep Learning" adlı bir kitap yazdı, bu kitaba "çiçek kitabı" denir.
2015 yılında, Hinton ve arkadaşları "Nature" dergisinde derin öğrenme algoritmasını önerdiler, bu derin öğrenme yönteminin önerilmesi, akademik çevrelerde ve sanayi dünyasında hemen büyük bir yankı uyandırdı.
2015 yılında, OpenAI kuruldu, Musk, YC Başkanı Altman, melek yatırımcı Peter Thiel ( Peter Thiel ) gibi kişiler 1 milyar dolar ortak yatırım yapacaklarını açıkladı.
2016 yılında, derin öğrenme teknolojisi tabanlı AlphaGo, Go dünya şampiyonu ve profesyonel dokuzuncu dan oyuncusu Lee Sedol ile Go insan-makine savaşına girdi ve toplamda 4-1'lik bir skorla galip geldi.
2017 yılında, Çin Hong Kong'daki Hanson Robotics ( tarafından geliştirilen insansı robot Sophia, tarihte birinci sınıf vatandaşlık kazanmış ilk robot olarak adlandırılmakta, zengin yüz ifadeleri ve insan dilini anlama yeteneğine sahiptir.
2017'de, yapay zeka alanında zengin bir yetenek ve teknoloji yedeklemesine sahip olan Google, "Attention is all you need" başlıklı bir makale yayınlayarak Transformer algoritmasını önerdi ve büyük ölçekli dil modelleri ortaya çıkmaya başladı.
2018'de OpenAI, Transformer algoritmasına dayalı olarak inşa edilen GPT) Generative Pre-trained Transformer('i yayınladı; bu, o dönemdeki en büyük dil modellerinden biriydi.
2018'de, Google ekibi Deepmind, derin öğrenmeye dayalı AlphaGo'yu piyasaya sürdü ve protein yapısı tahmini yapabiliyor. Bu, yapay zeka alanında büyük bir ilerleme işareti olarak görülüyor.
2019 yılında, OpenAI GPT-2'yi duyurdu, bu model 1.5 milyar parametreye sahip.
2020 yılında, OpenAI tarafından geliştirilen GPT-3, 175 milyar parametreye sahip olup, önceki sürüm GPT-2'den 100 kat daha fazladır. Bu model, eğitim için 570GB metin kullanmış ve birden fazla NLP) doğal dil işleme( görevinde) soru yanıtlama, çeviri ve makale yazma( alanında en ileri düzeyde performansa ulaşabilmektedir.
2021 yılında, OpenAI GPT-4'ü yayımladı, bu model 1.76 trilyon parametreye sahip olup, GPT-3'ün 10 katıdır.
2023 yılının Ocak ayında GPT-4 modeline dayalı ChatGPT uygulaması piyasaya sürüldü, Mart ayında ChatGPT bir milyar kullanıcıya ulaştı ve tarihsel olarak bir milyar kullanıcıya ulaşan en hızlı uygulama oldu.
2024'te, OpenAI GPT-4 omni'yi piyasaya sürecek.
![Yeni başlayanlar için bilgilendirme丨AI x Crypto: Sıfırdan Zirveye])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
Derin Öğrenme Endüstri Zinciri
Günümüz büyük model dilleri, sinir ağına dayalı derin öğrenme yöntemlerini kullanmaktadır. GPT öncülüğündeki büyük modeller, yapay zeka alanında bir dalga yarattı ve birçok oyuncu bu alana akın etti. Ayrıca, veriye ve hesaplama gücüne olan talebin büyük ölçüde patlak verdiğini gözlemledik. Bu raporun bu bölümünde, derin öğrenme algoritmalarının endüstri zincirini keşfetmeye odaklanıyoruz. Derin öğrenme algoritmaları tarafından yönlendirilen yapay zeka sektöründe, tedarik zincirinin nasıl oluştuğu, mevcut durumları ve arz-talep ilişkileri ile gelecekteki gelişmelerin neler olduğu üzerinde duruyoruz.
Öncelikle netleştirmemiz gereken, Transformer teknolojisine dayalı GPT öncülüğündeki LLM'lerin) büyük modelinin( eğitiminde toplamda üç adım olduğudur.
Eğitimden önce, Transformer tabanlı olduğu için dönüştürücünün metin girişini sayılara dönüştürmesi gerekir; bu işleme "Tokenization" denir. Daha sonra bu sayılara Token denir. Genel bir kural olarak, bir İngilizce kelime veya karakter yaklaşık olarak bir Token olarak kabul edilebilirken, her bir Çince karakter yaklaşık iki Token olarak kabul edilebilir. Bu da GPT'nin fiyatlandırmada kullandığı temel birimdir.
İlk adım, ön eğitim. Giriş katmanına yeterince veri çifti sağlayarak, raporun ilk bölümünde verilen örnekler gibi )X,Y(, model altındaki her bir nöronun en iyi parametrelerini bulmak için, bu aşamada çok fazla veriye ihtiyaç vardır ve bu süreç aynı zamanda en fazla hesaplama gücünü tüketen süreçtir, çünkü nöronları çeşitli parametreleri denemek için tekrar tekrar döngüye sokmak gerekir. Bir veri çifti eğitim tamamlandıktan sonra, genellikle aynı veri kümesi ile parametreleri yinelemek için ikincil bir eğitim yapılır.
İkinci adım, ince ayar. İnce ayar, daha az sayıda ancak çok kaliteli verilere sahip bir küme vermektir, bu tür bir değişiklik modelin çıktısının kalitesini artıracaktır, çünkü ön eğitim büyük miktarda veri gerektirir, ancak birçok veri hatalı veya düşük kaliteli olabilir. İnce ayar adımı, kaliteli verilerle modelin kalitesini artırabilir.
Üçüncü adım, pekiştirmeli öğrenme. Öncelikle tamamen yeni bir model oluşturulacak, buna "ödül modeli" diyoruz. Bu modelin amacı oldukça basit, çıktıları sıralamak. Bu nedenle bu modeli gerçekleştirmek oldukça kolaydır, çünkü iş senaryosu oldukça dikeydir. Daha sonra bu modeli kullanarak büyük modelimizin çıktısının yüksek kaliteli olup olmadığını belirleyeceğiz, böylece büyük modelin parametrelerini otomatik olarak yinelemek için bir ödül modeli kullanabiliriz. ) Ancak bazen modelin çıktı kalitesini değerlendirmek için insan müdahalesi de gerekebilir (.
Kısacası, büyük modellerin eğitim sürecinde, ön eğitim verilerin miktarı için çok yüksek talepler gerektirir, gereken GPU hesaplama gücü de en fazlasıdır. İnce ayar ise parametreleri geliştirmek için daha yüksek kaliteli verilere ihtiyaç duyar. Pekiştirmeli öğrenme, daha yüksek kaliteli sonuçlar elde etmek için parametreleri tekrar tekrar yinelemek amacıyla bir ödül modeli kullanabilir.
Eğitim sürecinde, parametre sayısı arttıkça genelleme yeteneğinin üst sınırı da artar. Örneğin bir fonksiyon örneği olarak Y = aX + b alalım, aslında burada iki sinir hücresi vardır: X ve X0. Bu nedenle, parametrelerin nasıl değiştiği, uyum sağlayabileceği veriler oldukça sınırlıdır, çünkü bu özünde hala bir düz çizgidir. Sinir hücreleri sayısı arttıkça, daha fazla parametre üzerinde yineleme yapabiliriz, böylece daha fazla veriyi uyum sağlayabiliriz. İşte bu, büyük modellerin mucizeler yaratmasının nedenidir ve aynı zamanda halk arasında büyük model olarak adlandırılmasının sebebidir; özünde büyük miktarda sinir hücresi ve parametre, büyük miktarda veri, aynı zamanda büyük miktarda hesaplama gücü gerektirir.
Bu nedenle, büyük model performansını etkileyen başlıca üç faktör vardır: parametre sayısı, veri miktarı ve kalitesi, hesaplama gücü; bu üçü, büyük modelin sonuç kalitesini ve genelleme yeteneğini ortak olarak etkiler. Parametre sayısını p, veri miktarını ise n) token sayısı cinsinden hesapladığımızı varsayalım(, bu durumda gerekli hesaplama miktarını genel bir deneysel kural ile hesaplayabiliriz; böylece yaklaşık olarak satın almamız gereken hesaplama gücünü ve eğitim süresini tahmin edebiliriz.
Hesaplama gücü genellikle Flops ile ölçülür, bu da bir kayan nokta işlemini temsil eder. Kayan nokta işlemleri, tam sayı olmayan sayıların toplama, çıkarma, çarpma ve bölme işlemlerinin genel adıdır, örneğin 2.5+3.557. Kayan nokta, ondalık sayıları temsil etme yeteneğini ifade eder ve FP16, desteklendiğini gösterir.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
6 Likes
Reward
6
4
Share
Comment
0/400
DefiPlaybook
· 07-21 23:34
Çalışma verimliliği %20 arttı mı? Likidite Madenciliği bile katlanmış durumda.
Yapay Zeka ve Kripto Varlıkların Bütünleşmesi: Temelden Gelecek Gelişmelere
AI x Crypto:Sıfırdan Zirveye
AI endüstrisinin son dönemdeki gelişmeleri bazıları tarafından dördüncü sanayi devrimi olarak görülmektedir. Büyük modellerin ortaya çıkışı, çeşitli sektörlerde verimliliği önemli ölçüde artırdı ve ABD için iş verimliliğini yaklaşık %20 oranında artırdığı tahmin edilmektedir. Aynı zamanda büyük modellerin sağladığı genelleme yeteneği, yeni bir yazılım tasarım paradigması olarak kabul edilmektedir; geçmişte yazılım tasarımı kesin kodlardan oluşuyordu, şimdi ise daha genelleştirilmiş büyük model çerçevelerinin yazılıma entegre edilmesiyle yazılımlar daha iyi performans göstermekte ve daha geniş modalite giriş ve çıkışlarını destekleyebilmektedir. Derin öğrenme teknolojisi AI endüstrisine dördüncü bir refah getirdi ve bu akım kripto para endüstrisini de etkilemiştir.
Bu rapor, AI endüstrisinin gelişim tarihini, teknoloji kategorilerini ve derin öğrenme teknolojisinin sektöre olan etkisini ayrıntılı olarak inceleyecektir. Ardından, derin öğrenme alanında GPU, bulut bilişim, veri kaynakları, kenar cihazları gibi endüstri zincirinin yukarı ve aşağı akışındaki gelişim durumu ve eğilimleri derinlemesine analiz edilecektir. Son olarak, kripto para birimi ile AI endüstrisi arasındaki ilişkiyi temelde inceleyerek, kripto para birimine bağlı AI endüstri zinciri yapısını gözden geçirecektir.
AI sektörünün gelişim tarihi
AI endüstrisi 1950'li yıllardan itibaren başlamış olup, yapay zekanın vizyonunu gerçekleştirmek için akademik ve endüstriyel alanlarda farklı dönemlerde farklı disiplinler altında çeşitli yapay zeka akımları geliştirilmiştir.
Modern yapay zeka teknolojisi, "makine öğrenimi" terimini esas alır; bu teknolojinin temel ilkesi, makinelerin verilerle görevlerde tekrar tekrar iterasyon yaparak sistem performansını iyileştirmesidir. Ana adımlar, verilerin algoritmaya gönderilmesi, bu verilerin modelin eğitilmesi için kullanılması, modelin test edilip dağıtılması ve modelin otomatik tahmin görevlerini tamamlamak için kullanılmasıdır.
Şu anda makine öğreniminde üç ana yaklaşım bulunmaktadır: bağlantıcılık, sembolistlik ve davranışçılık; bunlar sırasıyla insanın sinir sistemi, düşünce ve davranışını taklit eder.
Şu anda sinir ağlarıyla temsil edilen bağlantıcılık, derin öğrenme olarak da bilinen ( ile üstünlük sağlamaktadır. Bunun başlıca nedeni, bu yapının bir giriş katmanı, bir çıkış katmanı ve birden fazla gizli katmana sahip olmasıdır. Katman sayısı ve nöron ) parametre ( sayısı yeterince fazla olduğunda, karmaşık genel görevleri uyum sağlamak için yeterli fırsat sunar. Veri girişi yoluyla, nöronların parametreleri sürekli olarak ayarlanabilir ve sonunda birçok veriden geçerek, bu nöron en iyi duruma ulaşacaktır ) parametre (. Bu da "güçlü bir şekilde mucizeler yaratmak" olarak adlandırılır ve "derinlik" kelimesinin kökenidir - yeterince fazla katman ve nöron.
Bir örnek vermek gerekirse, basitçe şöyle anlaşılabilir: bir fonksiyon oluşturulmuştur; bu fonksiyona X=2 girdiğinde Y=3, X=3 girdiğinde Y=5 değerleri verilmiştir. Eğer bu fonksiyonun tüm X değerlerine karşılık gelmesi isteniyorsa, bu fonksiyonun derecesini ve parametrelerini sürekli olarak eklemek gerekir. Örneğin, şu anda bu koşulu sağlayan fonksiyonu Y = 2X -1 olarak oluşturabilirim. Ancak eğer X=2, Y=11 şeklinde bir veri varsa, bu üç veri noktasına uygun yeni bir fonksiyon inşa etmek gerekir. GPU kullanarak brute force ile Y = X2 -3X +5'in daha uygun olduğunu buldum; ancak verilerle tamamen örtüşmesine gerek yok, sadece dengeyi koruması ve benzer bir çıktı vermesi yeterlidir. Burada X2, X ve X0 farklı nöronları temsil ederken, 1, -3, 5 ise bunların parametreleridir.
Bu durumda, sinir ağına büyük miktarda veri girdiğimizde, yeni verileri uyumlu hale getirmek için nöronları artırabilir ve parametreleri yineleyebiliriz. Böylece tüm verileri uyumlu hale getirebiliriz.
Ve sinir ağına dayalı derin öğrenme teknolojisi, en erken sinir ağları, ileri beslemeli sinir ağları, RNN, CNN, GAN gibi birçok teknik iterasyon ve evrim geçirmiştir ve en son modern büyük modeller gibi GPT vb. için kullanılan Dönüşümcü teknolojisine evrilmiştir. Dönüşümcü teknolojisi, sinir ağlarının bir evrim yönüdür, bir dönüştürücü ) Dönüşümcü ( ekleyerek, tüm modları ) ses, video, resim vb. ( verilerini karşılık gelen sayılara kodlamak için kullanılır. Daha sonra bu veriler sinir ağına girilir, böylece sinir ağı her türlü veriye uyum sağlayabilir, yani çok modlu hale getirilir.
![Yeni başlayanlar için bilgi丨AI x Kripto: Sıfırdan Zirveye])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
Yapay zeka gelişimi üç teknolojik dalgadan geçti, birincisi 1960'lı yıllarda, yapay zeka teknolojisinin ortaya çıkmasından on yıl sonra, bu dalga sembolist teknolojinin geliştirilmesiyle ortaya çıktı, bu teknoloji genel doğal dil işleme ve insan-makine diyalogu sorunlarını çözdü. Aynı dönemde, uzman sistemler doğdu, bu, Stanford Üniversitesi'nin NASA'nın teşvikiyle tamamladığı DENRAL uzman sistemidir, bu sistem oldukça güçlü bir kimya bilgisine sahiptir, sorular aracılığıyla çıkarım yaparak kimya uzmanıyla aynı cevapları üretir, bu kimya uzmanı sistemi kimya bilgi havuzu ve çıkarım sisteminin bir kombinasyonu olarak görülebilir.
Uzman sistemlerinin ardından, 1990'larda İsrailli Amerikalı bilim insanı ve filozof Judea Pearl), Bayes ağlarını ortaya koydu, bu ağlar aynı zamanda inanç ağları olarak da bilinir. Aynı dönemde, Brooks davranışa dayalı robotik alanında çalışmalar yaptı ve davranışçılığın doğuşunu simgeledi.
1997 yılında, IBM'in derin mavi "Blue" 3.5:2.5'lik bir skorla satranç şampiyonu Kasparov'u (Kasparov) yenerek, bu zafer yapay zekanın bir dönüm noktası olarak kabul edildi ve AI teknolojisi ikinci gelişim dalgasına girdi.
Üçüncü AI teknolojisi dalgası 2006 yılında gerçekleşti. Derin öğrenmenin üç büyük ismi Yann LeCun, Geoffrey Hinton ve Yoshua Bengio, veri temsili öğrenimi için yapay sinir ağlarını temel alan bir algoritma olan derin öğrenme kavramını ortaya koydular. Sonrasında derin öğrenme algoritmaları RNN, GAN'dan Transformer ve Stable Diffusion'a kadar evrim geçirdi. Bu iki algoritma, bu üçüncü teknolojik dalgayı şekillendirdi ve aynı zamanda bağlantıcılığın altın çağıydı.
Çok sayıda ikonik olay, derin öğrenme teknolojisinin keşfi ve evrimi ile birlikte yavaş yavaş ortaya çıkmaktadır, bunlar arasında:
2011 yılında, IBM'in Watson(, "Tehlike Sınırı") adlı bilgi yarışmasında insanları yenerek şampiyon oldu.
2014 yılında, Goodfellow GAN( Üretken Çatışma Ağı, Generative Adversarial Network)'yi önerdi; iki sinir ağının karşılıklı rekabet ettiği bir öğrenme yöntemi ile gerçek gibi görünen fotoğraflar üretebiliyor. Aynı zamanda Goodfellow, derin öğrenme alanında önemli bir başlangıç kitabı olan "Deep Learning" adlı bir kitap yazdı, bu kitaba "çiçek kitabı" denir.
2015 yılında, Hinton ve arkadaşları "Nature" dergisinde derin öğrenme algoritmasını önerdiler, bu derin öğrenme yönteminin önerilmesi, akademik çevrelerde ve sanayi dünyasında hemen büyük bir yankı uyandırdı.
2015 yılında, OpenAI kuruldu, Musk, YC Başkanı Altman, melek yatırımcı Peter Thiel ( Peter Thiel ) gibi kişiler 1 milyar dolar ortak yatırım yapacaklarını açıkladı.
2016 yılında, derin öğrenme teknolojisi tabanlı AlphaGo, Go dünya şampiyonu ve profesyonel dokuzuncu dan oyuncusu Lee Sedol ile Go insan-makine savaşına girdi ve toplamda 4-1'lik bir skorla galip geldi.
2017 yılında, Çin Hong Kong'daki Hanson Robotics ( tarafından geliştirilen insansı robot Sophia, tarihte birinci sınıf vatandaşlık kazanmış ilk robot olarak adlandırılmakta, zengin yüz ifadeleri ve insan dilini anlama yeteneğine sahiptir.
2017'de, yapay zeka alanında zengin bir yetenek ve teknoloji yedeklemesine sahip olan Google, "Attention is all you need" başlıklı bir makale yayınlayarak Transformer algoritmasını önerdi ve büyük ölçekli dil modelleri ortaya çıkmaya başladı.
2018'de OpenAI, Transformer algoritmasına dayalı olarak inşa edilen GPT) Generative Pre-trained Transformer('i yayınladı; bu, o dönemdeki en büyük dil modellerinden biriydi.
2018'de, Google ekibi Deepmind, derin öğrenmeye dayalı AlphaGo'yu piyasaya sürdü ve protein yapısı tahmini yapabiliyor. Bu, yapay zeka alanında büyük bir ilerleme işareti olarak görülüyor.
2019 yılında, OpenAI GPT-2'yi duyurdu, bu model 1.5 milyar parametreye sahip.
2020 yılında, OpenAI tarafından geliştirilen GPT-3, 175 milyar parametreye sahip olup, önceki sürüm GPT-2'den 100 kat daha fazladır. Bu model, eğitim için 570GB metin kullanmış ve birden fazla NLP) doğal dil işleme( görevinde) soru yanıtlama, çeviri ve makale yazma( alanında en ileri düzeyde performansa ulaşabilmektedir.
2021 yılında, OpenAI GPT-4'ü yayımladı, bu model 1.76 trilyon parametreye sahip olup, GPT-3'ün 10 katıdır.
2023 yılının Ocak ayında GPT-4 modeline dayalı ChatGPT uygulaması piyasaya sürüldü, Mart ayında ChatGPT bir milyar kullanıcıya ulaştı ve tarihsel olarak bir milyar kullanıcıya ulaşan en hızlı uygulama oldu.
2024'te, OpenAI GPT-4 omni'yi piyasaya sürecek.
![Yeni başlayanlar için bilgilendirme丨AI x Crypto: Sıfırdan Zirveye])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
Derin Öğrenme Endüstri Zinciri
Günümüz büyük model dilleri, sinir ağına dayalı derin öğrenme yöntemlerini kullanmaktadır. GPT öncülüğündeki büyük modeller, yapay zeka alanında bir dalga yarattı ve birçok oyuncu bu alana akın etti. Ayrıca, veriye ve hesaplama gücüne olan talebin büyük ölçüde patlak verdiğini gözlemledik. Bu raporun bu bölümünde, derin öğrenme algoritmalarının endüstri zincirini keşfetmeye odaklanıyoruz. Derin öğrenme algoritmaları tarafından yönlendirilen yapay zeka sektöründe, tedarik zincirinin nasıl oluştuğu, mevcut durumları ve arz-talep ilişkileri ile gelecekteki gelişmelerin neler olduğu üzerinde duruyoruz.
Öncelikle netleştirmemiz gereken, Transformer teknolojisine dayalı GPT öncülüğündeki LLM'lerin) büyük modelinin( eğitiminde toplamda üç adım olduğudur.
Eğitimden önce, Transformer tabanlı olduğu için dönüştürücünün metin girişini sayılara dönüştürmesi gerekir; bu işleme "Tokenization" denir. Daha sonra bu sayılara Token denir. Genel bir kural olarak, bir İngilizce kelime veya karakter yaklaşık olarak bir Token olarak kabul edilebilirken, her bir Çince karakter yaklaşık iki Token olarak kabul edilebilir. Bu da GPT'nin fiyatlandırmada kullandığı temel birimdir.
İlk adım, ön eğitim. Giriş katmanına yeterince veri çifti sağlayarak, raporun ilk bölümünde verilen örnekler gibi )X,Y(, model altındaki her bir nöronun en iyi parametrelerini bulmak için, bu aşamada çok fazla veriye ihtiyaç vardır ve bu süreç aynı zamanda en fazla hesaplama gücünü tüketen süreçtir, çünkü nöronları çeşitli parametreleri denemek için tekrar tekrar döngüye sokmak gerekir. Bir veri çifti eğitim tamamlandıktan sonra, genellikle aynı veri kümesi ile parametreleri yinelemek için ikincil bir eğitim yapılır.
İkinci adım, ince ayar. İnce ayar, daha az sayıda ancak çok kaliteli verilere sahip bir küme vermektir, bu tür bir değişiklik modelin çıktısının kalitesini artıracaktır, çünkü ön eğitim büyük miktarda veri gerektirir, ancak birçok veri hatalı veya düşük kaliteli olabilir. İnce ayar adımı, kaliteli verilerle modelin kalitesini artırabilir.
Üçüncü adım, pekiştirmeli öğrenme. Öncelikle tamamen yeni bir model oluşturulacak, buna "ödül modeli" diyoruz. Bu modelin amacı oldukça basit, çıktıları sıralamak. Bu nedenle bu modeli gerçekleştirmek oldukça kolaydır, çünkü iş senaryosu oldukça dikeydir. Daha sonra bu modeli kullanarak büyük modelimizin çıktısının yüksek kaliteli olup olmadığını belirleyeceğiz, böylece büyük modelin parametrelerini otomatik olarak yinelemek için bir ödül modeli kullanabiliriz. ) Ancak bazen modelin çıktı kalitesini değerlendirmek için insan müdahalesi de gerekebilir (.
Kısacası, büyük modellerin eğitim sürecinde, ön eğitim verilerin miktarı için çok yüksek talepler gerektirir, gereken GPU hesaplama gücü de en fazlasıdır. İnce ayar ise parametreleri geliştirmek için daha yüksek kaliteli verilere ihtiyaç duyar. Pekiştirmeli öğrenme, daha yüksek kaliteli sonuçlar elde etmek için parametreleri tekrar tekrar yinelemek amacıyla bir ödül modeli kullanabilir.
Eğitim sürecinde, parametre sayısı arttıkça genelleme yeteneğinin üst sınırı da artar. Örneğin bir fonksiyon örneği olarak Y = aX + b alalım, aslında burada iki sinir hücresi vardır: X ve X0. Bu nedenle, parametrelerin nasıl değiştiği, uyum sağlayabileceği veriler oldukça sınırlıdır, çünkü bu özünde hala bir düz çizgidir. Sinir hücreleri sayısı arttıkça, daha fazla parametre üzerinde yineleme yapabiliriz, böylece daha fazla veriyi uyum sağlayabiliriz. İşte bu, büyük modellerin mucizeler yaratmasının nedenidir ve aynı zamanda halk arasında büyük model olarak adlandırılmasının sebebidir; özünde büyük miktarda sinir hücresi ve parametre, büyük miktarda veri, aynı zamanda büyük miktarda hesaplama gücü gerektirir.
Bu nedenle, büyük model performansını etkileyen başlıca üç faktör vardır: parametre sayısı, veri miktarı ve kalitesi, hesaplama gücü; bu üçü, büyük modelin sonuç kalitesini ve genelleme yeteneğini ortak olarak etkiler. Parametre sayısını p, veri miktarını ise n) token sayısı cinsinden hesapladığımızı varsayalım(, bu durumda gerekli hesaplama miktarını genel bir deneysel kural ile hesaplayabiliriz; böylece yaklaşık olarak satın almamız gereken hesaplama gücünü ve eğitim süresini tahmin edebiliriz.
Hesaplama gücü genellikle Flops ile ölçülür, bu da bir kayan nokta işlemini temsil eder. Kayan nokta işlemleri, tam sayı olmayan sayıların toplama, çıkarma, çarpma ve bölme işlemlerinin genel adıdır, örneğin 2.5+3.557. Kayan nokta, ondalık sayıları temsil etme yeteneğini ifade eder ve FP16, desteklendiğini gösterir.