الذكاء الاصطناعي x العملات الرقمية: من الصفر إلى القمة
يتم اعتبار التطور الأخير في صناعة الذكاء الاصطناعي من قبل بعض الأشخاص بمثابة الثورة الصناعية الرابعة. أحدث ظهور النماذج الكبيرة زيادة ملحوظة في كفاءة جميع القطاعات، حيث يُقدَّر أنها زادت كفاءة العمل في الولايات المتحدة بنحو 20%. في الوقت نفسه، يُعتبر القدرة على التعميم التي تُجلبها النماذج الكبيرة نموذج تصميم برمجي جديد، حيث كان تصميم البرمجيات في الماضي يعتمد على الشفرات الدقيقة، أما الآن فقد تم تضمين إطار النماذج الكبيرة الأكثر تعميمًا في البرمجيات، مما يُمكّن هذه البرمجيات من تقديم أداء أفضل ودعم مدخلات ومخرجات أكثر تنوعًا. لقد جلبت تقنيات التعلم العميق ازدهارًا رابعًا لصناعة الذكاء الاصطناعي، وقد أثرت هذه الموجة أيضًا على صناعة العملات المشفرة.
سيتناول هذا التقرير بالتفصيل تاريخ تطور صناعة الذكاء الاصطناعي، تصنيفات التكنولوجيا، وتأثير تقنيات التعلم العميق على الصناعة. ثم سيتم تحليل حالة التطور والاتجاهات في سلسلة القيمة المرتبطة بالتعلم العميق، بما في ذلك GPU، الحوسبة السحابية، مصادر البيانات، والأجهزة الطرفية. أخيرًا، سيتم استكشاف العلاقة الجوهرية بين العملات المشفرة وصناعة الذكاء الاصطناعي، مع مراجعة هيكل سلسلة القيمة المرتبطة بالذكاء الاصطناعي والعملات المشفرة.
بدأت صناعة الذكاء الاصطناعي في الخمسينيات من القرن العشرين، ولتحقيق رؤية الذكاء الاصطناعي، طورت الأوساط الأكاديمية والصناعية في عصور مختلفة ومن خلفيات علمية متنوعة عدة اتجاهات لتحقيق الذكاء الاصطناعي.
تستخدم تقنيات الذكاء الاصطناعي الحديثة بشكل أساسي مصطلح "تعلم الآلة"، وتتمثل فكرة هذه التقنية في جعل الآلات تعتمد على البيانات للتكرار المتكرر في المهام من أجل تحسين أداء النظام. الخطوات الرئيسية هي إرسال البيانات إلى الخوارزمية، واستخدام هذه البيانات لتدريب النموذج، واختبار النموذج ونشره، واستخدام النموذج لإكمال مهام التنبؤ الآلي.
توجد حاليًا ثلاثة اتجاهات رئيسية في تعلم الآلة، وهي الارتباطية، الرمزية، والسلوكية، والتي تحاكي على التوالي النظام العصبي البشري، التفكير، والسلوك.
في الوقت الحالي، تهيمن الشبكات العصبية، التي تمثلها الارتباطية، ( والمعروفة أيضًا بالتعلم العميق )، والسبب الرئيسي هو أن هذه البنية تحتوي على طبقة إدخال وطبقة إخراج، ولكن بها العديد من الطبقات المخفية. بمجرد أن يصبح عدد الطبقات وعدد الوحدات العصبية ( والمعلمات ) كبيرًا بما فيه الكفاية، سيكون هناك فرصة كافية لتناسب المهام العامة المعقدة. من خلال إدخال البيانات، يمكن تعديل معلمات الوحدات العصبية باستمرار، وبعد المرور عبر العديد من البيانات، ستصل هذه الوحدة العصبية إلى حالة مثالية ( معلمات )، وهذا ما يسمى "الجهد الكبير يؤدي إلى المعجزات"، وهو أصل كلمة "عميق" - عدد كافٍ من الطبقات والوحدات العصبية.
على سبيل المثال، يمكن فهمه ببساطة على أنه تم بناء دالة، عندما ندخل X=2، فإن Y=3؛ وعندما X=3، فإن Y=5. إذا أردنا أن تتعامل هذه الدالة مع جميع قيم X، فسيتعين علينا إضافة درجة هذه الدالة ومعاملاتها باستمرار. على سبيل المثال، يمكنني بناء دالة تلبي هذا الشرط وهي Y = 2X -1، ولكن إذا كانت هناك بيانات حيث X=2 وY=11، فسيتعين علينا إعادة بناء دالة تناسب هذه النقاط الثلاث. باستخدام GPU في البحث العنيف، نجد أن Y = X2 -3X +5 هو الأنسب، ولكن لا حاجة للتطابق التام مع البيانات، يكفي الالتزام بالتوازن، والخروج بنتيجة مشابهة تقريبًا. هنا X2 وX وX0 تمثل خلايا عصبية مختلفة، بينما 1 و-3 و5 هي معاملاتها.
في هذه الحالة، إذا قمنا بإدخال كمية كبيرة من البيانات إلى الشبكة العصبية، يمكننا زيادة عدد الخلايا العصبية، وتكرار المعلمات لتناسب البيانات الجديدة. وبهذه الطريقة، يمكننا ملاءمة جميع البيانات.
استندت تقنيات التعلم العميق المستندة إلى الشبكات العصبية إلى عدة تكرارات وتطورات تقنية، مثل الشبكات العصبية المبكرة، الشبكات العصبية التغذوية، RNN، CNN، GAN، وأخيرًا تطورت إلى النماذج الكبيرة الحديثة مثل تقنية Transformer المستخدمة في GPT وغيرها. تقنية Transformer هي مجرد اتجاه تطوري واحد للشبكات العصبية، حيث أضافت محولًا (Transformer)، يستخدم لترميز بيانات جميع الأنماط ( مثل الصوت، الفيديو، الصور، إلخ ) إلى قيم رقمية مناسبة. ثم يتم إدخالها في الشبكة العصبية، مما يسمح للشبكة العصبية بتقليد أي نوع من البيانات، مما يعني تحقيق تعدد الأنماط.
! [الوافد الجديد Science Popular 丨الذكاء الاصطناعي x Crypto: من الصفر إلى الذروة](https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp019283746574839201
تطورت الذكاء الاصطناعي عبر ثلاث موجات تكنولوجية، كانت الموجة الأولى في الستينيات من القرن العشرين، وهي بعد عشر سنوات من اقتراح تكنولوجيا الذكاء الاصطناعي. وقد نتجت هذه الموجة عن تطور تكنولوجيا الرمزية، التي حلت مشاكل معالجة اللغات الطبيعية العامة والحوار بين الإنسان والآلة. في نفس الفترة، وُلدت أنظمة الخبراء، وكان ذلك بفضل النظام الخبير DENRAL الذي أنجز تحت إشراف جامعة ستانفورد ووكالة ناسا الأمريكية. يتمتع هذا النظام بمعرفة قوية جدًا في الكيمياء، حيث يعتمد على الاستدلال من خلال الأسئلة لتوليد إجابات مشابهة لتلك التي يقدمها خبراء الكيمياء. يمكن اعتبار هذا النظام الخبير في الكيمياء بمثابة دمج بين قاعدة المعرفة الكيميائية ونظام الاستدلال.
بعد نظام الخبراء، قدم عالم الرياضيات والفيلسوف الأمريكي من أصل إسرائيلي يهودا بيرل ) Judea Pearl ( في التسعينيات من القرن العشرين الشبكات البايزية، التي تُعرف أيضًا بشبكات الإيمان. في نفس الفترة، قدم بروكس الروبوتات القائمة على السلوك، مما يمثل ميلاد السلوكية.
في عام 1997، هزم "بلو" من آي بي إم بواقع 3.5:2.5 بطل الشطرنج كاسباروف )Kasparov(، وتم اعتبار هذه الانتصار نقطة تحول في الذكاء الاصطناعي، حيث شهدت تقنيات الذكاء الاصطناعي ذروة جديدة من التطور.
حدثت الموجة الثالثة من تكنولوجيا الذكاء الاصطناعي في عام 2006. قدم عمالقة التعلم العميق Yann LeCun و Geoffrey Hinton و Yoshua Bengio مفهوم التعلم العميق، وهو خوارزمية تعتمد على الشبكات العصبية الاصطناعية لتعلم تمثيل البيانات. بعد ذلك، تطورت خوارزميات التعلم العميق تدريجياً، من RNN و GAN إلى Transformer و Stable Diffusion، حيث شكلت هذه الخوارزميات معاً هذه الموجة التقنية الثالثة، وكانت أيضاً فترة ازدهار الارتباطية.
ظهرت العديد من الأحداث البارزة بالتزامن مع استكشاف وتطور تقنيات التعلم العميق، بما في ذلك:
في عام 2011، هزم واتسون ) Watson( من IBM البشر وحصل على البطولة في برنامج اختبار المعرفة "جيفردي" ) Jeopardy(.
في عام 2014، قدم جودفيلو شبكة الخصوم التوليدية GAN)، Generative Adversarial Network(، من خلال السماح لشبكتين عصبيتين بالتنافس ضد بعضهما البعض، يمكنها توليد صور تبدو حقيقية. في الوقت نفسه، كتب جودفيلو أيضًا كتابًا بعنوان "Deep Learning"، المعروف باسم الكتاب الزهري، وهو واحد من الكتب الأساسية المهمة في مجال تعلم العمق.
في عام 2015، اقترح هينتون وآخرون خوارزمية التعلم العميق في مجلة "Nature"، وقد أثار هذا الاقتراح ردود فعل كبيرة في الأوساط الأكاديمية والصناعية.
في عام 2015، تم إنشاء OpenAI، حيث أعلن ماسك ورئيس Y Combinator ألتمن والمستثمر الملائكي بيتر ثيل) بيتر ثيل( وآخرون عن استثمار مشترك بقيمة 1 مليار دولار.
في عام 2016، خاضت AlphaGo، التي تعتمد على تقنية التعلم العميق، معركة شطرنج ضد بطل العالم في الشطرنج ولاعب الشطرنج المحترف لي شيدو، وانتصرت بمجموع 4 مقابل 1.
في عام 2017، طورت شركة هانسون روبوتيكس )Hanson Robotics( من هونغ كونغ روبوتًا شبيهًا بالإنسان يُدعى صوفيا، والذي يُعتبر أول روبوت يحصل على الجنسية الكاملة في التاريخ، ويتميز بتعبيرات وجهية غنية وقدرات على فهم اللغة البشرية.
في عام 2017، أصدرت شركة جوجل، التي تمتلك موارد بشرية وتقنية غنية في مجال الذكاء الاصطناعي، ورقة بحثية بعنوان "Attention is all you need"، مما أدى إلى ظهور خوارزمية Transformer وبداية ظهور نماذج اللغة على نطاق واسع.
في عام 2018، أصدرت OpenAI نموذج GPT) Generative Pre-trained Transformer( المبني على خوارزمية Transformer، وهو واحد من أكبر نماذج اللغة في ذلك الوقت.
في عام 2018، أصدرت فريق Google Deepmind AlphaGo المعتمد على التعلم العميق، الذي يمكنه إجراء توقعات هيكلية للبروتينات، ويعتبر علامة تقدم كبيرة في مجال الذكاء الاصطناعي.
في عام 2019، أصدرت OpenAI نموذج GPT-2، والذي يحتوي على 1.5 مليار معلمة.
في عام 2020، طورت OpenAI نموذج GPT-3، الذي يحتوي على 175 مليار معلمة، وهو أعلى بمئة مرة من الإصدار السابق GPT-2، حيث تم تدريب هذا النموذج باستخدام 570 جيجابايت من النصوص، ويمكنه تحقيق أداء متقدم في مهام معالجة اللغة الطبيعية) مثل الإجابة على الأسئلة، والترجمة، وكتابة المقالات(.
في عام 2021، أصدرت OpenAI نموذج GPT-4، والذي يحتوي على 1.76 تريليون معلمة، وهو 10 أضعاف نموذج GPT-3.
تم إطلاق تطبيق ChatGPT المستند إلى نموذج GPT-4 في يناير 2023، وفي مارس وصل ChatGPT إلى مئة مليون مستخدم، ليصبح أسرع تطبيق في التاريخ يصل إلى مئة مليون مستخدم.
في عام 2024، أطلقت OpenAI GPT-4 omni.
! [علم الوافد الجديد 丨الذكاء الاصطناعي x التشفير: من الصفر إلى الذروة])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
سلسلة صناعة التعلم العميق
تستخدم نماذج اللغة الكبيرة الحالية أساليب التعلم العميق المستندة إلى الشبكات العصبية. وقد أدت النماذج الكبيرة التي تتصدرها GPT إلى موجة من الذكاء الاصطناعي، حيث تدفق عدد كبير من اللاعبين إلى هذا المجال، ووجدنا أيضًا أن السوق قد شهد انفجارًا في الطلب على البيانات والقدرة الحاسوبية. لذلك، في هذا الجزء من التقرير، نستكشف بشكل رئيسي سلسلة صناعة خوارزميات التعلم العميق، وكيف تتكون السلسلة العليا والسفلى في صناعة الذكاء الاصطناعي التي تهيمن عليها خوارزميات التعلم العميق، وما هي الحالة الحالية لعلاقات العرض والطلب والتطور المستقبلي.
أولاً، نحتاج إلى توضيح أنه عند إجراء تدريب نماذج LLMs الكبيرة القائمة على تقنية Transformer بقيادة GPT)، يتم تقسيم العملية إلى ثلاث خطوات.
قبل التدريب، وبما أنه يعتمد على نموذج Transformer، فإن المحول يحتاج إلى تحويل نص الإدخال إلى قيم عددية، وتسمى هذه العملية "Tokenization"، وبعد ذلك تُعرف هذه القيم العددية بـ Token. وفقًا لقاعدة التجربة العامة، يمكن اعتبار كلمة أو حرف إنجليزي بشكل تقريبي كـ Token واحد، بينما يمكن اعتبار كل حرف صيني بشكل تقريبي كـ Tokenين. هذه هي الوحدة الأساسية المستخدمة في تسعير GPT.
الخطوة الأولى، التدريب المسبق. من خلال إعطاء طبقة الإدخال عددًا كافيًا من أزواج البيانات، مثل المثال المذكور في الجزء الأول من التقرير (X، Y)، للبحث عن أفضل معلمات لكلNeuron في النموذج، في هذه المرحلة نحتاج إلى كمية كبيرة من البيانات، وهذه العملية أيضًا هي الأكثر استهلاكًا للطاقة الحسابية، لأنه يتعين تكرار محاولةNeuron مع معلمات مختلفة. بعد إكمال تدريب مجموعة من أزواج البيانات، عادةً ما يتم استخدام نفس مجموعة البيانات لإعادة التدريب لتكرار المعلمات.
الخطوة الثانية، الضبط الدقيق. الضبط الدقيق هو منح كمية صغيرة من البيانات عالية الجودة للتدريب، وسيسمح هذا التغيير للنموذج بإنتاج مخرجات ذات جودة أعلى، لأن التدريب المسبق يتطلب كمية كبيرة من البيانات، ولكن قد تحتوي العديد من هذه البيانات على أخطاء أو جودة منخفضة. يمكن لخطوة الضبط الدقيق تحسين جودة النموذج من خلال البيانات عالية الجودة.
الخطوة الثالثة، التعلم المعزز. أولاً، سيتم إنشاء نموذج جديد تمامًا، نسميه "نموذج المكافأة"، والغرض من هذا النموذج بسيط جدًا، وهو تصنيف النتائج الناتجة، لذلك سيكون من السهل نسبيًا تنفيذ هذا النموذج، لأن سيناريو العمل عمودي للغاية. بعد ذلك، سنستخدم هذا النموذج لتحديد ما إذا كانت مخرجات نموذجنا الكبير عالية الجودة، وبذلك يمكننا استخدام نموذج المكافأة لتكرار معلمات النموذج الكبير تلقائيًا. ( ولكن في بعض الأحيان يكون من الضروري مشاركة البشر في تقييم جودة مخرجات النموذج )
بعبارة مختصرة، خلال عملية تدريب النموذج الكبير، يوجد طلب مرتفع جداً على كمية البيانات في مرحلة التدريب المسبق، كما أن القوة الحسابية لوحدات معالجة الرسوميات المطلوبة هي الأكبر، بينما تحتاج مرحلة الضبط الدقيق إلى بيانات ذات جودة أعلى لتحسين المعلمات، ويمكن أن يتم التعلم المعزز من خلال نموذج مكافأة لتكرار المعلمات مراراً وتكراراً لإنتاج نتائج ذات جودة أعلى.
خلال عملية التدريب، كلما زادت المعلمات، زادت قدرة النموذج على التعميم. على سبيل المثال، في المثال الذي نستخدم فيه الدالة Y = aX + b، هناك في الواقع وحدتان عصبيتان X و X0. لذلك، بغض النظر عن كيفية تغيير المعلمات، فإن البيانات التي يمكن ملاءمتها ستكون محدودة للغاية، لأن الجوهر لا يزال خطًا مستقيمًا. إذا زادت عدد الوحدات العصبية، فسوف نتمكن من تكرار المزيد من المعلمات، وبالتالي يمكننا ملاءمة المزيد من البيانات. هذا هو السبب وراء أن النماذج الكبيرة تحقق نتائج مذهلة، وهذا أيضًا هو السبب وراء تسميتها بشكل شائع بالنماذج الكبيرة، حيث تتكون في الأساس من عدد ضخم من الوحدات العصبية والمعلمات، بالإضافة إلى كمية ضخمة من البيانات، مما يتطلب أيضًا قوة حسابية هائلة.
لذلك، يؤثر أداء النماذج الكبيرة بشكل رئيسي على ثلاثة جوانب: عدد المعلمات، حجم وجودة البيانات، والقدرة الحاسوبية، حيث تؤثر هذه الثلاثة معًا على جودة نتائج النموذج وقدرته على التعميم. نفترض أن عدد المعلمات هو p، وحجم البيانات هو n( يتم حسابه بعدد التوكنات)، ومن ثم يمكننا حساب كمية الحساب المطلوبة من خلال قاعدة تجريبية عامة، مما يسمح لنا بتقدير ما نحتاجه تقريبًا من القدرة الحاسوبية وظروف التدريب.
تُعتبر القدرة الحاسوبية عادةً بوحدات Flops، والتي تمثل عملية حسابية عائمة واحدة. العملية الحسابية العائمة هي مصطلح شامل لجميع عمليات الجمع والطرح والضرب والقسمة للأعداد غير الصحيحة، مثل 2.5 + 3.557. تعني العائمة القدرة على التعامل مع الأعداد العشرية، بينما تشير FP16 إلى الدعم.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 6
أعجبني
6
4
مشاركة
تعليق
0/400
DefiPlaybook
· 07-21 23:34
زيادة كفاءة العمل بنسبة 20%؟ تعدين السيولة يمكن أن يضاعف عدة مرات!
دمج الذكاء الاصطناعي مع الأصول الرقمية: من الأساسيات إلى التطور المستقبلي
الذكاء الاصطناعي x العملات الرقمية: من الصفر إلى القمة
يتم اعتبار التطور الأخير في صناعة الذكاء الاصطناعي من قبل بعض الأشخاص بمثابة الثورة الصناعية الرابعة. أحدث ظهور النماذج الكبيرة زيادة ملحوظة في كفاءة جميع القطاعات، حيث يُقدَّر أنها زادت كفاءة العمل في الولايات المتحدة بنحو 20%. في الوقت نفسه، يُعتبر القدرة على التعميم التي تُجلبها النماذج الكبيرة نموذج تصميم برمجي جديد، حيث كان تصميم البرمجيات في الماضي يعتمد على الشفرات الدقيقة، أما الآن فقد تم تضمين إطار النماذج الكبيرة الأكثر تعميمًا في البرمجيات، مما يُمكّن هذه البرمجيات من تقديم أداء أفضل ودعم مدخلات ومخرجات أكثر تنوعًا. لقد جلبت تقنيات التعلم العميق ازدهارًا رابعًا لصناعة الذكاء الاصطناعي، وقد أثرت هذه الموجة أيضًا على صناعة العملات المشفرة.
سيتناول هذا التقرير بالتفصيل تاريخ تطور صناعة الذكاء الاصطناعي، تصنيفات التكنولوجيا، وتأثير تقنيات التعلم العميق على الصناعة. ثم سيتم تحليل حالة التطور والاتجاهات في سلسلة القيمة المرتبطة بالتعلم العميق، بما في ذلك GPU، الحوسبة السحابية، مصادر البيانات، والأجهزة الطرفية. أخيرًا، سيتم استكشاف العلاقة الجوهرية بين العملات المشفرة وصناعة الذكاء الاصطناعي، مع مراجعة هيكل سلسلة القيمة المرتبطة بالذكاء الاصطناعي والعملات المشفرة.
! علم الوافد الجديد 丨 الذكاء الاصطناعي x التشفير: من الصفر إلى الذروة
تاريخ تطور صناعة الذكاء الاصطناعي
بدأت صناعة الذكاء الاصطناعي في الخمسينيات من القرن العشرين، ولتحقيق رؤية الذكاء الاصطناعي، طورت الأوساط الأكاديمية والصناعية في عصور مختلفة ومن خلفيات علمية متنوعة عدة اتجاهات لتحقيق الذكاء الاصطناعي.
تستخدم تقنيات الذكاء الاصطناعي الحديثة بشكل أساسي مصطلح "تعلم الآلة"، وتتمثل فكرة هذه التقنية في جعل الآلات تعتمد على البيانات للتكرار المتكرر في المهام من أجل تحسين أداء النظام. الخطوات الرئيسية هي إرسال البيانات إلى الخوارزمية، واستخدام هذه البيانات لتدريب النموذج، واختبار النموذج ونشره، واستخدام النموذج لإكمال مهام التنبؤ الآلي.
توجد حاليًا ثلاثة اتجاهات رئيسية في تعلم الآلة، وهي الارتباطية، الرمزية، والسلوكية، والتي تحاكي على التوالي النظام العصبي البشري، التفكير، والسلوك.
في الوقت الحالي، تهيمن الشبكات العصبية، التي تمثلها الارتباطية، ( والمعروفة أيضًا بالتعلم العميق )، والسبب الرئيسي هو أن هذه البنية تحتوي على طبقة إدخال وطبقة إخراج، ولكن بها العديد من الطبقات المخفية. بمجرد أن يصبح عدد الطبقات وعدد الوحدات العصبية ( والمعلمات ) كبيرًا بما فيه الكفاية، سيكون هناك فرصة كافية لتناسب المهام العامة المعقدة. من خلال إدخال البيانات، يمكن تعديل معلمات الوحدات العصبية باستمرار، وبعد المرور عبر العديد من البيانات، ستصل هذه الوحدة العصبية إلى حالة مثالية ( معلمات )، وهذا ما يسمى "الجهد الكبير يؤدي إلى المعجزات"، وهو أصل كلمة "عميق" - عدد كافٍ من الطبقات والوحدات العصبية.
على سبيل المثال، يمكن فهمه ببساطة على أنه تم بناء دالة، عندما ندخل X=2، فإن Y=3؛ وعندما X=3، فإن Y=5. إذا أردنا أن تتعامل هذه الدالة مع جميع قيم X، فسيتعين علينا إضافة درجة هذه الدالة ومعاملاتها باستمرار. على سبيل المثال، يمكنني بناء دالة تلبي هذا الشرط وهي Y = 2X -1، ولكن إذا كانت هناك بيانات حيث X=2 وY=11، فسيتعين علينا إعادة بناء دالة تناسب هذه النقاط الثلاث. باستخدام GPU في البحث العنيف، نجد أن Y = X2 -3X +5 هو الأنسب، ولكن لا حاجة للتطابق التام مع البيانات، يكفي الالتزام بالتوازن، والخروج بنتيجة مشابهة تقريبًا. هنا X2 وX وX0 تمثل خلايا عصبية مختلفة، بينما 1 و-3 و5 هي معاملاتها.
في هذه الحالة، إذا قمنا بإدخال كمية كبيرة من البيانات إلى الشبكة العصبية، يمكننا زيادة عدد الخلايا العصبية، وتكرار المعلمات لتناسب البيانات الجديدة. وبهذه الطريقة، يمكننا ملاءمة جميع البيانات.
استندت تقنيات التعلم العميق المستندة إلى الشبكات العصبية إلى عدة تكرارات وتطورات تقنية، مثل الشبكات العصبية المبكرة، الشبكات العصبية التغذوية، RNN، CNN، GAN، وأخيرًا تطورت إلى النماذج الكبيرة الحديثة مثل تقنية Transformer المستخدمة في GPT وغيرها. تقنية Transformer هي مجرد اتجاه تطوري واحد للشبكات العصبية، حيث أضافت محولًا (Transformer)، يستخدم لترميز بيانات جميع الأنماط ( مثل الصوت، الفيديو، الصور، إلخ ) إلى قيم رقمية مناسبة. ثم يتم إدخالها في الشبكة العصبية، مما يسمح للشبكة العصبية بتقليد أي نوع من البيانات، مما يعني تحقيق تعدد الأنماط.
! [الوافد الجديد Science Popular 丨الذكاء الاصطناعي x Crypto: من الصفر إلى الذروة](https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp019283746574839201
تطورت الذكاء الاصطناعي عبر ثلاث موجات تكنولوجية، كانت الموجة الأولى في الستينيات من القرن العشرين، وهي بعد عشر سنوات من اقتراح تكنولوجيا الذكاء الاصطناعي. وقد نتجت هذه الموجة عن تطور تكنولوجيا الرمزية، التي حلت مشاكل معالجة اللغات الطبيعية العامة والحوار بين الإنسان والآلة. في نفس الفترة، وُلدت أنظمة الخبراء، وكان ذلك بفضل النظام الخبير DENRAL الذي أنجز تحت إشراف جامعة ستانفورد ووكالة ناسا الأمريكية. يتمتع هذا النظام بمعرفة قوية جدًا في الكيمياء، حيث يعتمد على الاستدلال من خلال الأسئلة لتوليد إجابات مشابهة لتلك التي يقدمها خبراء الكيمياء. يمكن اعتبار هذا النظام الخبير في الكيمياء بمثابة دمج بين قاعدة المعرفة الكيميائية ونظام الاستدلال.
بعد نظام الخبراء، قدم عالم الرياضيات والفيلسوف الأمريكي من أصل إسرائيلي يهودا بيرل ) Judea Pearl ( في التسعينيات من القرن العشرين الشبكات البايزية، التي تُعرف أيضًا بشبكات الإيمان. في نفس الفترة، قدم بروكس الروبوتات القائمة على السلوك، مما يمثل ميلاد السلوكية.
في عام 1997، هزم "بلو" من آي بي إم بواقع 3.5:2.5 بطل الشطرنج كاسباروف )Kasparov(، وتم اعتبار هذه الانتصار نقطة تحول في الذكاء الاصطناعي، حيث شهدت تقنيات الذكاء الاصطناعي ذروة جديدة من التطور.
حدثت الموجة الثالثة من تكنولوجيا الذكاء الاصطناعي في عام 2006. قدم عمالقة التعلم العميق Yann LeCun و Geoffrey Hinton و Yoshua Bengio مفهوم التعلم العميق، وهو خوارزمية تعتمد على الشبكات العصبية الاصطناعية لتعلم تمثيل البيانات. بعد ذلك، تطورت خوارزميات التعلم العميق تدريجياً، من RNN و GAN إلى Transformer و Stable Diffusion، حيث شكلت هذه الخوارزميات معاً هذه الموجة التقنية الثالثة، وكانت أيضاً فترة ازدهار الارتباطية.
ظهرت العديد من الأحداث البارزة بالتزامن مع استكشاف وتطور تقنيات التعلم العميق، بما في ذلك:
في عام 2011، هزم واتسون ) Watson( من IBM البشر وحصل على البطولة في برنامج اختبار المعرفة "جيفردي" ) Jeopardy(.
في عام 2014، قدم جودفيلو شبكة الخصوم التوليدية GAN)، Generative Adversarial Network(، من خلال السماح لشبكتين عصبيتين بالتنافس ضد بعضهما البعض، يمكنها توليد صور تبدو حقيقية. في الوقت نفسه، كتب جودفيلو أيضًا كتابًا بعنوان "Deep Learning"، المعروف باسم الكتاب الزهري، وهو واحد من الكتب الأساسية المهمة في مجال تعلم العمق.
في عام 2015، اقترح هينتون وآخرون خوارزمية التعلم العميق في مجلة "Nature"، وقد أثار هذا الاقتراح ردود فعل كبيرة في الأوساط الأكاديمية والصناعية.
في عام 2015، تم إنشاء OpenAI، حيث أعلن ماسك ورئيس Y Combinator ألتمن والمستثمر الملائكي بيتر ثيل) بيتر ثيل( وآخرون عن استثمار مشترك بقيمة 1 مليار دولار.
في عام 2016، خاضت AlphaGo، التي تعتمد على تقنية التعلم العميق، معركة شطرنج ضد بطل العالم في الشطرنج ولاعب الشطرنج المحترف لي شيدو، وانتصرت بمجموع 4 مقابل 1.
في عام 2017، طورت شركة هانسون روبوتيكس )Hanson Robotics( من هونغ كونغ روبوتًا شبيهًا بالإنسان يُدعى صوفيا، والذي يُعتبر أول روبوت يحصل على الجنسية الكاملة في التاريخ، ويتميز بتعبيرات وجهية غنية وقدرات على فهم اللغة البشرية.
في عام 2017، أصدرت شركة جوجل، التي تمتلك موارد بشرية وتقنية غنية في مجال الذكاء الاصطناعي، ورقة بحثية بعنوان "Attention is all you need"، مما أدى إلى ظهور خوارزمية Transformer وبداية ظهور نماذج اللغة على نطاق واسع.
في عام 2018، أصدرت OpenAI نموذج GPT) Generative Pre-trained Transformer( المبني على خوارزمية Transformer، وهو واحد من أكبر نماذج اللغة في ذلك الوقت.
في عام 2018، أصدرت فريق Google Deepmind AlphaGo المعتمد على التعلم العميق، الذي يمكنه إجراء توقعات هيكلية للبروتينات، ويعتبر علامة تقدم كبيرة في مجال الذكاء الاصطناعي.
في عام 2019، أصدرت OpenAI نموذج GPT-2، والذي يحتوي على 1.5 مليار معلمة.
في عام 2020، طورت OpenAI نموذج GPT-3، الذي يحتوي على 175 مليار معلمة، وهو أعلى بمئة مرة من الإصدار السابق GPT-2، حيث تم تدريب هذا النموذج باستخدام 570 جيجابايت من النصوص، ويمكنه تحقيق أداء متقدم في مهام معالجة اللغة الطبيعية) مثل الإجابة على الأسئلة، والترجمة، وكتابة المقالات(.
في عام 2021، أصدرت OpenAI نموذج GPT-4، والذي يحتوي على 1.76 تريليون معلمة، وهو 10 أضعاف نموذج GPT-3.
تم إطلاق تطبيق ChatGPT المستند إلى نموذج GPT-4 في يناير 2023، وفي مارس وصل ChatGPT إلى مئة مليون مستخدم، ليصبح أسرع تطبيق في التاريخ يصل إلى مئة مليون مستخدم.
في عام 2024، أطلقت OpenAI GPT-4 omni.
! [علم الوافد الجديد 丨الذكاء الاصطناعي x التشفير: من الصفر إلى الذروة])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
سلسلة صناعة التعلم العميق
تستخدم نماذج اللغة الكبيرة الحالية أساليب التعلم العميق المستندة إلى الشبكات العصبية. وقد أدت النماذج الكبيرة التي تتصدرها GPT إلى موجة من الذكاء الاصطناعي، حيث تدفق عدد كبير من اللاعبين إلى هذا المجال، ووجدنا أيضًا أن السوق قد شهد انفجارًا في الطلب على البيانات والقدرة الحاسوبية. لذلك، في هذا الجزء من التقرير، نستكشف بشكل رئيسي سلسلة صناعة خوارزميات التعلم العميق، وكيف تتكون السلسلة العليا والسفلى في صناعة الذكاء الاصطناعي التي تهيمن عليها خوارزميات التعلم العميق، وما هي الحالة الحالية لعلاقات العرض والطلب والتطور المستقبلي.
أولاً، نحتاج إلى توضيح أنه عند إجراء تدريب نماذج LLMs الكبيرة القائمة على تقنية Transformer بقيادة GPT)، يتم تقسيم العملية إلى ثلاث خطوات.
قبل التدريب، وبما أنه يعتمد على نموذج Transformer، فإن المحول يحتاج إلى تحويل نص الإدخال إلى قيم عددية، وتسمى هذه العملية "Tokenization"، وبعد ذلك تُعرف هذه القيم العددية بـ Token. وفقًا لقاعدة التجربة العامة، يمكن اعتبار كلمة أو حرف إنجليزي بشكل تقريبي كـ Token واحد، بينما يمكن اعتبار كل حرف صيني بشكل تقريبي كـ Tokenين. هذه هي الوحدة الأساسية المستخدمة في تسعير GPT.
الخطوة الأولى، التدريب المسبق. من خلال إعطاء طبقة الإدخال عددًا كافيًا من أزواج البيانات، مثل المثال المذكور في الجزء الأول من التقرير (X، Y)، للبحث عن أفضل معلمات لكلNeuron في النموذج، في هذه المرحلة نحتاج إلى كمية كبيرة من البيانات، وهذه العملية أيضًا هي الأكثر استهلاكًا للطاقة الحسابية، لأنه يتعين تكرار محاولةNeuron مع معلمات مختلفة. بعد إكمال تدريب مجموعة من أزواج البيانات، عادةً ما يتم استخدام نفس مجموعة البيانات لإعادة التدريب لتكرار المعلمات.
الخطوة الثانية، الضبط الدقيق. الضبط الدقيق هو منح كمية صغيرة من البيانات عالية الجودة للتدريب، وسيسمح هذا التغيير للنموذج بإنتاج مخرجات ذات جودة أعلى، لأن التدريب المسبق يتطلب كمية كبيرة من البيانات، ولكن قد تحتوي العديد من هذه البيانات على أخطاء أو جودة منخفضة. يمكن لخطوة الضبط الدقيق تحسين جودة النموذج من خلال البيانات عالية الجودة.
الخطوة الثالثة، التعلم المعزز. أولاً، سيتم إنشاء نموذج جديد تمامًا، نسميه "نموذج المكافأة"، والغرض من هذا النموذج بسيط جدًا، وهو تصنيف النتائج الناتجة، لذلك سيكون من السهل نسبيًا تنفيذ هذا النموذج، لأن سيناريو العمل عمودي للغاية. بعد ذلك، سنستخدم هذا النموذج لتحديد ما إذا كانت مخرجات نموذجنا الكبير عالية الجودة، وبذلك يمكننا استخدام نموذج المكافأة لتكرار معلمات النموذج الكبير تلقائيًا. ( ولكن في بعض الأحيان يكون من الضروري مشاركة البشر في تقييم جودة مخرجات النموذج )
بعبارة مختصرة، خلال عملية تدريب النموذج الكبير، يوجد طلب مرتفع جداً على كمية البيانات في مرحلة التدريب المسبق، كما أن القوة الحسابية لوحدات معالجة الرسوميات المطلوبة هي الأكبر، بينما تحتاج مرحلة الضبط الدقيق إلى بيانات ذات جودة أعلى لتحسين المعلمات، ويمكن أن يتم التعلم المعزز من خلال نموذج مكافأة لتكرار المعلمات مراراً وتكراراً لإنتاج نتائج ذات جودة أعلى.
خلال عملية التدريب، كلما زادت المعلمات، زادت قدرة النموذج على التعميم. على سبيل المثال، في المثال الذي نستخدم فيه الدالة Y = aX + b، هناك في الواقع وحدتان عصبيتان X و X0. لذلك، بغض النظر عن كيفية تغيير المعلمات، فإن البيانات التي يمكن ملاءمتها ستكون محدودة للغاية، لأن الجوهر لا يزال خطًا مستقيمًا. إذا زادت عدد الوحدات العصبية، فسوف نتمكن من تكرار المزيد من المعلمات، وبالتالي يمكننا ملاءمة المزيد من البيانات. هذا هو السبب وراء أن النماذج الكبيرة تحقق نتائج مذهلة، وهذا أيضًا هو السبب وراء تسميتها بشكل شائع بالنماذج الكبيرة، حيث تتكون في الأساس من عدد ضخم من الوحدات العصبية والمعلمات، بالإضافة إلى كمية ضخمة من البيانات، مما يتطلب أيضًا قوة حسابية هائلة.
لذلك، يؤثر أداء النماذج الكبيرة بشكل رئيسي على ثلاثة جوانب: عدد المعلمات، حجم وجودة البيانات، والقدرة الحاسوبية، حيث تؤثر هذه الثلاثة معًا على جودة نتائج النموذج وقدرته على التعميم. نفترض أن عدد المعلمات هو p، وحجم البيانات هو n( يتم حسابه بعدد التوكنات)، ومن ثم يمكننا حساب كمية الحساب المطلوبة من خلال قاعدة تجريبية عامة، مما يسمح لنا بتقدير ما نحتاجه تقريبًا من القدرة الحاسوبية وظروف التدريب.
تُعتبر القدرة الحاسوبية عادةً بوحدات Flops، والتي تمثل عملية حسابية عائمة واحدة. العملية الحسابية العائمة هي مصطلح شامل لجميع عمليات الجمع والطرح والضرب والقسمة للأعداد غير الصحيحة، مثل 2.5 + 3.557. تعني العائمة القدرة على التعامل مع الأعداد العشرية، بينما تشير FP16 إلى الدعم.