Недавнее развитие AI-индустрии некоторыми людьми рассматривается как четвертая промышленная революция. Появление больших моделей значительно повысило эффективность в различных отраслях, и, по оценкам, увеличило рабочую эффективность в США примерно на 20%. В то же время универсальные возможности, предоставляемые большими моделями, считаются новой парадигмой проектирования программного обеспечения: если в прошлом проектирование программного обеспечения основывалось на точном коде, то сейчас в него интегрируются более универсальные рамки больших моделей, которые обеспечивают лучшие результаты и поддерживают более широкий спектр входных и выходных данных. Технологии глубокого обучения принесли четвертое процветание в AI-индустрию, и этот тренд также повлиял на индустрию криптовалют.
В этом отчете будет подробно рассмотрена история развития индустрии ИИ, классификация технологий, а также влияние технологий глубокого обучения на отрасль. Затем будет проведен глубокий анализ состояния и тенденций развития цепочки поставок, включая GPU, облачные вычисления, источники данных, устройства на границе и другие аспекты глубокого обучения. Наконец, будет рассмотрен взаимосвязь между криптовалютой и индустрией ИИ, а также проведен анализ структуры цепочки поставок в области ИИ, связанной с криптовалютой.
Отрасль ИИ начала развиваться с 50-х годов XX века. Для реализации видения искусственного интеллекта академическое и промышленное сообщества в разные эпохи и с различным академическим фоном разработали множество направлений для достижения искусственного интеллекта.
Современные технологии искусственного интеллекта в основном используют термин "машинное обучение", идея которого заключается в том, чтобы позволить машинам повторно итеративно улучшать производительность системы на основе данных в ходе выполнения задач. Основные шаги включают в себя передачу данных алгоритму, обучение модели на этих данных, тестирование и развертывание модели, а также использование модели для выполнения автоматизированных предсказательных задач.
В настоящее время существует три основных направления машинного обучения: соединительный подход, символический подход и бихевиористский подход, каждое из которых имитирует человеческую нервную систему, мышление и поведение.
В настоящее время подход, представленный нейронными сетями, доминирует (, также известный как глубокое обучение ). Основная причина заключается в том, что такая архитектура имеет один входной слой и один выходной слой, но несколько скрытых слоев. Как только количество слоев и нейронов (, а также параметры ) становятся достаточно большими, возникает возможность подгонки под сложные универсальные задачи. Путем ввода данных можно постоянно корректировать параметры нейронов, и в конечном итоге, пройдя через множество данных, нейрон достигнет оптимального состояния ( параметров ). Это и называется "сильная сила - чудо", и именно от этого слова "глубокий" — достаточно большое количество слоев и нейронов.
Например, можно просто понять, что мы создали функцию, где при вводе X=2, Y=3; при X=3, Y=5. Если мы хотим, чтобы эта функция работала для всех X, то нужно постоянно добавлять степень этой функции и ее параметры. Например, я могу создать функцию, удовлетворяющую этому условию, как Y = 2X -1, но если имеется данные X=2, Y=11, то нужно перестроить функцию, подходящую для этих трех точек данных. Используя GPU для брутфорса, мы находим, что Y = X2 -3X +5 подходит лучше всего, но не обязательно полностью совпадать с данными, достаточно соблюдать баланс и выдавать примерно похожий результат. Здесь X2, X и X0 представляют разные нейроны, а 1, -3, 5 — это их параметры.
В этом случае, если мы введем большое количество данных в нейронную сеть, мы можем увеличить количество нейронов и итеративно изменять параметры для подгонки новых данных. Таким образом, мы сможем подогнать все данные.
На основе технологий глубокого обучения, основанных на нейронных сетях, также произошло несколько технических итераций и эволюций, таких как самые ранние нейронные сети, сети прямого распространения, RNN, CNN и GAN, в конечном итоге эволюционировавшие в современные большие модели, такие как GPT, использующие технологию Transformer. Технология Transformer является лишь одним из направлений эволюции нейронных сетей, добавляющим преобразователь ( Transformer ), предназначенный для кодирования данных всех модальностей (, таких как аудио, видео, изображения и т.д. ) в соответствующие числовые значения для представления. Затем эти данные вводятся в нейронную сеть, что позволяет нейронной сети подстраиваться под любые типы данных, то есть реализовывать мультимодальность.
Развитие ИИ прошло через три волны технологий. Первая волна пришлась на 60-е годы XX века, через десять лет после появления технологий ИИ. Эта волна была вызвана развитием символистских технологий, которые решали проблемы общего обработки естественного языка и взаимодействия человека с компьютером. В это же время возникли экспертные системы, одна из которых, экспертная система DENRAL, была создана по инициативе Стэнфордского университета и NASA. Эта система обладала очень сильными знаниями в области химии и могла делать выводы на основе вопросов, предоставляя ответы, аналогичные ответам химического эксперта. Эту экспертную систему можно рассматривать как сочетание базы знаний по химии и системы вывода.
После экспертных систем в 90-х годах 20 века израильско-американский ученый и философ Джудея Перл ( Judea Pearl ) предложил байесовские сети, которые также известны как сети верований. В то же время, Брукс предложил поведенческую робототехнику, что ознаменовало рождение бихевиоризма.
В 1997 году система IBM Deep Blue с результатом 3,5:2,5 победила чемпиона мира по шахматам Гарри Каспарова (Kasparov), и эта победа была признана вехой в области искусственного интеллекта, что ознаменовало вторую волну развития технологий ИИ.
Третья волна технологий ИИ произошла в 2006 году. Три гиганта глубокого обучения Ян ЛеКун, Джеффри Хинтон и Йошуа Бенжио предложили концепцию глубокого обучения, алгоритма, основанного на архитектуре искусственных нейронных сетей, для представления данных. Затем алгоритмы глубокого обучения постепенно эволюционировали, от RNN, GAN до Transformer и Stable Diffusion, эти два алгоритма совместно сформировали третью технологическую волну, и это также был расцвет коннекционизма.
Множество знаковых событий также постепенно возникло в связи с исследованием и развитием технологий глубокого обучения, включая:
В 2011 году IBM Watson( одержал победу над человеком и стал чемпионом в викторине «Jeopardy)».
В 2014 году Гудфеллоу предложил GAN( генеративную состязательную сеть, Generative Adversarial Network), которая обучается путем противостояния двух нейронных сетей и может генерировать фотореалистичные изображения. В то же время Гудфеллоу также написал книгу "Deep Learning", известную как "цветная книга", которая является одной из важных вступительных книг в области глубокого обучения.
В 2015 году Хинтон и др. в журнале «Природа» предложили алгоритм глубокого обучения, который сразу же вызвал огромный резонанс как в научных кругах, так и в промышленности.
В 2015 году OpenAI был основан, Илон Маск, президент Y Combinator Алтман, ангел-инвестор Питер Тиль ( и другие объявили о совместном инвестировании в размере 1 миллиарда долларов.
В 2016 году AlphaGo, основанный на технологиях глубокого обучения, провел матч против чемпиона мира по го и профессионального игрока девятого дана Ли Сяося и выиграл со счетом 4:1.
В 2017 году гонконгская компания Hanson Robotics, разработавшая гуманоидного робота Софию, стала первой в истории, кто получил статус полноценного гражданина. Робот обладает богатой мимикой и способностью понимать человеческий язык.
В 2017 году Google, обладающий богатым потенциалом и технологическими запасами в области искусственного интеллекта, опубликовал статью «Attention is all you need», в которой был представлен алгоритм Transformer, началось появление крупных языковых моделей.
В 2018 году OpenAI выпустила GPT) Генеративный Предобученный Трансформер(, построенный на алгоритме Transformer, который на тот момент был одной из крупнейших языковых моделей.
В 2018 году команда Google Deepmind представила AlphaGo, основанный на глубоких нейронных сетях, который способен предсказывать структуру белков и считается огромным шагом вперед в области искусственного интеллекта.
В 2019 году OpenAI выпустила GPT-2, эта модель имеет 1,5 миллиарда параметров.
В 2020 году OpenAI разработала GPT-3, которая имеет 175 миллиардов параметров, что в 100 раз больше, чем у предыдущей версии GPT-2. Эта модель использовала 570 ГБ текста для обучения и может достигать передовых результатов в нескольких задачах NLP), таких как ответ на вопросы, перевод и написание статей(.
В 2021 году OpenAI выпустила GPT-4, эта модель обладает 1,76 триллиона параметров, что в 10 раз больше, чем у GPT-3.
В январе 2023 года было запущено приложение ChatGPT на основе модели GPT-4, в марте ChatGPT достигло ста миллионов пользователей, став приложением, которое быстрее всего достигло ста миллионов пользователей в истории.
В 2024 году OpenAI выпустит GPT-4 omni.
![Новый научный подход丨AI x Crypto:От нуля до вершины])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
Цепочка поставок глубокого обучения
В настоящее время языковые большие модели используют методы глубокого обучения на основе нейронных сетей. Модели, такие как GPT, породили волну интереса к искусственному интеллекту, и множество игроков вошли в эту область. Мы также обнаружили, что на рынке резко возрос спрос на данные и вычислительные мощности. Поэтому в этой части отчета мы в основном исследуем цепочку поставок алгоритмов глубокого обучения. В AI-индустрии, управляемой алгоритмами глубокого обучения, как складываются звенья вверх и вниз по цепочке, а также каковы текущее состояние, соотношение спроса и предложения и будущее развитие этих звеньев.
Прежде всего, нам нужно прояснить, что при проведении тренировок больших моделей LLMs), возглавляемых GPT на основе технологии Transformer(, всего существует три этапа.
Перед тренировкой, поскольку она основана на Transformer, преобразователь должен преобразовать текстовые входные данные в числовые значения, этот процесс называется "Токенизация", после чего эти числовые значения называются токенами. Согласно общему правилу, одно английское слово или символ можно грубо считать одним токеном, в то время как каждый иероглиф можно грубо считать за два токена. Это также является основной единицей измерения, используемой в GPT.
Первый шаг, предварительное обучение. Путем подачи на входной слой достаточного количества пар данных, подобных приведенному в первой части отчета примеру )X,Y(, необходимо найти оптимальные параметры для каждого нейрона в модели. На этом этапе требуется большое количество данных, и этот процесс также является наиболее ресурсоемким, так как необходимо многократно итерировать нейроны, пробуя различные параметры. После завершения обучения на одной партии данных обычно используется та же партия данных для вторичного обучения с целью итерации параметров.
Шаг второй, дообучение. Дообучение заключается в использовании небольшого, но очень качественного набора данных для обучения, такое изменение позволит повысить качество выходных данных модели, поскольку предварительное обучение требует большого объема данных, но многие данные могут содержать ошибки или быть низкого качества. Этап дообучения может улучшить качество модели за счет высококачественных данных.
Шаг третий, обучение с подкреплением. Сначала будет создана совершенно новая модель, которую мы называем "моделью вознаграждения". Цель этой модели очень проста: упорядочить результаты вывода, поэтому реализация этой модели будет довольно простой, поскольку бизнес-сцена довольно вертикальная. Затем мы используем эту модель, чтобы определить, является ли вывод нашей большой модели качественным, таким образом, можно использовать модель вознаграждения для автоматической итерации параметров большой модели. ) Но иногда также требуется человеческое участие для оценки качества вывода модели (.
Короче говоря, в процессе обучения больших моделей предварительное обучение требует очень большого объема данных, а также наибольших затрат вычислительной мощности GPU, в то время как тонкая настройка требует более качественных данных для улучшения параметров, а обучение с подкреплением может повторно итеративно настраивать параметры через модель вознаграждения для достижения более качественных результатов.
В процессе обучения, чем больше параметров, тем выше потолок его обобщающей способности. Например, если мы возьмем пример с функцией Y = aX + b, то на самом деле есть два нейрона X и X0. Таким образом, как бы ни изменялись параметры, количество данных, которые можно подогнать, очень ограничено, поскольку по своей сути это все еще прямая линия. Если нейронов больше, то можно итеративно изменять больше параметров, что позволяет подгонять больше данных. Вот почему большие модели творят чудеса и почему их называют большими моделями; по сути, это огромное количество нейронов и параметров, а также огромное количество данных, одновременно требующих огромных вычислительных мощностей.
Таким образом, на производительность больших моделей в основном влияют три аспекта: количество параметров, объем и качество данных, а также вычислительная мощность. Мы предполагаем, что количество параметров равно p, объем данных равен n), вычисляемый по количеству токенов(, тогда мы можем рассчитать необходимое количество вычислений по общим эмпирическим правилам, что позволит нам оценить, какую вычислительную мощность нам примерно нужно будет приобрести и сколько времени потребуется для обучения.
Мощность обычно измеряется в Flops, что представляет собой одно плавающее вычисление. Плавающее вычисление — это общее название для сложения, вычитания, умножения и деления нецелых чисел, таких как 2.5+3.557. Плавающее число подразумевает наличие десятичной точки, а FP16 обозначает поддержку.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
6 Лайков
Награда
6
4
Поделиться
комментарий
0/400
DefiPlaybook
· 17ч назад
Увеличение производительности на 20%? Майнинг ликвидности уже может принести несколько раз больше.
Посмотреть ОригиналОтветить0
AlwaysAnon
· 17ч назад
Ты хочешь сказать, что Боты собираются отнять у меня работу?
Посмотреть ОригиналОтветить0
FloorPriceNightmare
· 17ч назад
Заголовок просто хвастает, о каком пике можно говорить
Слияние ИИ и криптоактивов: от основ до будущего развития
AI x Crypto: от нуля до вершины
Недавнее развитие AI-индустрии некоторыми людьми рассматривается как четвертая промышленная революция. Появление больших моделей значительно повысило эффективность в различных отраслях, и, по оценкам, увеличило рабочую эффективность в США примерно на 20%. В то же время универсальные возможности, предоставляемые большими моделями, считаются новой парадигмой проектирования программного обеспечения: если в прошлом проектирование программного обеспечения основывалось на точном коде, то сейчас в него интегрируются более универсальные рамки больших моделей, которые обеспечивают лучшие результаты и поддерживают более широкий спектр входных и выходных данных. Технологии глубокого обучения принесли четвертое процветание в AI-индустрию, и этот тренд также повлиял на индустрию криптовалют.
В этом отчете будет подробно рассмотрена история развития индустрии ИИ, классификация технологий, а также влияние технологий глубокого обучения на отрасль. Затем будет проведен глубокий анализ состояния и тенденций развития цепочки поставок, включая GPU, облачные вычисления, источники данных, устройства на границе и другие аспекты глубокого обучения. Наконец, будет рассмотрен взаимосвязь между криптовалютой и индустрией ИИ, а также проведен анализ структуры цепочки поставок в области ИИ, связанной с криптовалютой.
! Новичок в науке丨AI x Crypto: от нуля до пика
История развития AI-индустрии
Отрасль ИИ начала развиваться с 50-х годов XX века. Для реализации видения искусственного интеллекта академическое и промышленное сообщества в разные эпохи и с различным академическим фоном разработали множество направлений для достижения искусственного интеллекта.
Современные технологии искусственного интеллекта в основном используют термин "машинное обучение", идея которого заключается в том, чтобы позволить машинам повторно итеративно улучшать производительность системы на основе данных в ходе выполнения задач. Основные шаги включают в себя передачу данных алгоритму, обучение модели на этих данных, тестирование и развертывание модели, а также использование модели для выполнения автоматизированных предсказательных задач.
В настоящее время существует три основных направления машинного обучения: соединительный подход, символический подход и бихевиористский подход, каждое из которых имитирует человеческую нервную систему, мышление и поведение.
В настоящее время подход, представленный нейронными сетями, доминирует (, также известный как глубокое обучение ). Основная причина заключается в том, что такая архитектура имеет один входной слой и один выходной слой, но несколько скрытых слоев. Как только количество слоев и нейронов (, а также параметры ) становятся достаточно большими, возникает возможность подгонки под сложные универсальные задачи. Путем ввода данных можно постоянно корректировать параметры нейронов, и в конечном итоге, пройдя через множество данных, нейрон достигнет оптимального состояния ( параметров ). Это и называется "сильная сила - чудо", и именно от этого слова "глубокий" — достаточно большое количество слоев и нейронов.
Например, можно просто понять, что мы создали функцию, где при вводе X=2, Y=3; при X=3, Y=5. Если мы хотим, чтобы эта функция работала для всех X, то нужно постоянно добавлять степень этой функции и ее параметры. Например, я могу создать функцию, удовлетворяющую этому условию, как Y = 2X -1, но если имеется данные X=2, Y=11, то нужно перестроить функцию, подходящую для этих трех точек данных. Используя GPU для брутфорса, мы находим, что Y = X2 -3X +5 подходит лучше всего, но не обязательно полностью совпадать с данными, достаточно соблюдать баланс и выдавать примерно похожий результат. Здесь X2, X и X0 представляют разные нейроны, а 1, -3, 5 — это их параметры.
В этом случае, если мы введем большое количество данных в нейронную сеть, мы можем увеличить количество нейронов и итеративно изменять параметры для подгонки новых данных. Таким образом, мы сможем подогнать все данные.
На основе технологий глубокого обучения, основанных на нейронных сетях, также произошло несколько технических итераций и эволюций, таких как самые ранние нейронные сети, сети прямого распространения, RNN, CNN и GAN, в конечном итоге эволюционировавшие в современные большие модели, такие как GPT, использующие технологию Transformer. Технология Transformer является лишь одним из направлений эволюции нейронных сетей, добавляющим преобразователь ( Transformer ), предназначенный для кодирования данных всех модальностей (, таких как аудио, видео, изображения и т.д. ) в соответствующие числовые значения для представления. Затем эти данные вводятся в нейронную сеть, что позволяет нейронной сети подстраиваться под любые типы данных, то есть реализовывать мультимодальность.
Развитие ИИ прошло через три волны технологий. Первая волна пришлась на 60-е годы XX века, через десять лет после появления технологий ИИ. Эта волна была вызвана развитием символистских технологий, которые решали проблемы общего обработки естественного языка и взаимодействия человека с компьютером. В это же время возникли экспертные системы, одна из которых, экспертная система DENRAL, была создана по инициативе Стэнфордского университета и NASA. Эта система обладала очень сильными знаниями в области химии и могла делать выводы на основе вопросов, предоставляя ответы, аналогичные ответам химического эксперта. Эту экспертную систему можно рассматривать как сочетание базы знаний по химии и системы вывода.
После экспертных систем в 90-х годах 20 века израильско-американский ученый и философ Джудея Перл ( Judea Pearl ) предложил байесовские сети, которые также известны как сети верований. В то же время, Брукс предложил поведенческую робототехнику, что ознаменовало рождение бихевиоризма.
В 1997 году система IBM Deep Blue с результатом 3,5:2,5 победила чемпиона мира по шахматам Гарри Каспарова (Kasparov), и эта победа была признана вехой в области искусственного интеллекта, что ознаменовало вторую волну развития технологий ИИ.
Третья волна технологий ИИ произошла в 2006 году. Три гиганта глубокого обучения Ян ЛеКун, Джеффри Хинтон и Йошуа Бенжио предложили концепцию глубокого обучения, алгоритма, основанного на архитектуре искусственных нейронных сетей, для представления данных. Затем алгоритмы глубокого обучения постепенно эволюционировали, от RNN, GAN до Transformer и Stable Diffusion, эти два алгоритма совместно сформировали третью технологическую волну, и это также был расцвет коннекционизма.
Множество знаковых событий также постепенно возникло в связи с исследованием и развитием технологий глубокого обучения, включая:
В 2011 году IBM Watson( одержал победу над человеком и стал чемпионом в викторине «Jeopardy)».
В 2014 году Гудфеллоу предложил GAN( генеративную состязательную сеть, Generative Adversarial Network), которая обучается путем противостояния двух нейронных сетей и может генерировать фотореалистичные изображения. В то же время Гудфеллоу также написал книгу "Deep Learning", известную как "цветная книга", которая является одной из важных вступительных книг в области глубокого обучения.
В 2015 году Хинтон и др. в журнале «Природа» предложили алгоритм глубокого обучения, который сразу же вызвал огромный резонанс как в научных кругах, так и в промышленности.
В 2015 году OpenAI был основан, Илон Маск, президент Y Combinator Алтман, ангел-инвестор Питер Тиль ( и другие объявили о совместном инвестировании в размере 1 миллиарда долларов.
В 2016 году AlphaGo, основанный на технологиях глубокого обучения, провел матч против чемпиона мира по го и профессионального игрока девятого дана Ли Сяося и выиграл со счетом 4:1.
В 2017 году гонконгская компания Hanson Robotics, разработавшая гуманоидного робота Софию, стала первой в истории, кто получил статус полноценного гражданина. Робот обладает богатой мимикой и способностью понимать человеческий язык.
В 2017 году Google, обладающий богатым потенциалом и технологическими запасами в области искусственного интеллекта, опубликовал статью «Attention is all you need», в которой был представлен алгоритм Transformer, началось появление крупных языковых моделей.
В 2018 году OpenAI выпустила GPT) Генеративный Предобученный Трансформер(, построенный на алгоритме Transformer, который на тот момент был одной из крупнейших языковых моделей.
В 2018 году команда Google Deepmind представила AlphaGo, основанный на глубоких нейронных сетях, который способен предсказывать структуру белков и считается огромным шагом вперед в области искусственного интеллекта.
В 2019 году OpenAI выпустила GPT-2, эта модель имеет 1,5 миллиарда параметров.
В 2020 году OpenAI разработала GPT-3, которая имеет 175 миллиардов параметров, что в 100 раз больше, чем у предыдущей версии GPT-2. Эта модель использовала 570 ГБ текста для обучения и может достигать передовых результатов в нескольких задачах NLP), таких как ответ на вопросы, перевод и написание статей(.
В 2021 году OpenAI выпустила GPT-4, эта модель обладает 1,76 триллиона параметров, что в 10 раз больше, чем у GPT-3.
В январе 2023 года было запущено приложение ChatGPT на основе модели GPT-4, в марте ChatGPT достигло ста миллионов пользователей, став приложением, которое быстрее всего достигло ста миллионов пользователей в истории.
В 2024 году OpenAI выпустит GPT-4 omni.
![Новый научный подход丨AI x Crypto:От нуля до вершины])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
Цепочка поставок глубокого обучения
В настоящее время языковые большие модели используют методы глубокого обучения на основе нейронных сетей. Модели, такие как GPT, породили волну интереса к искусственному интеллекту, и множество игроков вошли в эту область. Мы также обнаружили, что на рынке резко возрос спрос на данные и вычислительные мощности. Поэтому в этой части отчета мы в основном исследуем цепочку поставок алгоритмов глубокого обучения. В AI-индустрии, управляемой алгоритмами глубокого обучения, как складываются звенья вверх и вниз по цепочке, а также каковы текущее состояние, соотношение спроса и предложения и будущее развитие этих звеньев.
Прежде всего, нам нужно прояснить, что при проведении тренировок больших моделей LLMs), возглавляемых GPT на основе технологии Transformer(, всего существует три этапа.
Перед тренировкой, поскольку она основана на Transformer, преобразователь должен преобразовать текстовые входные данные в числовые значения, этот процесс называется "Токенизация", после чего эти числовые значения называются токенами. Согласно общему правилу, одно английское слово или символ можно грубо считать одним токеном, в то время как каждый иероглиф можно грубо считать за два токена. Это также является основной единицей измерения, используемой в GPT.
Первый шаг, предварительное обучение. Путем подачи на входной слой достаточного количества пар данных, подобных приведенному в первой части отчета примеру )X,Y(, необходимо найти оптимальные параметры для каждого нейрона в модели. На этом этапе требуется большое количество данных, и этот процесс также является наиболее ресурсоемким, так как необходимо многократно итерировать нейроны, пробуя различные параметры. После завершения обучения на одной партии данных обычно используется та же партия данных для вторичного обучения с целью итерации параметров.
Шаг второй, дообучение. Дообучение заключается в использовании небольшого, но очень качественного набора данных для обучения, такое изменение позволит повысить качество выходных данных модели, поскольку предварительное обучение требует большого объема данных, но многие данные могут содержать ошибки или быть низкого качества. Этап дообучения может улучшить качество модели за счет высококачественных данных.
Шаг третий, обучение с подкреплением. Сначала будет создана совершенно новая модель, которую мы называем "моделью вознаграждения". Цель этой модели очень проста: упорядочить результаты вывода, поэтому реализация этой модели будет довольно простой, поскольку бизнес-сцена довольно вертикальная. Затем мы используем эту модель, чтобы определить, является ли вывод нашей большой модели качественным, таким образом, можно использовать модель вознаграждения для автоматической итерации параметров большой модели. ) Но иногда также требуется человеческое участие для оценки качества вывода модели (.
Короче говоря, в процессе обучения больших моделей предварительное обучение требует очень большого объема данных, а также наибольших затрат вычислительной мощности GPU, в то время как тонкая настройка требует более качественных данных для улучшения параметров, а обучение с подкреплением может повторно итеративно настраивать параметры через модель вознаграждения для достижения более качественных результатов.
В процессе обучения, чем больше параметров, тем выше потолок его обобщающей способности. Например, если мы возьмем пример с функцией Y = aX + b, то на самом деле есть два нейрона X и X0. Таким образом, как бы ни изменялись параметры, количество данных, которые можно подогнать, очень ограничено, поскольку по своей сути это все еще прямая линия. Если нейронов больше, то можно итеративно изменять больше параметров, что позволяет подгонять больше данных. Вот почему большие модели творят чудеса и почему их называют большими моделями; по сути, это огромное количество нейронов и параметров, а также огромное количество данных, одновременно требующих огромных вычислительных мощностей.
Таким образом, на производительность больших моделей в основном влияют три аспекта: количество параметров, объем и качество данных, а также вычислительная мощность. Мы предполагаем, что количество параметров равно p, объем данных равен n), вычисляемый по количеству токенов(, тогда мы можем рассчитать необходимое количество вычислений по общим эмпирическим правилам, что позволит нам оценить, какую вычислительную мощность нам примерно нужно будет приобрести и сколько времени потребуется для обучения.
Мощность обычно измеряется в Flops, что представляет собой одно плавающее вычисление. Плавающее вычисление — это общее название для сложения, вычитания, умножения и деления нецелых чисел, таких как 2.5+3.557. Плавающее число подразумевает наличие десятичной точки, а FP16 обозначает поддержку.