Le développement récent de l'industrie de l'IA est considéré par certains comme la quatrième révolution industrielle. L'émergence de grands modèles a considérablement amélioré l'efficacité dans divers secteurs, estimée à environ 20 % d'augmentation de l'efficacité au travail aux États-Unis. Parallèlement, la capacité de généralisation apportée par ces grands modèles est considérée comme un nouveau paradigme de conception logicielle. Alors que la conception logicielle passée était basée sur un code précis, celle d'aujourd'hui intègre des cadres de grands modèles plus généralisés dans les logiciels, permettant une meilleure performance et un support pour une gamme plus large d'entrées et de sorties modales. Les technologies d'apprentissage profond ont apporté une quatrième prospérité à l'industrie de l'IA, et cette tendance a également eu un impact sur l'industrie des cryptomonnaies.
Ce rapport examinera en détail l'histoire du développement de l'industrie de l'IA, les classifications technologiques, ainsi que l'impact des technologies d'apprentissage profond sur l'industrie. Il analysera ensuite en profondeur l'état actuel et les tendances du développement des chaînes d'approvisionnement et de distribution, y compris les GPU, l'informatique en nuage, les sources de données et les dispositifs en périphérie. Enfin, il explorera essentiellement la relation entre les cryptomonnaies et l'industrie de l'IA, en clarifiant la structure de la chaîne de valeur de l'IA liée aux cryptomonnaies.
Histoire du développement de l'industrie de l'IA
L'industrie de l'IA a commencé dans les années 1950. Pour réaliser la vision de l'intelligence artificielle, le monde académique et l'industrie ont développé au fil des époques et des contextes disciplinaires différents, plusieurs courants pour réaliser l'intelligence artificielle.
Les technologies modernes de l'intelligence artificielle utilisent principalement le terme "apprentissage automatique", dont le concept est de permettre aux machines d'itérer plusieurs fois dans les tâches en s'appuyant sur des données pour améliorer les performances du système. Les étapes principales consistent à envoyer des données à l'algorithme, à utiliser ces données pour former le modèle, à tester et déployer le modèle, puis à utiliser le modèle pour accomplir des tâches de prévision automatisées.
Actuellement, il existe trois grandes écoles de pensée en apprentissage automatique : le connexionnisme, le symbolisme et le comportementalisme, qui imitent respectivement le système nerveux, la pensée et le comportement humains.
Actuellement, le connexionnisme, représenté par les réseaux neuronaux, est en tête ( également appelé apprentissage profond ), la principale raison étant que cette architecture comporte une couche d'entrée, une couche de sortie, mais plusieurs couches cachées. Une fois que le nombre de couches et le nombre de neurones (, ainsi que les paramètres ), deviennent suffisamment élevés, il y a suffisamment d'opportunités pour s'adapter à des tâches complexes et générales. Grâce à l'entrée de données, il est possible d'ajuster continuellement les paramètres des neurones, et après avoir été exposé à de nombreuses données, ce neurone atteindra un état optimal ( paramètres ), ce qui est ce qu'on appelle le "pouvoir incroyable" et c'est aussi l'origine du mot "profond" - un nombre suffisant de couches et de neurones.
Prenons un exemple, on peut comprendre simplement que nous avons construit une fonction, lorsque nous entrons X=2, Y=3; X=3, Y=5. Si nous voulons que cette fonction s'applique à tous les X, nous devons continuer à ajouter le degré de cette fonction et ses paramètres. Par exemple, à ce moment-là, je peux construire une fonction qui satisfait cette condition comme Y = 2X -1, mais si une donnée est X=2, Y=11, il faudra reconstruire une fonction adaptée à ces trois points de données. En utilisant le GPU pour une attaque par force brute, on trouve que Y = X2 -3X +5 est assez adapté, mais il n'est pas nécessaire que cela corresponde complètement aux données, il suffit de respecter l'équilibre et d'avoir une sortie à peu près similaire. Dans cela, X2, X et X0 représentent différents neurones, tandis que 1, -3, 5 sont leurs paramètres.
À ce moment-là, si nous entrons une grande quantité de données dans le réseau de neurones, nous pouvons augmenter le nombre de neurones et itérer les paramètres pour ajuster les nouvelles données. Cela nous permettra d'ajuster toutes les données.
La technologie d'apprentissage profond basée sur les réseaux de neurones a également connu plusieurs itérations et évolutions techniques, telles que les premiers réseaux de neurones, les réseaux de neurones à propagation avant, RNN, CNN, GAN, pour finalement évoluer vers des modèles modernes comme ceux utilisant la technologie Transformer, comme GPT. La technologie Transformer n'est qu'une direction d'évolution des réseaux de neurones, ajoutant un convertisseur ( Transformer ), qui sert à encoder les données de tous les modes ( tels que l'audio, la vidéo, les images, etc. ) en valeurs correspondantes pour les représenter. Ces données sont ensuite introduites dans le réseau de neurones, permettant ainsi au réseau de neurones de s'adapter à tout type de données, réalisant ainsi le multimodal.
Le développement de l'IA a connu trois vagues technologiques. La première vague a eu lieu dans les années 1960, une décennie après que la technologie de l'IA a été proposée. Cette vague a été provoquée par le développement de la technologie du symbolisme, qui a résolu les problèmes de traitement naturel du langage et de dialogue homme-machine. À la même époque, les systèmes experts sont nés, notamment le système expert DENRAL, réalisé sous l'impulsion de la NASA et de l'Université de Stanford aux États-Unis. Ce système possède une connaissance chimique très approfondie et déduit des réponses similaires à celles d'un expert chimiste en se basant sur des questions. Ce système d'expert chimiste peut être considéré comme une combinaison d'une base de connaissances en chimie et d'un système d'inférence.
Après les systèmes experts, dans les années 1990, le scientifique et philosophe américain d'origine israélienne Judea Pearl ( a proposé les réseaux bayésiens, également appelés réseaux de croyance. À la même époque, Brooks a proposé la robotique basée sur le comportement, marquant la naissance du behaviorisme.
En 1997, IBM Deep Blue a battu le champion d'échecs Garry Kasparov avec un score de 3,5 à 2,5, cette victoire étant considérée comme une étape importante pour l'intelligence artificielle, marquant un nouveau sommet dans le développement de la technologie IA.
La troisième vague de la technologie AI a eu lieu en 2006. Les trois géants de l'apprentissage profond, Yann LeCun, Geoffrey Hinton et Yoshua Bengio, ont proposé le concept d'apprentissage profond, un algorithme basé sur des réseaux de neurones artificiels pour l'apprentissage de représentations à partir de données. Par la suite, les algorithmes d'apprentissage profond ont progressivement évolué, passant des RNN, GAN jusqu'aux Transformateurs et à la Stable Diffusion, ces deux algorithmes ayant façonné cette troisième vague technologique, qui est également l'apogée du connexionnisme.
De nombreux événements emblématiques ont également émergé progressivement avec l'exploration et l'évolution des technologies d'apprentissage profond, y compris :
En 2011, Watson d'IBM a remporté le championnat dans le jeu télévisé de quiz Jeopardy, battant des humains.
En 2014, Goodfellow a proposé le GAN) Réseau de Génération Antagoniste, Generative Adversarial Network(, qui apprend par le biais d'un jeu entre deux réseaux de neurones, capable de générer des photos réalistes. En même temps, Goodfellow a également écrit un livre intitulé "Deep Learning", connu sous le nom de livre de fleurs, qui est l'un des livres d'introduction importants dans le domaine de l'apprentissage profond.
En 2015, Hinton et al. ont proposé des algorithmes d'apprentissage profond dans la revue "Nature", et la proposition de cette méthode d'apprentissage profond a immédiatement suscité un immense intérêt dans le milieu académique et l'industrie.
En 2015, OpenAI a été créé, Musk, le président de YC Altman, l'investisseur providentiel Peter Thiel) et d'autres ont annoncé un investissement commun de 1 milliard de dollars.
En 2016, AlphaGo, basé sur la technologie d'apprentissage profond, a remporté la bataille homme-machine de Go contre le champion du monde de Go et joueur professionnel de 9ème dan, Lee Sedol, avec un score total de 4 à 1.
En 2017, la société Hanson Robotics ( basée à Hong Kong a développé le robot humanoïde Sophia, qui est considéré comme le premier robot au monde à avoir obtenu un statut de citoyen de plein droit, doté d'une riche gamme d'expressions faciales et de capacités de compréhension du langage humain.
En 2017, Google, qui dispose d'une richesse de talents et de réserves technologiques dans le domaine de l'intelligence artificielle, a publié le document "Attention is all you need" proposant l'algorithme Transformer, marquant le début de l'émergence de modèles de langage à grande échelle.
En 2018, OpenAI a publié le GPT), un modèle de langage génératif pré-entraîné basé sur l'algorithme Transformer(, qui était l'un des plus grands modèles de langage de l'époque.
En 2018, l'équipe de Google Deepmind a lancé AlphaGo basé sur l'apprentissage profond, capable de prédire la structure des protéines, considéré comme un jalon majeur dans le domaine de l'intelligence artificielle.
En 2019, OpenAI a publié GPT-2, un modèle doté de 1,5 milliard de paramètres.
En 2020, OpenAI a développé GPT-3, qui possède 175 milliards de paramètres, soit 100 fois plus que la version précédente GPT-2. Ce modèle a été entraîné avec 570 Go de texte et peut atteindre des performances de pointe sur plusieurs tâches de traitement du langage naturel, telles que la réponse aux questions, la traduction et la rédaction d'articles.
En 2021, OpenAI a publié GPT-4, un modèle doté de 1,76 billion de paramètres, soit dix fois plus que GPT-3.
L'application ChatGPT basée sur le modèle GPT-4 a été lancée en janvier 2023, et en mars, ChatGPT a atteint 100 millions d'utilisateurs, devenant ainsi l'application qui a atteint le plus rapidement 100 millions d'utilisateurs dans l'histoire.
En 2024, OpenAI lancera GPT-4 omni.
![Nouveau Guide丨AI x Crypto : De zéro au sommet])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
Chaîne de valeur de l'apprentissage profond
Les modèles de langage actuels sont tous basés sur des méthodes d'apprentissage profond utilisant des réseaux de neurones. Avec GPT en tête, les grands modèles ont suscité une vague d'engouement pour l'intelligence artificielle, attirant un grand nombre d'acteurs dans ce domaine. Nous avons également constaté une explosion de la demande du marché pour les données et la puissance de calcul. Par conséquent, dans cette partie du rapport, nous explorons principalement la chaîne industrielle des algorithmes d'apprentissage profond. Dans le secteur de l'IA dominé par les algorithmes d'apprentissage profond, comment sont constitués les acteurs en amont et en aval, et quel est l'état actuel de cette relation ainsi que de la demande et de l'offre, et comment se développe-t-elle à l'avenir.
Tout d'abord, ce que nous devons clarifier, c'est que lors de l'entraînement de grands modèles basés sur la technologie Transformer, dirigés par GPT, tels que les LLMs), cela se déroule en trois étapes.
Avant l'entraînement, étant basé sur Transformer, le convertisseur doit transformer les entrées textuelles en valeurs numériques, ce processus est appelé "Tokenization". Par la suite, ces valeurs sont appelées Tokens. Selon une règle empirique générale, un mot ou un caractère anglais peut être grossièrement considéré comme un Token, tandis que chaque caractère chinois peut être approximativement considéré comme deux Tokens. C'est également l'unité de base utilisée pour la tarification de GPT.
Première étape, pré-entraînement. En fournissant suffisamment de paires de données à la couche d'entrée, semblables à l'exemple donné dans la première partie du rapport (X,Y), pour rechercher les meilleurs paramètres pour chaque neurone sous ce modèle, il faut beaucoup de données à ce moment-là, et ce processus est également le plus coûteux en termes de puissance de calcul, car il nécessite de itérer plusieurs fois sur les neurones en essayant divers paramètres. Une fois qu'un lot de paires de données a été entraîné, on utilise généralement le même lot de données pour un entraînement secondaire afin d'itérer les paramètres.
Deuxième étape, l'ajustement fin. L'ajustement fin consiste à entraîner le modèle avec un petit nombre de données, mais de très haute qualité. Ce changement permettra d'améliorer la qualité des sorties du modèle, car le pré-entraînement nécessite une grande quantité de données, mais beaucoup de données peuvent contenir des erreurs ou être de faible qualité. L'étape d'ajustement fin peut améliorer la qualité du modèle grâce à des données de qualité.
Troisième étape, apprentissage par renforcement. Tout d'abord, un tout nouveau modèle sera établi, que nous appelons « modèle de récompense », dont l'objectif est très simple : trier les résultats des sorties. Par conséquent, la mise en œuvre de ce modèle sera relativement simple, car le scénario commercial est assez vertical. Ensuite, ce modèle sera utilisé pour déterminer si les sorties de notre grand modèle sont de haute qualité, ce qui permettra d'utiliser un modèle de récompense pour itérer automatiquement les paramètres du grand modèle. ( Cependant, il est parfois nécessaire d'intervenir humainement pour évaluer la qualité des sorties du modèle ).
En résumé, pendant le processus d'entraînement des grands modèles, le pré-entraînement nécessite une quantité de données très élevée, et la puissance de calcul GPU requise est également la plus importante, tandis que le réglage fin nécessite des données de meilleure qualité pour améliorer les paramètres. L'apprentissage par renforcement peut itérer les paramètres à plusieurs reprises à l'aide d'un modèle de récompense pour produire des résultats de meilleure qualité.
Au cours de l'entraînement, plus il y a de paramètres, plus le plafond de sa capacité de généralisation est élevé. Par exemple, dans l'exemple que nous avons donné avec la fonction Y = aX + b, il y a en réalité deux neurones, X et X0. Par conséquent, quelle que soit la variation des paramètres, les données qu'ils peuvent modéliser sont extrêmement limitées, car leur essence reste une ligne droite. Si le nombre de neurones augmente, alors il est possible d'itérer davantage de paramètres, ce qui permet de modéliser plus de données. C'est pourquoi les grands modèles produisent des miracles, et c'est aussi la raison pour laquelle nous appelons cela un grand modèle, qui se compose essentiellement d'un grand nombre de neurones et de paramètres, ainsi que d'une grande quantité de données, tout en nécessitant une puissance de calcul énorme.
Par conséquent, la performance des grands modèles est principalement déterminée par trois aspects : le nombre de paramètres, la quantité et la qualité des données, et la puissance de calcul. Ces trois facteurs influencent ensemble la qualité des résultats des grands modèles et leur capacité de généralisation. Supposons que le nombre de paramètres soit p, que la quantité de données soit n( calculée en fonction du nombre de tokens), alors nous pouvons estimer la puissance de calcul nécessaire à l'aide d'une règle empirique générale, ce qui nous permet d'évaluer à peu près la puissance de calcul à acheter et le temps d'entraînement nécessaire.
La puissance de calcul est généralement mesurée en Flops, qui représentent une opération de flottement, une opération de flottement désignant l'addition, la soustraction, la multiplication et la division de valeurs non entières, comme 2.5 + 3.557. Le terme flottement indique la capacité à avoir un point décimal, tandis que FP16 représente le support.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
6 J'aime
Récompense
6
4
Partager
Commentaire
0/400
DefiPlaybook
· 07-21 23:34
Amélioration de l'efficacité de travail de 20 % ? Le minage de liquidité peut multiplier plusieurs fois déjà.
Fusion de l'IA et des cryptoactifs : des bases au développement futur
IA x Crypto : de zéro au sommet
Le développement récent de l'industrie de l'IA est considéré par certains comme la quatrième révolution industrielle. L'émergence de grands modèles a considérablement amélioré l'efficacité dans divers secteurs, estimée à environ 20 % d'augmentation de l'efficacité au travail aux États-Unis. Parallèlement, la capacité de généralisation apportée par ces grands modèles est considérée comme un nouveau paradigme de conception logicielle. Alors que la conception logicielle passée était basée sur un code précis, celle d'aujourd'hui intègre des cadres de grands modèles plus généralisés dans les logiciels, permettant une meilleure performance et un support pour une gamme plus large d'entrées et de sorties modales. Les technologies d'apprentissage profond ont apporté une quatrième prospérité à l'industrie de l'IA, et cette tendance a également eu un impact sur l'industrie des cryptomonnaies.
Ce rapport examinera en détail l'histoire du développement de l'industrie de l'IA, les classifications technologiques, ainsi que l'impact des technologies d'apprentissage profond sur l'industrie. Il analysera ensuite en profondeur l'état actuel et les tendances du développement des chaînes d'approvisionnement et de distribution, y compris les GPU, l'informatique en nuage, les sources de données et les dispositifs en périphérie. Enfin, il explorera essentiellement la relation entre les cryptomonnaies et l'industrie de l'IA, en clarifiant la structure de la chaîne de valeur de l'IA liée aux cryptomonnaies.
Histoire du développement de l'industrie de l'IA
L'industrie de l'IA a commencé dans les années 1950. Pour réaliser la vision de l'intelligence artificielle, le monde académique et l'industrie ont développé au fil des époques et des contextes disciplinaires différents, plusieurs courants pour réaliser l'intelligence artificielle.
Les technologies modernes de l'intelligence artificielle utilisent principalement le terme "apprentissage automatique", dont le concept est de permettre aux machines d'itérer plusieurs fois dans les tâches en s'appuyant sur des données pour améliorer les performances du système. Les étapes principales consistent à envoyer des données à l'algorithme, à utiliser ces données pour former le modèle, à tester et déployer le modèle, puis à utiliser le modèle pour accomplir des tâches de prévision automatisées.
Actuellement, il existe trois grandes écoles de pensée en apprentissage automatique : le connexionnisme, le symbolisme et le comportementalisme, qui imitent respectivement le système nerveux, la pensée et le comportement humains.
Actuellement, le connexionnisme, représenté par les réseaux neuronaux, est en tête ( également appelé apprentissage profond ), la principale raison étant que cette architecture comporte une couche d'entrée, une couche de sortie, mais plusieurs couches cachées. Une fois que le nombre de couches et le nombre de neurones (, ainsi que les paramètres ), deviennent suffisamment élevés, il y a suffisamment d'opportunités pour s'adapter à des tâches complexes et générales. Grâce à l'entrée de données, il est possible d'ajuster continuellement les paramètres des neurones, et après avoir été exposé à de nombreuses données, ce neurone atteindra un état optimal ( paramètres ), ce qui est ce qu'on appelle le "pouvoir incroyable" et c'est aussi l'origine du mot "profond" - un nombre suffisant de couches et de neurones.
Prenons un exemple, on peut comprendre simplement que nous avons construit une fonction, lorsque nous entrons X=2, Y=3; X=3, Y=5. Si nous voulons que cette fonction s'applique à tous les X, nous devons continuer à ajouter le degré de cette fonction et ses paramètres. Par exemple, à ce moment-là, je peux construire une fonction qui satisfait cette condition comme Y = 2X -1, mais si une donnée est X=2, Y=11, il faudra reconstruire une fonction adaptée à ces trois points de données. En utilisant le GPU pour une attaque par force brute, on trouve que Y = X2 -3X +5 est assez adapté, mais il n'est pas nécessaire que cela corresponde complètement aux données, il suffit de respecter l'équilibre et d'avoir une sortie à peu près similaire. Dans cela, X2, X et X0 représentent différents neurones, tandis que 1, -3, 5 sont leurs paramètres.
À ce moment-là, si nous entrons une grande quantité de données dans le réseau de neurones, nous pouvons augmenter le nombre de neurones et itérer les paramètres pour ajuster les nouvelles données. Cela nous permettra d'ajuster toutes les données.
La technologie d'apprentissage profond basée sur les réseaux de neurones a également connu plusieurs itérations et évolutions techniques, telles que les premiers réseaux de neurones, les réseaux de neurones à propagation avant, RNN, CNN, GAN, pour finalement évoluer vers des modèles modernes comme ceux utilisant la technologie Transformer, comme GPT. La technologie Transformer n'est qu'une direction d'évolution des réseaux de neurones, ajoutant un convertisseur ( Transformer ), qui sert à encoder les données de tous les modes ( tels que l'audio, la vidéo, les images, etc. ) en valeurs correspondantes pour les représenter. Ces données sont ensuite introduites dans le réseau de neurones, permettant ainsi au réseau de neurones de s'adapter à tout type de données, réalisant ainsi le multimodal.
Le développement de l'IA a connu trois vagues technologiques. La première vague a eu lieu dans les années 1960, une décennie après que la technologie de l'IA a été proposée. Cette vague a été provoquée par le développement de la technologie du symbolisme, qui a résolu les problèmes de traitement naturel du langage et de dialogue homme-machine. À la même époque, les systèmes experts sont nés, notamment le système expert DENRAL, réalisé sous l'impulsion de la NASA et de l'Université de Stanford aux États-Unis. Ce système possède une connaissance chimique très approfondie et déduit des réponses similaires à celles d'un expert chimiste en se basant sur des questions. Ce système d'expert chimiste peut être considéré comme une combinaison d'une base de connaissances en chimie et d'un système d'inférence.
Après les systèmes experts, dans les années 1990, le scientifique et philosophe américain d'origine israélienne Judea Pearl ( a proposé les réseaux bayésiens, également appelés réseaux de croyance. À la même époque, Brooks a proposé la robotique basée sur le comportement, marquant la naissance du behaviorisme.
En 1997, IBM Deep Blue a battu le champion d'échecs Garry Kasparov avec un score de 3,5 à 2,5, cette victoire étant considérée comme une étape importante pour l'intelligence artificielle, marquant un nouveau sommet dans le développement de la technologie IA.
La troisième vague de la technologie AI a eu lieu en 2006. Les trois géants de l'apprentissage profond, Yann LeCun, Geoffrey Hinton et Yoshua Bengio, ont proposé le concept d'apprentissage profond, un algorithme basé sur des réseaux de neurones artificiels pour l'apprentissage de représentations à partir de données. Par la suite, les algorithmes d'apprentissage profond ont progressivement évolué, passant des RNN, GAN jusqu'aux Transformateurs et à la Stable Diffusion, ces deux algorithmes ayant façonné cette troisième vague technologique, qui est également l'apogée du connexionnisme.
De nombreux événements emblématiques ont également émergé progressivement avec l'exploration et l'évolution des technologies d'apprentissage profond, y compris :
En 2011, Watson d'IBM a remporté le championnat dans le jeu télévisé de quiz Jeopardy, battant des humains.
En 2014, Goodfellow a proposé le GAN) Réseau de Génération Antagoniste, Generative Adversarial Network(, qui apprend par le biais d'un jeu entre deux réseaux de neurones, capable de générer des photos réalistes. En même temps, Goodfellow a également écrit un livre intitulé "Deep Learning", connu sous le nom de livre de fleurs, qui est l'un des livres d'introduction importants dans le domaine de l'apprentissage profond.
En 2015, Hinton et al. ont proposé des algorithmes d'apprentissage profond dans la revue "Nature", et la proposition de cette méthode d'apprentissage profond a immédiatement suscité un immense intérêt dans le milieu académique et l'industrie.
En 2015, OpenAI a été créé, Musk, le président de YC Altman, l'investisseur providentiel Peter Thiel) et d'autres ont annoncé un investissement commun de 1 milliard de dollars.
En 2016, AlphaGo, basé sur la technologie d'apprentissage profond, a remporté la bataille homme-machine de Go contre le champion du monde de Go et joueur professionnel de 9ème dan, Lee Sedol, avec un score total de 4 à 1.
En 2017, la société Hanson Robotics ( basée à Hong Kong a développé le robot humanoïde Sophia, qui est considéré comme le premier robot au monde à avoir obtenu un statut de citoyen de plein droit, doté d'une riche gamme d'expressions faciales et de capacités de compréhension du langage humain.
En 2017, Google, qui dispose d'une richesse de talents et de réserves technologiques dans le domaine de l'intelligence artificielle, a publié le document "Attention is all you need" proposant l'algorithme Transformer, marquant le début de l'émergence de modèles de langage à grande échelle.
En 2018, OpenAI a publié le GPT), un modèle de langage génératif pré-entraîné basé sur l'algorithme Transformer(, qui était l'un des plus grands modèles de langage de l'époque.
En 2018, l'équipe de Google Deepmind a lancé AlphaGo basé sur l'apprentissage profond, capable de prédire la structure des protéines, considéré comme un jalon majeur dans le domaine de l'intelligence artificielle.
En 2019, OpenAI a publié GPT-2, un modèle doté de 1,5 milliard de paramètres.
En 2020, OpenAI a développé GPT-3, qui possède 175 milliards de paramètres, soit 100 fois plus que la version précédente GPT-2. Ce modèle a été entraîné avec 570 Go de texte et peut atteindre des performances de pointe sur plusieurs tâches de traitement du langage naturel, telles que la réponse aux questions, la traduction et la rédaction d'articles.
En 2021, OpenAI a publié GPT-4, un modèle doté de 1,76 billion de paramètres, soit dix fois plus que GPT-3.
L'application ChatGPT basée sur le modèle GPT-4 a été lancée en janvier 2023, et en mars, ChatGPT a atteint 100 millions d'utilisateurs, devenant ainsi l'application qui a atteint le plus rapidement 100 millions d'utilisateurs dans l'histoire.
En 2024, OpenAI lancera GPT-4 omni.
![Nouveau Guide丨AI x Crypto : De zéro au sommet])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
Chaîne de valeur de l'apprentissage profond
Les modèles de langage actuels sont tous basés sur des méthodes d'apprentissage profond utilisant des réseaux de neurones. Avec GPT en tête, les grands modèles ont suscité une vague d'engouement pour l'intelligence artificielle, attirant un grand nombre d'acteurs dans ce domaine. Nous avons également constaté une explosion de la demande du marché pour les données et la puissance de calcul. Par conséquent, dans cette partie du rapport, nous explorons principalement la chaîne industrielle des algorithmes d'apprentissage profond. Dans le secteur de l'IA dominé par les algorithmes d'apprentissage profond, comment sont constitués les acteurs en amont et en aval, et quel est l'état actuel de cette relation ainsi que de la demande et de l'offre, et comment se développe-t-elle à l'avenir.
Tout d'abord, ce que nous devons clarifier, c'est que lors de l'entraînement de grands modèles basés sur la technologie Transformer, dirigés par GPT, tels que les LLMs), cela se déroule en trois étapes.
Avant l'entraînement, étant basé sur Transformer, le convertisseur doit transformer les entrées textuelles en valeurs numériques, ce processus est appelé "Tokenization". Par la suite, ces valeurs sont appelées Tokens. Selon une règle empirique générale, un mot ou un caractère anglais peut être grossièrement considéré comme un Token, tandis que chaque caractère chinois peut être approximativement considéré comme deux Tokens. C'est également l'unité de base utilisée pour la tarification de GPT.
Première étape, pré-entraînement. En fournissant suffisamment de paires de données à la couche d'entrée, semblables à l'exemple donné dans la première partie du rapport (X,Y), pour rechercher les meilleurs paramètres pour chaque neurone sous ce modèle, il faut beaucoup de données à ce moment-là, et ce processus est également le plus coûteux en termes de puissance de calcul, car il nécessite de itérer plusieurs fois sur les neurones en essayant divers paramètres. Une fois qu'un lot de paires de données a été entraîné, on utilise généralement le même lot de données pour un entraînement secondaire afin d'itérer les paramètres.
Deuxième étape, l'ajustement fin. L'ajustement fin consiste à entraîner le modèle avec un petit nombre de données, mais de très haute qualité. Ce changement permettra d'améliorer la qualité des sorties du modèle, car le pré-entraînement nécessite une grande quantité de données, mais beaucoup de données peuvent contenir des erreurs ou être de faible qualité. L'étape d'ajustement fin peut améliorer la qualité du modèle grâce à des données de qualité.
Troisième étape, apprentissage par renforcement. Tout d'abord, un tout nouveau modèle sera établi, que nous appelons « modèle de récompense », dont l'objectif est très simple : trier les résultats des sorties. Par conséquent, la mise en œuvre de ce modèle sera relativement simple, car le scénario commercial est assez vertical. Ensuite, ce modèle sera utilisé pour déterminer si les sorties de notre grand modèle sont de haute qualité, ce qui permettra d'utiliser un modèle de récompense pour itérer automatiquement les paramètres du grand modèle. ( Cependant, il est parfois nécessaire d'intervenir humainement pour évaluer la qualité des sorties du modèle ).
En résumé, pendant le processus d'entraînement des grands modèles, le pré-entraînement nécessite une quantité de données très élevée, et la puissance de calcul GPU requise est également la plus importante, tandis que le réglage fin nécessite des données de meilleure qualité pour améliorer les paramètres. L'apprentissage par renforcement peut itérer les paramètres à plusieurs reprises à l'aide d'un modèle de récompense pour produire des résultats de meilleure qualité.
Au cours de l'entraînement, plus il y a de paramètres, plus le plafond de sa capacité de généralisation est élevé. Par exemple, dans l'exemple que nous avons donné avec la fonction Y = aX + b, il y a en réalité deux neurones, X et X0. Par conséquent, quelle que soit la variation des paramètres, les données qu'ils peuvent modéliser sont extrêmement limitées, car leur essence reste une ligne droite. Si le nombre de neurones augmente, alors il est possible d'itérer davantage de paramètres, ce qui permet de modéliser plus de données. C'est pourquoi les grands modèles produisent des miracles, et c'est aussi la raison pour laquelle nous appelons cela un grand modèle, qui se compose essentiellement d'un grand nombre de neurones et de paramètres, ainsi que d'une grande quantité de données, tout en nécessitant une puissance de calcul énorme.
Par conséquent, la performance des grands modèles est principalement déterminée par trois aspects : le nombre de paramètres, la quantité et la qualité des données, et la puissance de calcul. Ces trois facteurs influencent ensemble la qualité des résultats des grands modèles et leur capacité de généralisation. Supposons que le nombre de paramètres soit p, que la quantité de données soit n( calculée en fonction du nombre de tokens), alors nous pouvons estimer la puissance de calcul nécessaire à l'aide d'une règle empirique générale, ce qui nous permet d'évaluer à peu près la puissance de calcul à acheter et le temps d'entraînement nécessaire.
La puissance de calcul est généralement mesurée en Flops, qui représentent une opération de flottement, une opération de flottement désignant l'addition, la soustraction, la multiplication et la division de valeurs non entières, comme 2.5 + 3.557. Le terme flottement indique la capacité à avoir un point décimal, tandis que FP16 représente le support.