El desarrollo reciente de la industria de la IA ha sido visto por algunos como la cuarta revolución industrial. La aparición de grandes modelos ha mejorado significativamente la eficiencia en diversas industrias, estimándose que ha aumentado la eficiencia laboral en Estados Unidos en aproximadamente un 20%. Al mismo tiempo, la capacidad de generalización que traen estos grandes modelos se considera un nuevo paradigma de diseño de software; el diseño de software en el pasado consistía en código preciso, mientras que ahora se integra un marco de grandes modelos más generalizados en el software, lo que permite un mejor rendimiento y un soporte más amplio para entradas y salidas de diferentes modalidades. La tecnología de aprendizaje profundo ha traído una cuarta prosperidad a la industria de la IA, y esta tendencia también ha influido en la industria de las criptomonedas.
Este informe explorará en detalle la historia del desarrollo de la industria de la IA, la clasificación de tecnologías y el impacto de la tecnología de aprendizaje profundo en la industria. Luego, se analizará en profundidad el estado actual y las tendencias del desarrollo de la cadena de suministro en relación con el aprendizaje profundo, incluyendo GPU, computación en la nube, fuentes de datos y dispositivos de borde. Finalmente, se explorará esencialmente la relación entre las criptomonedas y la industria de la IA, organizando el patrón de la cadena de suministro de IA relacionada con las criptomonedas.
Historia del desarrollo de la industria de la IA
La industria de la IA comenzó en la década de 1950. Para lograr la visión de la inteligencia artificial, el ámbito académico y la industria han desarrollado varias corrientes para implementar la inteligencia artificial en diferentes épocas y contextos disciplinares.
La tecnología moderna de inteligencia artificial utiliza principalmente el término "aprendizaje automático", cuyo concepto es permitir que las máquinas mejoren el rendimiento del sistema mediante la iteración repetida en tareas basadas en datos. Los pasos principales son enviar datos a un algoritmo, usar esos datos para entrenar un modelo, probar y desplegar el modelo, y utilizar el modelo para completar tareas de predicción automatizadas.
Actualmente, el aprendizaje automático tiene tres principales corrientes: el conexionismo, el simbolismo y el conductismo, que imitan respectivamente el sistema nervioso, el pensamiento y el comportamiento humano.
Actualmente, el conexionismo, representado por redes neuronales, está en la cima(, también conocido como aprendizaje profundo). La razón principal es que esta arquitectura tiene una capa de entrada, una capa de salida, pero múltiples capas ocultas. Una vez que el número de capas y neuronas(, así como los parámetros), se vuelven suficientes, hay suficientes oportunidades para ajustar tareas complejas de tipo general. A través de la entrada de datos, se pueden ajustar continuamente los parámetros de las neuronas. Después de pasar por múltiples datos, esa neurona alcanzará un estado óptimo(, que es lo que se llama "hacer milagros con gran esfuerzo", y también es el origen de la palabra "profundo" — suficientes capas y neuronas.
Por ejemplo, se puede entender de manera simple como la construcción de una función, donde al introducir X=2, Y=3; y al introducir X=3, Y=5. Si se desea que esta función se aplique a todos los X, será necesario seguir añadiendo el grado de esta función y sus parámetros. Por ejemplo, en este momento puedo construir una función que cumpla con esta condición como Y = 2X -1, pero si hay un dato donde X=2, Y=11, será necesario reestructurar una función que se adapte a estos tres puntos de datos. Al utilizar una GPU para hacer un ataque de fuerza bruta, se descubre que Y = X2 -3X +5 es bastante adecuado, aunque no es necesario que coincida completamente con los datos, solo debe respetar el equilibrio y proporcionar una salida aproximadamente similar. En este caso, X2, X y X0 representan diferentes neuronas, mientras que 1, -3 y 5 son sus parámetros.
En este momento, si introducimos una gran cantidad de datos en la red neuronal, podemos aumentar los neuronas y ajustar los parámetros para adaptar los nuevos datos. De esta manera, podremos ajustar todos los datos.
La tecnología de aprendizaje profundo basada en redes neuronales ha tenido múltiples iteraciones y evoluciones, comenzando con las primeras redes neuronales, redes neuronales de retroalimentación, RNN, CNN, GAN, y finalmente evolucionando hacia los modernos grandes modelos como GPT, que utilizan la tecnología Transformer. La tecnología Transformer es solo una dirección de evolución de las redes neuronales, que añade un convertidor ) Transformer (, utilizado para codificar los datos de todos los modos ), como audio, video, imágenes, etc., en valores numéricos correspondientes para representarlos. Luego, estos se ingresan en la red neuronal, lo que permite a la red neuronal ajustar cualquier tipo de datos, logrando así la multimodalidad.
El desarrollo de la IA ha pasado por tres olas tecnológicas. La primera ola fue en la década de 1960, diez años después de que se propusieran las tecnologías de IA. Esta ola fue provocada por el desarrollo de la tecnología del simbolismo, que resolvió problemas de procesamiento de lenguaje natural y diálogo hombre-máquina. En ese mismo período, nacieron los sistemas expertos, siendo el sistema experto DENRAL completado bajo la supervisión de la NASA por la Universidad de Stanford en los Estados Unidos. Este sistema tiene un conocimiento químico muy sólido y genera respuestas similares a las de un experto en química a través de la inferencia basada en preguntas. Este sistema experto en química puede considerarse una combinación de una base de conocimientos químicos y un sistema de inferencia.
Después de los sistemas expertos, en la década de 1990, el científico y filósofo estadounidense de origen israelí Judea Pearl ( propuso las redes bayesianas, que también se conocen como redes de creencias. En la misma época, Brooks propuso la robótica basada en el comportamiento, marcando el nacimiento del conductismo.
En 1997, IBM Deep Blue derrotó al campeón de ajedrez Garry Kasparov 3.5:2.5, esta victoria se considera un hito en la inteligencia artificial, marcando el auge de la segunda ola de desarrollo de la tecnología de IA.
La tercera ola de tecnología de IA ocurrió en 2006. Los tres gigantes del aprendizaje profundo, Yann LeCun, Geoffrey Hinton y Yoshua Bengio, propusieron el concepto de aprendizaje profundo, un algoritmo que utiliza redes neuronales artificiales como arquitectura para el aprendizaje de representaciones de datos. Después, los algoritmos de aprendizaje profundo evolucionaron gradualmente, desde RNN, GAN hasta Transformer y Stable Diffusion, estos dos últimos algoritmos dieron forma a esta tercera ola tecnológica, y también fue la época dorada del conexionismo.
Muchos eventos icónicos también han surgido gradualmente junto con la exploración y evolución de la tecnología de aprendizaje profundo, incluyendo:
En 2011, Watson) de IBM ganó el campeonato humano en el programa de preguntas y respuestas "Jeopardy(".
En 2014, Goodfellow propuso la red generativa antagónica GAN), Generative Adversarial Network(, que aprende mediante un juego entre dos redes neuronales, capaz de generar fotos que parecen reales. Al mismo tiempo, Goodfellow también escribió un libro titulado "Deep Learning", conocido como el libro de las flores, que es uno de los libros de introducción más importantes en el campo del aprendizaje profundo.
En 2015, Hinton y otros propusieron un algoritmo de aprendizaje profundo en la revista "Nature", lo que provocó una gran reacción tanto en el ámbito académico como en la industria.
En 2015, OpenAI fue fundado, Musk, el presidente de YC Altman, el inversor ángel Peter Thiel) y otros anunciaron una inversión conjunta de 1.000 millones de dólares.
En 2016, AlphaGo, basado en tecnología de aprendizaje profundo, compitió contra el campeón mundial de Go y jugador profesional de nueve dan, Lee Sedol, ganando con un marcador total de 4 a 1.
En 2017, la empresa de tecnología de robots Hanson Robotics de Hong Kong, (Hanson Robotics), desarrolló el robot humanoide Sofía, conocido como el primer robot en la historia en obtener la ciudadanía de pleno derecho, que posee una amplia gama de expresiones faciales y capacidad de comprensión del lenguaje humano.
En 2017, Google, que cuenta con un rico talento y una reserva de tecnología en el campo de la inteligencia artificial, publicó el artículo "Attention is all you need" que propuso el algoritmo Transformer, comenzando así la aparición de modelos de lenguaje a gran escala.
En 2018, OpenAI lanzó el GPT(Generative Pre-trained Transformer) construido sobre el algoritmo Transformer, que fue uno de los modelos de lenguaje más grandes de su tiempo.
En 2018, el equipo de Google Deepmind lanzó AlphaGo basado en aprendizaje profundo, capaz de realizar predicciones de la estructura de proteínas, considerado un gran hito en el campo de la inteligencia artificial.
En 2019, OpenAI lanzó GPT-2, el modelo tiene 1.5 mil millones de parámetros.
En 2020, OpenAI desarrolló GPT-3, que tiene 175 mil millones de parámetros, 100 veces más que la versión anterior GPT-2. Este modelo utilizó 570 GB de texto para entrenarse y puede lograr un rendimiento de vanguardia en múltiples tareas de procesamiento de lenguaje natural, como responder preguntas, traducir y redactar artículos.
En 2021, OpenAI lanzó GPT-4, que cuenta con 1.76 billones de parámetros, 10 veces más que GPT-3.
En enero de 2023 se lanzó la aplicación ChatGPT basada en el modelo GPT-4, y en marzo ChatGPT alcanzó los cien millones de usuarios, convirtiéndose en la aplicación que más rápido alcanzó los cien millones de usuarios en la historia.
En 2024, OpenAI lanzará GPT-4 omni.
Cadena industrial de aprendizaje profundo
Los modelos de lenguaje actuales se basan en métodos de aprendizaje profundo basados en redes neuronales. Encabezados por GPT, los grandes modelos han generado un auge en la inteligencia artificial, atrayendo a numerosos jugadores a este campo. También hemos descubierto que la demanda de datos y potencia de cálculo en el mercado ha aumentado considerablemente. Por lo tanto, en esta parte del informe, exploramos principalmente la cadena de suministro de los algoritmos de aprendizaje profundo. En la industria de la IA dominada por algoritmos de aprendizaje profundo, ¿cómo se componen las partes superiores e inferiores de la cadena? ¿Cuál es la situación actual de estas partes y la relación de oferta y demanda, así como su desarrollo futuro?
Primero necesitamos aclarar que, al realizar el entrenamiento de los grandes modelos LLMs liderados por GPT basados en la tecnología Transformer(, se divide en tres pasos.
Antes de la capacitación, como se basa en Transformer, el convertidor necesita convertir la entrada de texto en valores numéricos, este proceso se llama "Tokenization". Después, estos valores se denominan Token. Según la regla general, una palabra o carácter en inglés se puede considerar aproximadamente como un Token, mientras que cada carácter chino se puede considerar aproximadamente como dos Tokens. Esta también es la unidad básica utilizada para la valoración de GPT.
Primer paso, preentrenamiento. A través de la entrada de suficientes pares de datos, similar a los ejemplos citados en la primera parte del informe )X,Y(, se buscan los mejores parámetros para cada neurona del modelo. En este momento, se requiere una gran cantidad de datos, y este proceso también es el que consume más potencia de cálculo, ya que se deben iterar repetidamente las neuronas para probar varios parámetros. Después de completar el entrenamiento de un lote de pares de datos, generalmente se utiliza el mismo lote de datos para un segundo entrenamiento para iterar los parámetros.
El segundo paso, afinación. La afinación consiste en proporcionar un conjunto de datos más pequeño, pero de muy alta calidad, para el entrenamiento; este cambio permitirá que la salida del modelo tenga una mayor calidad, ya que el preentrenamiento requiere una gran cantidad de datos, pero muchos de esos datos pueden contener errores o ser de baja calidad. El paso de afinación puede mejorar la calidad del modelo a través de datos de alta calidad.
El tercer paso, el aprendizaje reforzado. Primero se establecerá un modelo completamente nuevo, al que llamamos "modelo de recompensa". El objetivo de este modelo es muy simple: clasificar los resultados de salida. Por lo tanto, implementar este modelo será relativamente sencillo, ya que el escenario de negocio es bastante vertical. Luego, se utilizará este modelo para determinar si la salida de nuestro modelo grande es de alta calidad, de modo que se pueda usar un modelo de recompensa para iterar automáticamente los parámetros del modelo grande. ) Sin embargo, a veces también es necesario que las personas participen para evaluar la calidad de la salida del modelo (.
En resumen, durante el proceso de entrenamiento de un modelo grande, el preentrenamiento tiene una alta demanda de cantidad de datos, y la potencia de cálculo de GPU requerida es la más alta. Por otro lado, el ajuste fino necesita datos de mayor calidad para mejorar los parámetros, y el aprendizaje por refuerzo puede iterar los parámetros repetidamente a través de un modelo de recompensas para producir resultados de mayor calidad.
Durante el proceso de entrenamiento, cuantos más parámetros haya, mayor será el límite de su capacidad de generalización. Por ejemplo, en el caso de la función Y = aX + b, en realidad hay dos neuronas: X y X0. Por lo tanto, cómo cambian los parámetros limita enormemente los datos que pueden ajustarse, ya que en esencia sigue siendo una línea recta. Si hay más neuronas, se pueden iterar más parámetros, lo que permite ajustar más datos. Esta es la razón por la cual los grandes modelos producen milagros, y también es la razón por la que se les llama comúnmente grandes modelos: en esencia, son una gran cantidad de neuronas y parámetros, una gran cantidad de datos, y al mismo tiempo requieren una gran cantidad de potencia de cálculo.
Por lo tanto, el rendimiento de los modelos grandes está determinado principalmente por tres aspectos: la cantidad de parámetros, la cantidad y calidad de los datos, y la capacidad de cómputo. Estos tres influyen conjuntamente en la calidad de los resultados del modelo grande y su capacidad de generalización. Supongamos que la cantidad de parámetros es p, la cantidad de datos es n) calculada en función de la cantidad de tokens(, entonces podemos calcular la cantidad de cómputo necesaria a través de una regla general, lo que nos permitirá estimar la capacidad de cómputo que necesitamos comprar y el tiempo de entrenamiento.
La potencia de cálculo generalmente se mide en Flops, que representa una operación de punto flotante. Las operaciones de punto flotante son un término general para la suma, resta, multiplicación y división de valores no enteros, como 2.5 + 3.557. Punto flotante representa la capacidad de incluir un punto decimal, mientras que FP16 representa el soporte.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
6 me gusta
Recompensa
6
4
Compartir
Comentar
0/400
DefiPlaybook
· 07-21 23:34
¿Aumento del 20% en la eficiencia laboral? La minería de liquidez ya puede multiplicarse varias veces.
Ver originalesResponder0
AlwaysAnon
· 07-21 23:26
¿Estás diciendo que los Bots van a quitarme el trabajo?
La fusión de la IA y los Activos Cripto: desde los fundamentos hasta el desarrollo futuro
AI x Crypto: De cero a la cima
El desarrollo reciente de la industria de la IA ha sido visto por algunos como la cuarta revolución industrial. La aparición de grandes modelos ha mejorado significativamente la eficiencia en diversas industrias, estimándose que ha aumentado la eficiencia laboral en Estados Unidos en aproximadamente un 20%. Al mismo tiempo, la capacidad de generalización que traen estos grandes modelos se considera un nuevo paradigma de diseño de software; el diseño de software en el pasado consistía en código preciso, mientras que ahora se integra un marco de grandes modelos más generalizados en el software, lo que permite un mejor rendimiento y un soporte más amplio para entradas y salidas de diferentes modalidades. La tecnología de aprendizaje profundo ha traído una cuarta prosperidad a la industria de la IA, y esta tendencia también ha influido en la industria de las criptomonedas.
Este informe explorará en detalle la historia del desarrollo de la industria de la IA, la clasificación de tecnologías y el impacto de la tecnología de aprendizaje profundo en la industria. Luego, se analizará en profundidad el estado actual y las tendencias del desarrollo de la cadena de suministro en relación con el aprendizaje profundo, incluyendo GPU, computación en la nube, fuentes de datos y dispositivos de borde. Finalmente, se explorará esencialmente la relación entre las criptomonedas y la industria de la IA, organizando el patrón de la cadena de suministro de IA relacionada con las criptomonedas.
Historia del desarrollo de la industria de la IA
La industria de la IA comenzó en la década de 1950. Para lograr la visión de la inteligencia artificial, el ámbito académico y la industria han desarrollado varias corrientes para implementar la inteligencia artificial en diferentes épocas y contextos disciplinares.
La tecnología moderna de inteligencia artificial utiliza principalmente el término "aprendizaje automático", cuyo concepto es permitir que las máquinas mejoren el rendimiento del sistema mediante la iteración repetida en tareas basadas en datos. Los pasos principales son enviar datos a un algoritmo, usar esos datos para entrenar un modelo, probar y desplegar el modelo, y utilizar el modelo para completar tareas de predicción automatizadas.
Actualmente, el aprendizaje automático tiene tres principales corrientes: el conexionismo, el simbolismo y el conductismo, que imitan respectivamente el sistema nervioso, el pensamiento y el comportamiento humano.
Actualmente, el conexionismo, representado por redes neuronales, está en la cima(, también conocido como aprendizaje profundo). La razón principal es que esta arquitectura tiene una capa de entrada, una capa de salida, pero múltiples capas ocultas. Una vez que el número de capas y neuronas(, así como los parámetros), se vuelven suficientes, hay suficientes oportunidades para ajustar tareas complejas de tipo general. A través de la entrada de datos, se pueden ajustar continuamente los parámetros de las neuronas. Después de pasar por múltiples datos, esa neurona alcanzará un estado óptimo(, que es lo que se llama "hacer milagros con gran esfuerzo", y también es el origen de la palabra "profundo" — suficientes capas y neuronas.
Por ejemplo, se puede entender de manera simple como la construcción de una función, donde al introducir X=2, Y=3; y al introducir X=3, Y=5. Si se desea que esta función se aplique a todos los X, será necesario seguir añadiendo el grado de esta función y sus parámetros. Por ejemplo, en este momento puedo construir una función que cumpla con esta condición como Y = 2X -1, pero si hay un dato donde X=2, Y=11, será necesario reestructurar una función que se adapte a estos tres puntos de datos. Al utilizar una GPU para hacer un ataque de fuerza bruta, se descubre que Y = X2 -3X +5 es bastante adecuado, aunque no es necesario que coincida completamente con los datos, solo debe respetar el equilibrio y proporcionar una salida aproximadamente similar. En este caso, X2, X y X0 representan diferentes neuronas, mientras que 1, -3 y 5 son sus parámetros.
En este momento, si introducimos una gran cantidad de datos en la red neuronal, podemos aumentar los neuronas y ajustar los parámetros para adaptar los nuevos datos. De esta manera, podremos ajustar todos los datos.
La tecnología de aprendizaje profundo basada en redes neuronales ha tenido múltiples iteraciones y evoluciones, comenzando con las primeras redes neuronales, redes neuronales de retroalimentación, RNN, CNN, GAN, y finalmente evolucionando hacia los modernos grandes modelos como GPT, que utilizan la tecnología Transformer. La tecnología Transformer es solo una dirección de evolución de las redes neuronales, que añade un convertidor ) Transformer (, utilizado para codificar los datos de todos los modos ), como audio, video, imágenes, etc., en valores numéricos correspondientes para representarlos. Luego, estos se ingresan en la red neuronal, lo que permite a la red neuronal ajustar cualquier tipo de datos, logrando así la multimodalidad.
El desarrollo de la IA ha pasado por tres olas tecnológicas. La primera ola fue en la década de 1960, diez años después de que se propusieran las tecnologías de IA. Esta ola fue provocada por el desarrollo de la tecnología del simbolismo, que resolvió problemas de procesamiento de lenguaje natural y diálogo hombre-máquina. En ese mismo período, nacieron los sistemas expertos, siendo el sistema experto DENRAL completado bajo la supervisión de la NASA por la Universidad de Stanford en los Estados Unidos. Este sistema tiene un conocimiento químico muy sólido y genera respuestas similares a las de un experto en química a través de la inferencia basada en preguntas. Este sistema experto en química puede considerarse una combinación de una base de conocimientos químicos y un sistema de inferencia.
Después de los sistemas expertos, en la década de 1990, el científico y filósofo estadounidense de origen israelí Judea Pearl ( propuso las redes bayesianas, que también se conocen como redes de creencias. En la misma época, Brooks propuso la robótica basada en el comportamiento, marcando el nacimiento del conductismo.
En 1997, IBM Deep Blue derrotó al campeón de ajedrez Garry Kasparov 3.5:2.5, esta victoria se considera un hito en la inteligencia artificial, marcando el auge de la segunda ola de desarrollo de la tecnología de IA.
La tercera ola de tecnología de IA ocurrió en 2006. Los tres gigantes del aprendizaje profundo, Yann LeCun, Geoffrey Hinton y Yoshua Bengio, propusieron el concepto de aprendizaje profundo, un algoritmo que utiliza redes neuronales artificiales como arquitectura para el aprendizaje de representaciones de datos. Después, los algoritmos de aprendizaje profundo evolucionaron gradualmente, desde RNN, GAN hasta Transformer y Stable Diffusion, estos dos últimos algoritmos dieron forma a esta tercera ola tecnológica, y también fue la época dorada del conexionismo.
Muchos eventos icónicos también han surgido gradualmente junto con la exploración y evolución de la tecnología de aprendizaje profundo, incluyendo:
En 2011, Watson) de IBM ganó el campeonato humano en el programa de preguntas y respuestas "Jeopardy(".
En 2014, Goodfellow propuso la red generativa antagónica GAN), Generative Adversarial Network(, que aprende mediante un juego entre dos redes neuronales, capaz de generar fotos que parecen reales. Al mismo tiempo, Goodfellow también escribió un libro titulado "Deep Learning", conocido como el libro de las flores, que es uno de los libros de introducción más importantes en el campo del aprendizaje profundo.
En 2015, Hinton y otros propusieron un algoritmo de aprendizaje profundo en la revista "Nature", lo que provocó una gran reacción tanto en el ámbito académico como en la industria.
En 2015, OpenAI fue fundado, Musk, el presidente de YC Altman, el inversor ángel Peter Thiel) y otros anunciaron una inversión conjunta de 1.000 millones de dólares.
En 2016, AlphaGo, basado en tecnología de aprendizaje profundo, compitió contra el campeón mundial de Go y jugador profesional de nueve dan, Lee Sedol, ganando con un marcador total de 4 a 1.
En 2017, la empresa de tecnología de robots Hanson Robotics de Hong Kong, (Hanson Robotics), desarrolló el robot humanoide Sofía, conocido como el primer robot en la historia en obtener la ciudadanía de pleno derecho, que posee una amplia gama de expresiones faciales y capacidad de comprensión del lenguaje humano.
En 2017, Google, que cuenta con un rico talento y una reserva de tecnología en el campo de la inteligencia artificial, publicó el artículo "Attention is all you need" que propuso el algoritmo Transformer, comenzando así la aparición de modelos de lenguaje a gran escala.
En 2018, OpenAI lanzó el GPT(Generative Pre-trained Transformer) construido sobre el algoritmo Transformer, que fue uno de los modelos de lenguaje más grandes de su tiempo.
En 2018, el equipo de Google Deepmind lanzó AlphaGo basado en aprendizaje profundo, capaz de realizar predicciones de la estructura de proteínas, considerado un gran hito en el campo de la inteligencia artificial.
En 2019, OpenAI lanzó GPT-2, el modelo tiene 1.5 mil millones de parámetros.
En 2020, OpenAI desarrolló GPT-3, que tiene 175 mil millones de parámetros, 100 veces más que la versión anterior GPT-2. Este modelo utilizó 570 GB de texto para entrenarse y puede lograr un rendimiento de vanguardia en múltiples tareas de procesamiento de lenguaje natural, como responder preguntas, traducir y redactar artículos.
En 2021, OpenAI lanzó GPT-4, que cuenta con 1.76 billones de parámetros, 10 veces más que GPT-3.
En enero de 2023 se lanzó la aplicación ChatGPT basada en el modelo GPT-4, y en marzo ChatGPT alcanzó los cien millones de usuarios, convirtiéndose en la aplicación que más rápido alcanzó los cien millones de usuarios en la historia.
En 2024, OpenAI lanzará GPT-4 omni.
Cadena industrial de aprendizaje profundo
Los modelos de lenguaje actuales se basan en métodos de aprendizaje profundo basados en redes neuronales. Encabezados por GPT, los grandes modelos han generado un auge en la inteligencia artificial, atrayendo a numerosos jugadores a este campo. También hemos descubierto que la demanda de datos y potencia de cálculo en el mercado ha aumentado considerablemente. Por lo tanto, en esta parte del informe, exploramos principalmente la cadena de suministro de los algoritmos de aprendizaje profundo. En la industria de la IA dominada por algoritmos de aprendizaje profundo, ¿cómo se componen las partes superiores e inferiores de la cadena? ¿Cuál es la situación actual de estas partes y la relación de oferta y demanda, así como su desarrollo futuro?
Primero necesitamos aclarar que, al realizar el entrenamiento de los grandes modelos LLMs liderados por GPT basados en la tecnología Transformer(, se divide en tres pasos.
Antes de la capacitación, como se basa en Transformer, el convertidor necesita convertir la entrada de texto en valores numéricos, este proceso se llama "Tokenization". Después, estos valores se denominan Token. Según la regla general, una palabra o carácter en inglés se puede considerar aproximadamente como un Token, mientras que cada carácter chino se puede considerar aproximadamente como dos Tokens. Esta también es la unidad básica utilizada para la valoración de GPT.
Primer paso, preentrenamiento. A través de la entrada de suficientes pares de datos, similar a los ejemplos citados en la primera parte del informe )X,Y(, se buscan los mejores parámetros para cada neurona del modelo. En este momento, se requiere una gran cantidad de datos, y este proceso también es el que consume más potencia de cálculo, ya que se deben iterar repetidamente las neuronas para probar varios parámetros. Después de completar el entrenamiento de un lote de pares de datos, generalmente se utiliza el mismo lote de datos para un segundo entrenamiento para iterar los parámetros.
El segundo paso, afinación. La afinación consiste en proporcionar un conjunto de datos más pequeño, pero de muy alta calidad, para el entrenamiento; este cambio permitirá que la salida del modelo tenga una mayor calidad, ya que el preentrenamiento requiere una gran cantidad de datos, pero muchos de esos datos pueden contener errores o ser de baja calidad. El paso de afinación puede mejorar la calidad del modelo a través de datos de alta calidad.
El tercer paso, el aprendizaje reforzado. Primero se establecerá un modelo completamente nuevo, al que llamamos "modelo de recompensa". El objetivo de este modelo es muy simple: clasificar los resultados de salida. Por lo tanto, implementar este modelo será relativamente sencillo, ya que el escenario de negocio es bastante vertical. Luego, se utilizará este modelo para determinar si la salida de nuestro modelo grande es de alta calidad, de modo que se pueda usar un modelo de recompensa para iterar automáticamente los parámetros del modelo grande. ) Sin embargo, a veces también es necesario que las personas participen para evaluar la calidad de la salida del modelo (.
En resumen, durante el proceso de entrenamiento de un modelo grande, el preentrenamiento tiene una alta demanda de cantidad de datos, y la potencia de cálculo de GPU requerida es la más alta. Por otro lado, el ajuste fino necesita datos de mayor calidad para mejorar los parámetros, y el aprendizaje por refuerzo puede iterar los parámetros repetidamente a través de un modelo de recompensas para producir resultados de mayor calidad.
Durante el proceso de entrenamiento, cuantos más parámetros haya, mayor será el límite de su capacidad de generalización. Por ejemplo, en el caso de la función Y = aX + b, en realidad hay dos neuronas: X y X0. Por lo tanto, cómo cambian los parámetros limita enormemente los datos que pueden ajustarse, ya que en esencia sigue siendo una línea recta. Si hay más neuronas, se pueden iterar más parámetros, lo que permite ajustar más datos. Esta es la razón por la cual los grandes modelos producen milagros, y también es la razón por la que se les llama comúnmente grandes modelos: en esencia, son una gran cantidad de neuronas y parámetros, una gran cantidad de datos, y al mismo tiempo requieren una gran cantidad de potencia de cálculo.
Por lo tanto, el rendimiento de los modelos grandes está determinado principalmente por tres aspectos: la cantidad de parámetros, la cantidad y calidad de los datos, y la capacidad de cómputo. Estos tres influyen conjuntamente en la calidad de los resultados del modelo grande y su capacidad de generalización. Supongamos que la cantidad de parámetros es p, la cantidad de datos es n) calculada en función de la cantidad de tokens(, entonces podemos calcular la cantidad de cómputo necesaria a través de una regla general, lo que nos permitirá estimar la capacidad de cómputo que necesitamos comprar y el tiempo de entrenamiento.
La potencia de cálculo generalmente se mide en Flops, que representa una operación de punto flotante. Las operaciones de punto flotante son un término general para la suma, resta, multiplicación y división de valores no enteros, como 2.5 + 3.557. Punto flotante representa la capacidad de incluir un punto decimal, mientras que FP16 representa el soporte.