A fusão da IA com ativos de criptografia: dos fundamentos ao desenvolvimento futuro

AI x Crypto: Do Zero ao Topo

O recente desenvolvimento da indústria de IA é visto por alguns como a quarta revolução industrial. O surgimento de grandes modelos aumentou significativamente a eficiência em vários setores, estimando-se que melhorou em cerca de 20% a eficiência do trabalho nos Estados Unidos. Ao mesmo tempo, a capacidade de generalização trazida pelos grandes modelos é considerada um novo paradigma de design de software; o design de software anterior era baseado em códigos precisos, agora é uma estrutura de grandes modelos mais generalizada incorporada no software, que pode ter um desempenho melhor e suportar entradas e saídas em modalidades mais amplas. A tecnologia de aprendizagem profunda trouxe a quarta prosperidade para a indústria de IA, e essa onda também afetou a indústria de criptomoedas.

Este relatório irá explorar detalhadamente a história do desenvolvimento da indústria de IA, a classificação das tecnologias e o impacto da tecnologia de aprendizado profundo na indústria. Em seguida, analisará em profundidade o estado atual e as tendências de desenvolvimento ao longo da cadeia de suprimentos da indústria, incluindo GPU, computação em nuvem, fontes de dados e dispositivos de borda. Por fim, discutirá essencialmente a relação entre criptomoedas e a indústria de IA, organizando o panorama da cadeia de suprimentos de IA relacionada às criptomoedas.

Novos conhecimentos丨AI x Crypto: Do zero ao auge

História do desenvolvimento da indústria de IA

A indústria de IA começou na década de 1950 e, para alcançar a visão da inteligência artificial, o mundo acadêmico e a indústria desenvolveram, em diferentes épocas e contextos disciplinares, várias correntes para a realização da inteligência artificial.

As tecnologias modernas de inteligência artificial utilizam principalmente o termo "aprendizado de máquina", cuja ideia é permitir que as máquinas melhorem o desempenho do sistema por meio de iterações repetidas baseadas em dados nas tarefas. Os principais passos envolvem enviar dados para o algoritmo, treinar o modelo com esses dados, testar o modelo implantado e utilizar o modelo para realizar tarefas de previsão automatizadas.

Atualmente, existem três principais correntes de aprendizado de máquina, que são o conexionismo, o simbolismo e o behaviorismo, cada uma imitando o sistema nervoso, o pensamento e o comportamento humanos.

Atualmente, o conexionismo, representado por redes neurais, domina ( também conhecido como aprendizagem profunda ). A principal razão é que essa arquitetura possui uma camada de entrada, uma camada de saída, mas várias camadas ocultas. Uma vez que o número de camadas e neurônios ( e os parâmetros ) se tornam suficientemente altos, há oportunidade suficiente para modelar tarefas complexas e gerais. Através da entrada de dados, os parâmetros dos neurônios podem ser continuamente ajustados e, após passar por múltiplos dados, o neurônio alcançará um estado ótimo ( parâmetro ), o que é chamado de "grande esforço traz milagres", e essa é a origem da palavra "profunda" - número suficiente de camadas e neurônios.

Por exemplo, pode-se entender simplesmente como a construção de uma função, em que, ao inserir X=2, obtemos Y=3; ao inserir X=3, obtemos Y=5. Se quisermos que essa função se aplique a todos os X, será necessário continuar adicionando o grau da função e seus parâmetros. Por exemplo, neste momento, posso construir uma função que satisfaça essa condição como Y = 2X -1, mas se houver um dado com X=2, Y=11, será necessário reconstruir uma função que se adapte a esses três pontos de dados. Usando GPU para uma força bruta, descobri que Y = X2 -3X +5 é mais adequado, mas não é necessário que coincida completamente com os dados, apenas precisa obedecer ao equilíbrio, com saídas aproximadamente semelhantes. Aqui, X2, X e X0 representam diferentes neurônios, enquanto 1, -3 e 5 são seus parâmetros.

Neste momento, se introduzirmos uma grande quantidade de dados na rede neural, podemos aumentar o número de neurônios e iterar os parâmetros para ajustar os novos dados. Assim, conseguiremos ajustar todos os dados.

E a tecnologia de deep learning baseada em redes neurais também teve várias iterações e evoluções, como as redes neurais mais antigas, redes neurais feedforward, RNN, CNN, GAN, que finalmente evoluíram para os modernos grandes modelos, como o GPT, que utilizam a tecnologia Transformer. A tecnologia Transformer é apenas uma direção de evolução das redes neurais, adicionando um conversor ( Transformer ), que codifica todos os modos (, como áudio, vídeo, imagens, entre outros ), em valores numéricos correspondentes para representação. Esses dados são então inseridos na rede neural, permitindo que a rede neural ajuste qualquer tipo de dado, ou seja, realiza multimodalidade.

Novos conhecimentos丨AI x Crypto: Do zero ao topo

O desenvolvimento da IA passou por três ondas tecnológicas. A primeira onda foi na década de 60 do século XX, uma década após a proposta da tecnologia de IA. Essa onda foi causada pelo desenvolvimento da tecnologia do simbolismo, que resolveu problemas de processamento de linguagem natural e diálogo homem-máquina. Nesse mesmo período, os sistemas especialistas nasceram, sendo um deles o sistema especialista DENRAL, completado sob a supervisão da NASA na Universidade de Stanford. Este sistema possui um conhecimento químico muito forte e realiza inferências a partir de perguntas para gerar respostas semelhantes às de um especialista em química. Este sistema especialista em química pode ser visto como uma combinação de um banco de dados de conhecimento químico e um sistema de inferência.

Após os sistemas especialistas, na década de 1990, o cientista e filósofo americano de origem israelense Judea Pearl ( Judea Pearl ) propôs as redes bayesianas, que também são conhecidas como redes de crença. Na mesma época, Brooks introduziu a robótica baseada em comportamento, marcando o nascimento do behaviorismo.

Em 1997, o Deep Blue da IBM venceu o campeão de xadrez Kasparov por 3.5:2.5, e essa vitória foi vista como um marco para a inteligência artificial, com a tecnologia de IA entrando em um segundo auge de desenvolvimento.

A terceira onda da tecnologia de IA ocorreu em 2006. Os três gigantes do deep learning, Yann LeCun, Geoffrey Hinton e Yoshua Bengio, propuseram o conceito de deep learning, um algoritmo que utiliza redes neurais artificiais como estrutura para aprender representações de dados. A partir daí, os algoritmos de deep learning evoluíram gradualmente, desde RNN, GAN até Transformer e Stable Diffusion; esses dois algoritmos moldaram conjuntamente essa terceira onda tecnológica, que também representa o auge do conexionismo.

Muitos eventos icônicos também surgiram gradualmente acompanhados pela exploração e evolução da tecnologia de aprendizado profundo, incluindo:

  • Em 2011, o Watson( da IBM venceu os humanos e conquistou o campeonato no programa de quiz "Jeopardy)".

  • Em 2014, Goodfellow propôs a GAN( Rede Generativa Adversarial, Generative Adversarial Network), que aprende gerando fotos realistas através da competição entre duas redes neurais. Ao mesmo tempo, Goodfellow escreveu um livro intitulado "Deep Learning", conhecido como o livro das flores, que é um dos livros de introdução mais importantes no campo do aprendizado profundo.

  • Em 2015, Hinton e outros propuseram algoritmos de aprendizado profundo na revista "Nature", e a introdução desse método de aprendizado profundo imediatamente gerou um grande impacto na academia e na indústria.

  • Em 2015, a OpenAI foi criada, com Musk, o presidente da YC Altman, o investidor anjo Peter Thiel( e outros anunciando um investimento conjunto de 1 bilhão de dólares.

  • Em 2016, o AlphaGo, baseado em tecnologia de aprendizado profundo, competiu contra o campeão mundial de Go e jogador profissional de nove dan, Lee Sedol, vencendo com um placar total de 4 a 1.

  • Em 2017, a empresa de tecnologia de robôs Hanson Robotics de Hong Kong, China, )Hanson Robotics(, desenvolveu o robô humanoide Sophia, que é chamado de o primeiro robô na história a obter a cidadania de primeira classe, possuindo ricas expressões faciais e capacidade de compreensão da linguagem humana.

  • Em 2017, a Google, com uma rica reserva de talentos e tecnologia na área de inteligência artificial, publicou o artigo "Attention is all you need" propondo o algoritmo Transformer, dando início à aparição de modelos de linguagem em larga escala.

  • Em 2018, a OpenAI lançou o GPT) Generative Pre-trained Transformer(, construído com base no algoritmo Transformer, que era um dos maiores modelos de linguagem na época.

  • Em 2018, a equipe do Google DeepMind lançou o AlphaGo baseado em aprendizado profundo, capaz de prever a estrutura de proteínas, sendo considerado um grande marco no campo da inteligência artificial.

  • Em 2019, a OpenAI lançou o GPT-2, que possui 1,5 bilhões de parâmetros.

  • Em 2020, o GPT-3, desenvolvido pela OpenAI, possui 175 bilhões de parâmetros, 100 vezes mais do que a versão anterior GPT-2. Este modelo foi treinado com 570 GB de texto e pode alcançar desempenho de ponta em várias tarefas de NLP), como resposta a perguntas, tradução e redação de artigos(.

  • Em 2021, a OpenAI lançou o GPT-4, um modelo com 1,76 trilião de parâmetros, que é 10 vezes maior que o GPT-3.

  • Em janeiro de 2023, foi lançado o aplicativo ChatGPT baseado no modelo GPT-4, em março o ChatGPT atingiu cem milhões de usuários, tornando-se o aplicativo que alcançou cem milhões de usuários mais rapidamente na história.

  • Em 2024, a OpenAI lançou o GPT-4 omni.

![Novato Ciência丨AI x Crypto: Do zero ao auge])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(

Cadeia de Indústria de Aprendizado Profundo

Atualmente, os grandes modelos de linguagem utilizam métodos de aprendizado profundo baseados em redes neurais. Liderados pelo GPT, os grandes modelos deram origem a uma onda de entusiasmo pela inteligência artificial, com muitos jogadores entrando neste campo. Também constatamos que a demanda do mercado por dados e poder computacional explodiu. Portanto, nesta parte do relatório, exploramos principalmente a cadeia industrial dos algoritmos de aprendizado profundo. Na indústria de IA dominada por algoritmos de aprendizado profundo, como se compõem suas cadeias de suprimento e demanda, e como são o estado atual e a relação de oferta e demanda, bem como o desenvolvimento futuro.

Primeiro, precisamos esclarecer que, ao realizar o treinamento de grandes modelos LLMs, liderados pelo GPT com tecnologia Transformer, ), são divididos em três etapas.

Antes do treinamento, como é baseado em Transformer, o conversor precisa converter a entrada de texto em valores numéricos, esse processo é chamado de "Tokenization". Após isso, esses valores são chamados de Token. De acordo com a regra geral, uma palavra ou caractere em inglês pode ser considerado aproximadamente um Token, enquanto cada caractere chinês pode ser considerado aproximadamente dois Tokens. Esta também é a unidade básica utilizada para a precificação do GPT.

Primeiro passo, pré-treinamento. Ao fornecer ao nível de entrada um número suficiente de pares de dados, semelhante ao exemplo da primeira parte do relatório (X,Y), para encontrar os melhores parâmetros de cada neurônio sob este modelo, é necessário uma grande quantidade de dados, e esse processo também é o que mais consome poder computacional, pois é preciso iterar repetidamente os neurônios tentando vários parâmetros. Após a conclusão do treinamento de um lote de pares de dados, geralmente usa-se o mesmo lote de dados para um segundo treinamento a fim de iterar os parâmetros.

O segundo passo, ajuste fino. O ajuste fino consiste em fornecer um conjunto de dados menor, mas de qualidade muito elevada, para o treinamento; essa alteração irá resultar em uma saída de modelo de maior qualidade, uma vez que o pré-treinamento requer uma grande quantidade de dados, mas muitos desses dados podem conter erros ou serem de baixa qualidade. O passo de ajuste fino pode elevar a qualidade do modelo através de dados de alta qualidade.

Passo três, aprendizado por reforço. Primeiro, será criado um modelo completamente novo, que chamamos de "modelo de recompensa", e o objetivo deste modelo é muito simples: classificar os resultados da saída. Portanto, implementar este modelo será relativamente simples, uma vez que o cenário de negócios é bastante vertical. Em seguida, usamos este modelo para determinar se a saída do nosso grande modelo é de alta qualidade, assim podemos usar um modelo de recompensa para iterar automaticamente os parâmetros do grande modelo. ( No entanto, às vezes também é necessário a participação humana para avaliar a qualidade da saída do modelo ).

Em resumo, durante o processo de treinamento de grandes modelos, o pré-treinamento exige uma quantidade muito alta de dados, e a potência de cálculo da GPU necessária é a maior, enquanto o ajuste fino requer dados de maior qualidade para melhorar os parâmetros. O aprendizado por reforço pode iterar os parâmetros repetidamente através de um modelo de recompensa para produzir resultados de maior qualidade.

Durante o processo de treinamento, quanto mais parâmetros houver, maior será o teto da sua capacidade de generalização. Por exemplo, no exemplo que usamos com uma função, Y = aX + b, na verdade temos dois neurônios, X e X0. Assim, como os parâmetros podem variar, os dados que podem ser ajustados são extremamente limitados, pois a essência ainda é uma linha reta. Se houver mais neurônios, mais parâmetros poderão ser iterados, permitindo ajustar mais dados. Essa é a razão pela qual grandes modelos trazem grandes milagres, e também é por isso que se chama de grandes modelos, essencialmente, é uma quantidade imensa de neurônios e parâmetros, e uma quantidade imensa de dados, ao mesmo tempo que requer uma grande capacidade de computação.

Portanto, o desempenho do modelo grande é principalmente determinado por três aspectos: a quantidade de parâmetros, a quantidade e a qualidade dos dados, e a capacidade computacional. Esses três fatores afetam conjuntamente a qualidade dos resultados do modelo grande e sua capacidade de generalização. Suponhamos que a quantidade de parâmetros seja p, a quantidade de dados seja n( calculada em termos de número de Tokens), então podemos calcular a quantidade de computação necessária através de uma regra geral, permitindo assim estimar a situação da capacidade computacional que precisamos comprar, bem como o tempo de treinamento.

O poder de computação é geralmente medido em Flops, que representa uma operação de ponto flutuante. A operação de ponto flutuante é um termo genérico para adição, subtração, multiplicação e divisão de números não inteiros, como 2.5 + 3.557. Ponto flutuante representa a capacidade de ter casas decimais, enquanto FP16 representa o suporte.

GPT4.42%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 4
  • Partilhar
Comentar
0/400
DefiPlaybookvip
· 07-21 23:34
Aumento de 20% na eficiência do trabalho? A mineração de liquidez já consegue multiplicar várias vezes!
Ver originalResponder0
AlwaysAnonvip
· 07-21 23:26
Você está dizendo que os Bots vão roubar meu trabalho?
Ver originalResponder0
FloorPriceNightmarevip
· 07-21 23:23
O título é só um bull, falar sobre o pico.
Ver originalResponder0
CoffeeNFTradervip
· 07-21 23:22
Mais uma vez, estamos a falar de IA.
Ver originalResponder0
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)