Em 2017, o artigo “Attention is All You Need” surgiu, introduzindo pela primeira vez o modelo Transformer baseado em mecanismos de autoatenção, libertando-se das limitações das RNNs e CNNs tradicionais e superando efetivamente o problema da dependência de longo alcance através do processamento paralelo. No GTC de 2024, o CEO da Nvidia, Jen-Hsun Huang, convidou os sete autores do Transformer para uma aparição coletiva.
Transformer origina-se da dificuldade de eficiência na tradução automática
(Fonte: NVIDIA)
Jen-Hsun Huang perguntou quais problemas foram encontrados inicialmente e o que inspirou a equipe a criar o Transformer. Illia Polosukhin respondeu: “Se você quer lançar um modelo que realmente possa ler os resultados de pesquisa, como lidar com pilhas de documentos, você precisa de um modelo que possa processar essas informações rapidamente. As redes neurais recorrentes (RNN) da época não conseguiam atender a essa demanda.”
Jakob Uszkoreit acrescentou: “A velocidade com que geramos dados de treinamento supera em muito a capacidade dos nossos arquiteturas mais avançadas. Na verdade, estamos usando arquiteturas mais simples, como redes neurais feedforward que utilizam n-gram como características de entrada. Essas arquiteturas, pelo menos com os grandes volumes de dados de treinamento do Google, geralmente superam modelos mais complexos e avançados devido à sua velocidade de treinamento mais rápida.”
Noam Shazeer forneceu uma visão crucial: “Parece que este é um problema que precisa ser resolvido. Começamos a notar essas leis de scaling por volta de 2015, você pode ver que à medida que o tamanho do modelo aumenta, seu nível de inteligência também aumenta. E uma grande frustração é que o RNN é realmente muito complicado de lidar. Então, por acaso, ouvi esses caras discutindo, ei, vamos substituí-lo por convolução ou mecanismos de atenção. Eu pensei, ótimo, vamos fazer isso. Eu gosto de comparar o Transformer com o salto da máquina a vapor para o motor de combustão interna. Poderíamos ter completado a revolução industrial com a máquina a vapor, mas isso teria sido muito doloroso, enquanto o motor de combustão interna torna tudo melhor.”
Os três principais problemas resolvidos pelo Transformer
Processamento paralelo: livrar-se das limitações de processamento sequencial das RNNs e alcançar computação verdadeiramente paralela.
Dependência de longo alcance: Captura efetivamente as relações entre vocabulários distantes através de um mecanismo de autoatenção.
Eficiência de Treinamento: Aumenta significativamente a velocidade de treinamento do modelo, tornando possível o pré-treinamento em grande escala.
Esses avanços tecnológicos tornaram o Transformer a pedra angular da IA moderna. Modelos de linguagem de grande escala como ChatGPT, BERT e GPT-4 são todos baseados na arquitetura Transformer. No entanto, sete anos depois, os criadores acreditam que é hora de um novo avanço.
preso no dilema de eficiência do modelo original
Aidan Gomez afirmou: “Acredito que o mundo precisa de algo melhor do que o Transformer, e acho que todos nós aqui desejamos que isso seja substituído por alguma coisa, levando-nos a um novo pico de desempenho.” Llion Jones acrescentou: “Estamos presos a modelos primitivos, embora tecnicamente não sejam as coisas mais poderosas que temos agora. Mas todos sabem que tipo de ferramenta pessoal desejam, vocês querem fazer melhores janelas de contexto, vocês querem uma capacidade de geração de tokens mais rápida. Eles agora estão usando muitos recursos computacionais. Acredito que todos nós fizemos muitos cálculos desperdiçados.”
Jakob Uszkoreit apontou o problema central: “Mas eu acho que isso se trata principalmente de como alocar recursos, e não de quanto recurso foi consumido no total. Por exemplo, não queremos gastar muito dinheiro em um problema fácil, ou gastar muito pouco em um problema muito difícil e acabar sem uma solução.”
Illia Polosukhin forneceu um exemplo vívido: “Este exemplo é como 2+2, se você o inserir corretamente neste modelo, ele usará um trilhão de parâmetros. Portanto, eu acho que a computação adaptativa é uma das coisas que deve surgir a seguir, sabemos quanto recurso computacional deve ser gasto em problemas específicos.” Esta crítica revela a falha fundamental dos modelos de IA atuais: a falta de adaptabilidade, investindo os mesmos recursos computacionais em problemas simples e complexos, resultando em um enorme desperdício.
Noam Shazeer analisou do ponto de vista econômico: “Eu acho que o modelo atual é muito econômico e ainda é muito pequeno. O custo de cálculo por operação é de cerca de 10 a 18 dólares. Se você observar um modelo com quinhentos bilhões de parâmetros, e cada token realiza um trilhão de cálculos, isso seria cerca de um dólar por milhão de tokens, o que é 100 vezes mais barato do que sair e comprar um livro de capa mole e lê-lo.” Este ponto de vista é contraintuitivo, mas profundo: a IA atualmente é muito barata, fazendo com que as pessoas abusem em vez de valorizarem os recursos computacionais.
Direção Futura: Computação Adaptativa e Capacidade de Inferência
Lukasz Kaiser revelou um fato importante: “Não tivemos sucesso no nosso objetivo inicial, a intenção ao começar o Transformer era simular o processo de evolução dos Tokens. Não se trata apenas de um processo de geração linear, mas sim da evolução gradual de texto ou código.” Esta confissão mostra que, embora o Transformer tenha sido bem-sucedido, não concretizou completamente a visão de seus criadores.
Jakob Uszkoreit apontou a próxima direção: “O próximo passo é a inferência. Todos nós reconhecemos a importância da inferência, mas muito do trabalho ainda é feito manualmente por engenheiros. Esperamos que o modelo possa gerar o conteúdo que desejamos, seja em vídeo, texto ou mensagens 3D, todos eles devem ser integrados.” Isso sugere que a arquitetura de IA no futuro precisará de uma capacidade de inferência mais forte e de uma integração multimodal.
Aidan Gomez acrescentou: “Podemos alcançar a paralelização multitarefa e multicanal? Se realmente deseja construir um modelo assim, ajude-nos a projetar um modelo assim, essa é uma ótima maneira.” Lukasz Kaiser acredita: “A inferência vem, na verdade, dos dados; precisamos tornar os dados mais robustos.” Essas discussões apontam para várias direções-chave na arquitetura de IA após o Transformer: computação adaptativa, raciocínio aprimorado, fusão multimodal e utilização de dados mais eficiente.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Aviso do criador do Transformer: AI presa na arquitetura original, Jen-Hsun Huang incentiva sete autores a encontrar uma solução.
Em 2017, o artigo “Attention is All You Need” surgiu, introduzindo pela primeira vez o modelo Transformer baseado em mecanismos de autoatenção, libertando-se das limitações das RNNs e CNNs tradicionais e superando efetivamente o problema da dependência de longo alcance através do processamento paralelo. No GTC de 2024, o CEO da Nvidia, Jen-Hsun Huang, convidou os sete autores do Transformer para uma aparição coletiva.
Transformer origina-se da dificuldade de eficiência na tradução automática
(Fonte: NVIDIA)
Jen-Hsun Huang perguntou quais problemas foram encontrados inicialmente e o que inspirou a equipe a criar o Transformer. Illia Polosukhin respondeu: “Se você quer lançar um modelo que realmente possa ler os resultados de pesquisa, como lidar com pilhas de documentos, você precisa de um modelo que possa processar essas informações rapidamente. As redes neurais recorrentes (RNN) da época não conseguiam atender a essa demanda.”
Jakob Uszkoreit acrescentou: “A velocidade com que geramos dados de treinamento supera em muito a capacidade dos nossos arquiteturas mais avançadas. Na verdade, estamos usando arquiteturas mais simples, como redes neurais feedforward que utilizam n-gram como características de entrada. Essas arquiteturas, pelo menos com os grandes volumes de dados de treinamento do Google, geralmente superam modelos mais complexos e avançados devido à sua velocidade de treinamento mais rápida.”
Noam Shazeer forneceu uma visão crucial: “Parece que este é um problema que precisa ser resolvido. Começamos a notar essas leis de scaling por volta de 2015, você pode ver que à medida que o tamanho do modelo aumenta, seu nível de inteligência também aumenta. E uma grande frustração é que o RNN é realmente muito complicado de lidar. Então, por acaso, ouvi esses caras discutindo, ei, vamos substituí-lo por convolução ou mecanismos de atenção. Eu pensei, ótimo, vamos fazer isso. Eu gosto de comparar o Transformer com o salto da máquina a vapor para o motor de combustão interna. Poderíamos ter completado a revolução industrial com a máquina a vapor, mas isso teria sido muito doloroso, enquanto o motor de combustão interna torna tudo melhor.”
Os três principais problemas resolvidos pelo Transformer
Processamento paralelo: livrar-se das limitações de processamento sequencial das RNNs e alcançar computação verdadeiramente paralela.
Dependência de longo alcance: Captura efetivamente as relações entre vocabulários distantes através de um mecanismo de autoatenção.
Eficiência de Treinamento: Aumenta significativamente a velocidade de treinamento do modelo, tornando possível o pré-treinamento em grande escala.
Esses avanços tecnológicos tornaram o Transformer a pedra angular da IA moderna. Modelos de linguagem de grande escala como ChatGPT, BERT e GPT-4 são todos baseados na arquitetura Transformer. No entanto, sete anos depois, os criadores acreditam que é hora de um novo avanço.
preso no dilema de eficiência do modelo original
Aidan Gomez afirmou: “Acredito que o mundo precisa de algo melhor do que o Transformer, e acho que todos nós aqui desejamos que isso seja substituído por alguma coisa, levando-nos a um novo pico de desempenho.” Llion Jones acrescentou: “Estamos presos a modelos primitivos, embora tecnicamente não sejam as coisas mais poderosas que temos agora. Mas todos sabem que tipo de ferramenta pessoal desejam, vocês querem fazer melhores janelas de contexto, vocês querem uma capacidade de geração de tokens mais rápida. Eles agora estão usando muitos recursos computacionais. Acredito que todos nós fizemos muitos cálculos desperdiçados.”
Jakob Uszkoreit apontou o problema central: “Mas eu acho que isso se trata principalmente de como alocar recursos, e não de quanto recurso foi consumido no total. Por exemplo, não queremos gastar muito dinheiro em um problema fácil, ou gastar muito pouco em um problema muito difícil e acabar sem uma solução.”
Illia Polosukhin forneceu um exemplo vívido: “Este exemplo é como 2+2, se você o inserir corretamente neste modelo, ele usará um trilhão de parâmetros. Portanto, eu acho que a computação adaptativa é uma das coisas que deve surgir a seguir, sabemos quanto recurso computacional deve ser gasto em problemas específicos.” Esta crítica revela a falha fundamental dos modelos de IA atuais: a falta de adaptabilidade, investindo os mesmos recursos computacionais em problemas simples e complexos, resultando em um enorme desperdício.
Noam Shazeer analisou do ponto de vista econômico: “Eu acho que o modelo atual é muito econômico e ainda é muito pequeno. O custo de cálculo por operação é de cerca de 10 a 18 dólares. Se você observar um modelo com quinhentos bilhões de parâmetros, e cada token realiza um trilhão de cálculos, isso seria cerca de um dólar por milhão de tokens, o que é 100 vezes mais barato do que sair e comprar um livro de capa mole e lê-lo.” Este ponto de vista é contraintuitivo, mas profundo: a IA atualmente é muito barata, fazendo com que as pessoas abusem em vez de valorizarem os recursos computacionais.
Direção Futura: Computação Adaptativa e Capacidade de Inferência
Lukasz Kaiser revelou um fato importante: “Não tivemos sucesso no nosso objetivo inicial, a intenção ao começar o Transformer era simular o processo de evolução dos Tokens. Não se trata apenas de um processo de geração linear, mas sim da evolução gradual de texto ou código.” Esta confissão mostra que, embora o Transformer tenha sido bem-sucedido, não concretizou completamente a visão de seus criadores.
Jakob Uszkoreit apontou a próxima direção: “O próximo passo é a inferência. Todos nós reconhecemos a importância da inferência, mas muito do trabalho ainda é feito manualmente por engenheiros. Esperamos que o modelo possa gerar o conteúdo que desejamos, seja em vídeo, texto ou mensagens 3D, todos eles devem ser integrados.” Isso sugere que a arquitetura de IA no futuro precisará de uma capacidade de inferência mais forte e de uma integração multimodal.
Aidan Gomez acrescentou: “Podemos alcançar a paralelização multitarefa e multicanal? Se realmente deseja construir um modelo assim, ajude-nos a projetar um modelo assim, essa é uma ótima maneira.” Lukasz Kaiser acredita: “A inferência vem, na verdade, dos dados; precisamos tornar os dados mais robustos.” Essas discussões apontam para várias direções-chave na arquitetura de IA após o Transformer: computação adaptativa, raciocínio aprimorado, fusão multimodal e utilização de dados mais eficiente.