A mais recente pesquisa do MIT oferece uma inspiração interessante: quando se trata de lidar com sequências de tokens que ultrapassam dezenas de milhões, a solução de desempenho ótimo não é simplesmente acumular capacidades nos pesos do modelo — mas sim separar a lógica de cálculo central para um ambiente estruturado externo. No caso de ambientes de execução de código, esse é um exemplo prático dessa abordagem.
Sob uma nova perspectiva, o suporte ao conhecimento e ao raciocínio está passando por uma transformação. Antes, pensávamos que os pesos do modelo eram o recipiente de tudo, mas essa pesquisa mostra que, quando a escala é suficientemente grande, a verdadeira emergência da inteligência ocorre naquelas estruturas externas cuidadosamente projetadas — aquelas estruturas geométricas. O significado por trás disso é bastante profundo: as arquiteturas de IA do futuro podem se parecer cada vez mais com engenharia, dependendo mais de um design de sistema engenhoso do que do mero tamanho do modelo.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
6 gostos
Recompensa
6
5
Republicar
Partilhar
Comentar
0/400
TxFailed
· 20h atrás
Este ponto de vista realmente captou algo. Sempre achei que estamos a percorrer demasiado tempo na estrada do "esforço intenso para alcançar milagres", sempre a pensar em acumular parâmetros e dados, mas o verdadeiro gargalo está na arquitetura do sistema. A ideia de um ambiente estruturado externo lembra um pouco a intuição da engenharia de software tradicional — problemas complexos não são resolvidos apenas com força bruta de um módulo único, mas sim com combinações e designs engenhosos.
Só tenho uma dúvida, como é que neste estudo o "quadro externo" mede especificamente a eficiência? Por exemplo, qual é a compensação entre o ambiente de execução do código e a inferência de modelos ponta a ponta, em termos de atraso real e custos? Parece que essa é a verdadeira chave para uma implementação prática.
Ver originalResponder0
screenshot_gains
· 20h atrás
Este ângulo realmente atualiza a compreensão. Antes, sempre pensei que a lei de escalonamento fosse apenas empilhar parâmetros, mas não esperava que o gargalo estivesse no design da arquitetura. Com um contexto longo, descarregar a inferência para um ambiente externo, isso não é uma desconstrução do próprio modelo? Parece que a competição futura mudará de quem tem o modelo maior para quem consegue projetar um sistema mais elegante. É um pouco como uma mudança de uma competição de poder de cálculo bruto para uma era de estética de engenharia.
Ver originalResponder0
StableCoinKaren
· 20h atrás
Este ângulo realmente merece reflexão. Mas quero perguntar, a complexidade do design do quadro externo não é essencialmente uma "empilhamento" também, só que o objeto do empilhamento mudou de pesos para a arquitetura do sistema? Parece mais um trade-off do que uma inovação fundamental — transferir o problema do nível do modelo para o nível da engenharia, no final das contas ainda é preciso gastar tempo para otimizar essas estruturas externas. Gostaria de saber se minha compreensão está equivocada.
Ver originalResponder0
HodlTheDoor
· 20h atrás
Essa abordagem realmente revolucionou o nosso quadro de referência anterior. Antes estávamos focados em aumentar a quantidade de parâmetros, mas agora parece que o design de sistemas externos é a chave, parece uma mudança de paradigma de empilhar para arquitetar. Mas estou bastante curioso: qual é a manutenibilidade e o custo dessa solução de separação para frameworks externos na implementação prática? Afinal, embora os pesos sejam "pesados", pelo menos são uma caixa preta unificada, enquanto um ambiente estruturado mal projetado pode facilmente se tornar um gargalo de desempenho. A tese do MIT tem algum dado comparativo sobre esse aspecto?
Ver originalResponder0
GasFeeTherapist
· 20h atrás
Essa abordagem realmente mudou a minha percepção sobre grandes modelos. Antes, achava que era preciso buscar um maior número de parâmetros, mas agora parece que essa estratégia pode estar errada. Externalizar a lógica de cálculo para um ambiente estruturado soa como uma mudança de mentalidade de memória overflow para armazenamento em disco — o problema não está na capacidade, mas em como organizar. O exemplo do ambiente de execução de código é especialmente revelador; o modelo em si não precisa "entender" como executar o código, basta fazer uma coordenação correta. Pensando assim, no futuro talvez nem seja necessário continuar na corrida armamentista de quantidade de parâmetros, e sim que as equipes que conseguirem projetar a estrutura mais eficiente serão as vencedoras.
A mais recente pesquisa do MIT oferece uma inspiração interessante: quando se trata de lidar com sequências de tokens que ultrapassam dezenas de milhões, a solução de desempenho ótimo não é simplesmente acumular capacidades nos pesos do modelo — mas sim separar a lógica de cálculo central para um ambiente estruturado externo. No caso de ambientes de execução de código, esse é um exemplo prático dessa abordagem.
Sob uma nova perspectiva, o suporte ao conhecimento e ao raciocínio está passando por uma transformação. Antes, pensávamos que os pesos do modelo eram o recipiente de tudo, mas essa pesquisa mostra que, quando a escala é suficientemente grande, a verdadeira emergência da inteligência ocorre naquelas estruturas externas cuidadosamente projetadas — aquelas estruturas geométricas. O significado por trás disso é bastante profundo: as arquiteturas de IA do futuro podem se parecer cada vez mais com engenharia, dependendo mais de um design de sistema engenhoso do que do mero tamanho do modelo.