eles aplicam um MLP para projetar tokens visuais do FastViTHD para o mundo do LLM
o resultado: muito menos tokens ( como 4× menos que o FastViT, 16× menos que o ViT‑L/14 a 336‑pixel res). Quero dizer, isso é uma grande diminuição na contagem de tokens e complexidade, enquanto
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
10 Curtidas
Recompensa
10
5
Repostar
Compartilhar
Comentário
0/400
GasFeeLover
· 7h atrás
Assim seja. O que há para se gabar?
Ver originalResponder0
ser_we_are_early
· 7h atrás
Parece que o FastVLM é realmente fantástico!
Ver originalResponder0
BlockchainBard
· 7h atrás
Estou impressionado, fiquei chocado com a quantidade de tokens.
Ver originalResponder0
WhaleWatcher
· 7h atrás
Já estão a fazer coisas novas!
Ver originalResponder0
DiamondHands
· 7h atrás
Ah ah, estou um pouco confuso com o que foi dito...
é aqui que o FastVLM entra em cena
eles aplicam um MLP para projetar tokens visuais do FastViTHD para o mundo do LLM
o resultado: muito menos tokens ( como 4× menos que o FastViT, 16× menos que o ViT‑L/14 a 336‑pixel res). Quero dizer, isso é uma grande diminuição na contagem de tokens e complexidade, enquanto