Google publie l'algorithme TurboQuant : quantification 3 bit des caches KV sans perte de précision, vitesse d'inférence améliorée jusqu'à 8 fois

Gate News, le 25 mars, l'Institut de recherche de Google a publié l'algorithme de compression quantifiée TurboQuant, qui peut compresser le cache KV des grands modèles linguistiques à 3 bits, réduisant l'utilisation de mémoire d'au moins 6 fois, sans nécessiter d'entraînement ou de fine-tuning, tout en préservant la précision du modèle. En mode 4 bits, la vitesse de calcul de l'attention sur le GPU H100 de NVIDIA est jusqu'à 8 fois plus rapide que la ligne de base non quantifiée à 32 bits. L'équipe de recherche a validé TurboQuant sur des benchmarks de contexte long tels que LongBench, Needle In A Haystack, ZeroSCROLLS, en utilisant les modèles Gemma et Mistral, et TurboQuant a obtenu des performances optimales dans tous les tests. Cet algorithme se compose de deux sous-algorithmes : PolarQuant, qui élimine la surcharge mémoire des méthodes de quantification traditionnelles via une transformation en coordonnées polaires, et QJL, qui corrige l'erreur résiduelle avec seulement 1 bit. La recherche a été menée sous la direction d'Amir Zandieh de l'Institut de recherche de Google et du vice-président et Google Fellow Vahab Mirrokni, en collaboration avec KAIST en Corée du Sud et l'Université de New York, et sera présentée à l'ICLR 2026. Google indique que l'une des principales applications de cette technologie est de résoudre le goulot d'étranglement du cache KV dans des modèles tels que Gemini.
Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire