Grok 4.1 Nouvelle arrivée : réduction des illusions AI par 3, compréhension émotionnelle et écriture créative entièrement mises à niveau

ChainNewsAbmedia

2025-11-18 13:24:04

xAI a annoncé le 17/11 que son dernier modèle Grok 4.1 est désormais accessible à tous les utilisateurs, y compris sur grok.com, Twitter (X), ainsi que sur les applications iOS et Android. xAI indique que cette mise à jour se concentre sur “l'utilité dans le monde réel”, y compris une meilleure compréhension des émotions, une expression de personnalité plus naturelle, une créativité accrue et un taux d'illusion réduit, tout en conservant les capacités de raisonnement et la stabilité de l'ancien Grok 4.

Le taux de victoire du test secret est proche de 65%, Grok 4.1 confirme le lancement complet.

xAI effectuera un test secret de deux semaines du 1er au 14 novembre, en intégrant un petit pourcentage de la version bêta de Grok 4.1 dans le trafic réel de Grok.com, X et l'application mobile, et en comparant directement avec le modèle précédent Grok 4 grâce à un “test à l'aveugle”.

xAI indique que lors des tests à l'aveugle, l'indice de préférence de Grok 4.1 sur le trafic réel est de 64,78 %, surpassant clairement Grok 4, et annonce qu'il sera officiellement ouvert à tous les utilisateurs le 17/11. Il indique également qu'à partir de maintenant, tous les utilisateurs pourront utiliser Grok 4.1. Tant que l'utilisateur active le mode Auto, il utilisera automatiquement Grok 4.1, et l'utilisateur peut également le sélectionner lui-même dans le menu des modèles.

Grok 4.1 Les trois principaux points techniques à voir en un seul coup d'œil

Grok 4.1 Points techniques 1 : Nouvelle architecture d'apprentissage renforcé, permettant des réponses plus naturelles et mieux comprises par l'humain.

La mise à niveau principale de Grok 4.1 provient de l'utilisation de la même « infrastructure d'apprentissage renforcé à grande échelle » que Grok 4, mais cette fois-ci en introduisant de nouvelles méthodes permettant au modèle d'optimiser automatiquement les réponses à une échelle plus grande. Cette formation se concentre principalement sur la qualité des réponses non vérifiables, telles que le ton, la cohérence du personnage, l'interaction émotionnelle, la compréhension des intentions, etc., qui ne peuvent pas être directement évaluées uniquement sur la base des données.

Pour résoudre ce problème, xAI a utilisé le « modèle de raisonnement de pointe » comme modèle de récompense (Reward Model), permettant à ces IA dotées de capacités de raisonnement profond d'évaluer automatiquement les réponses de Grok 4.1 et d'apprendre par elles-mêmes ce qui constitue une meilleure réponse, plus conforme aux attentes humaines, à travers de nombreuses comparaisons, et d'apporter des ajustements. Ainsi, Grok 4.1 a clairement amélioré son ton, sa personnalité, ses émotions et son interaction naturelle, tout en maintenant ses capacités de raisonnement et sa stabilité d'origine.

Grok 4.1 Points Techniques 2 : Évaluation à l'aveugle atteignant le sommet, compréhension des émotions et créativité considérablement améliorées.

xAI a également publié plusieurs résultats de tests, montrant que Grok 4.1 a connu des améliorations significatives dans plusieurs tests de compétence.

Sur la plateforme de combat en ligne mondiale LMArena :

Grok 4.1 Thinking est classé premier mondial avec 1483 Elo.

Grok 4.1 Non-Pensant est classé deuxième avec 1465 Elo, surpassant même d'autres modèles en termes de « mode de raisonnement complet ».

Test de compréhension émotionnelle (EQ-Bench 3) : utilisant 45 situations difficiles et 3 tours d'interaction, noté par Claude Sonnet 3.7. Grok 4.1 a montré une amélioration significative dans des domaines tels que l'empathie, l'insight émotionnel et la compréhension interpersonnelle.

Capacité d'écriture créative (Creative Writing v3) : Lors d'un test d'écriture de 32 questions × 3 tours, Grok 4.1 a obtenu des scores plus élevés en style créatif, qualité narrative et fluidité de l'histoire, et a présenté plusieurs exemples de réponses.

Dans l'ensemble, Grok 4.1 ne se contente pas d'améliorer les capacités de raisonnement, mais présente également des améliorations notables en matière d'« interaction émotionnelle » et de « créativité ».

D'après le graphique, Grok 4.1 se classe parmi les trois premiers en termes de classement général des modèles d'inférence, de compréhension des émotions et d'écriture créative.

(Note : Elo, qui signifie que Grok 4.1 a un score de puissance sur la plateforme de test à l'aveugle mondiale LMArena, utilise le système de classement Elo, à l'origine conçu pour les échecs, pour évaluer la qualité des réponses du modèle. )

Grok 4.1 Points techniques 3 : Réduction de l'illusion AI par 3 fois, sources d'informations plus fiables

Concernant les questions courantes de consultation d'informations, xAI souligne que le taux d'illusion de Grok 4.1 a nettement diminué. Auparavant, le mode rapide de Gork (Non-Reasoning) avait tendance à produire des illusions en raison d'une profondeur de raisonnement insuffisante, mais dans la formation après 4.1, xAI a clairement amélioré ce problème. Les méthodes de validation de xAI incluent :

Effectuer des tests d'échantillonnage à partir des questions posées par les utilisateurs dans des situations réelles, qui apparaissent réellement sur la plateforme.

Comparer les différences de réponses entre Grok 4.1 et l'ancien modèle.

Évaluer la performance sur FActScore.

Les résultats montrent que la nouvelle version a clairement réduit le taux d'hallucination lors de la recherche de faits et de la réponse à des questions d'information, rendant les réponses plus stables et plus fiables. Cela rend Grok 4.1 plus pratique et plus précis dans les scénarios de “réponse rapide” et de “recherche d'informations” par rapport à la version précédente.

D'après le graphique, le taux d'illusions de Grok 4.1 a diminué de 12,09 % à 4,22 %, soit environ trois fois moins. Le score de vérification des faits (FActScore) est également passé de 9,89 % à 2,97 %, ce qui indique une amélioration significative de la précision de Grok 4.1.

(Note : FActScore est un test public composé de 500 questions de biographie de personnes réelles, utilisé pour évaluer les performances du modèle en matière de recherche de faits, de jugement de précision et de cohérence des réponses, pouvant être appelé évaluation de la véracité des faits. )

(Les 5 principaux modèles de langage AI 2025 expliqués en détail, y compris les paiements, les applications et la sécurité, à comprendre en un coup d'œil (

Cet article Grok 4.1 est maintenant disponible : les illusions d'IA diminuent de 3 fois, la compréhension émotionnelle et l'écriture créative sont complètement améliorées. Apparue pour la première fois dans Chain News ABMedia.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.