xAI anunció el 17/11 que su último modelo Grok 4.1 ya está disponible para todos los usuarios, incluyendo grok.com, Twitter (X) y las aplicaciones de iOS y Android. xAI indicó que esta actualización se centra en la “utilidad en el mundo real”, que incluye una mejor comprensión emocional, una expresión de personalidad más natural, una mayor creatividad y una menor tasa de alucinaciones, al mismo tiempo que conserva la capacidad de razonamiento y estabilidad del anterior Grok 4.
La tasa de éxito de la prueba secreta es cercana al 65%, Grok 4.1 confirma el lanzamiento completo.
xAI realizará una prueba secreta de dos semanas del 1 al 14 de noviembre, introduciendo en una pequeña proporción la versión beta de Grok 4.1 en el tráfico real de Grok.com, X y la aplicación móvil, y comparando directamente con el modelo anterior Grok 4 a través de una “prueba ciega”.
xAI indica que durante las pruebas ciegas, el índice de preferencia de Grok 4.1 en tráfico real es del 64.78%, superando claramente a Grok 4, y anuncia que estará disponible oficialmente para todos los usuarios a partir del 17/11. También indica que a partir de ahora, todos los usuarios podrán utilizar Grok 4.1. Siempre que el usuario active el modo Auto, se utilizará automáticamente Grok 4.1, y el usuario también puede elegirlo por sí mismo en el menú de modelos.
Grok 4.1 Tres grandes puntos destacados de la tecnología en un vistazo
Grok 4.1 Puntos destacados técnicos 1: Nueva arquitectura de aprendizaje reforzado que permite respuestas más naturales y comprensivas.
La actualización central de Grok 4.1 proviene de la utilización de la “infraestructura de aprendizaje reforzado a gran escala” que es la misma que la de Grok 4, pero esta vez se introducen nuevos métodos que permiten al modelo optimizar automáticamente las respuestas a una mayor escala. Esta formación se centra principalmente en la calidad de las respuestas no verificables, como el tono, la consistencia del personaje, la interacción emocional, la comprensión de la intención, etc., que no pueden ser evaluadas directamente solo con datos.
Para resolver este problema, xAI utilizó el “modelo de razonamiento de vanguardia” como modelo de recompensa (Reward Model), permitiendo que estas IA con capacidades de razonamiento profundo evalúen automáticamente las respuestas de Grok 4.1, y aprendan por sí mismas, a través de una gran cantidad de comparaciones, qué respuestas son mejores y más alineadas con las expectativas humanas, y realicen ajustes. Por lo tanto, Grok 4.1 ha mejorado notablemente en tono, personalidad, emoción y naturalidad de la interacción, mientras que mantiene su capacidad de razonamiento y estabilidad originales.
Grok 4.1 Puntos destacados técnicos 2: Evaluación ciega completamente en la cima, comprensión emocional y creatividad mejoradas significativamente.
xAI también publicó múltiples resultados de pruebas, mostrando que Grok 4.1 ha mejorado notablemente en varias pruebas de capacidad.
En la plataforma de combate ciego global LMArena:
Grok 4.1 Thinking clasificado número uno en el mundo con 1483 Elo.
Grok 4.1 Non-Thinking clasificado segundo con 1465 Elo, incluso superando el “modo de razonamiento completo” de otros modelos.
Prueba de comprensión emocional ( EQ-Bench 3): utiliza 45 situaciones de alta dificultad y 3 rondas de interacción, evaluadas por Claude Sonnet 3.7. Grok 4.1 ha mostrado mejoras significativas en empatía, percepción emocional y comprensión interpersonal.
Capacidad de escritura creativa (Creative Writing v3): En una prueba de escritura de 32 preguntas × 3 rondas, Grok 4.1 obtuvo puntuaciones más altas en estilo creativo, calidad narrativa y fluidez de la historia, y la oficina mostró múltiples ejemplos de respuestas.
En general, Grok 4.1 no solo ha mejorado en capacidad de razonamiento, sino que también ha tenido una mejora notable en “interacción emocional” y “capacidad creativa”.
De la imagen se puede observar que Grok 4.1 ocupa los tres primeros lugares en clasificación de modelos de razonamiento, comprensión emocional y escritura creativa.
(Nota: Elo, que significa Grok 4.1 en la plataforma de pruebas ciegas global LMArena, es la puntuación de poder, utilizando el sistema de clasificación Elo originalmente utilizado en el ajedrez para evaluar la calidad de las respuestas del modelo. )
Grok 4.1 Puntos destacados técnicos 3: La ilusión de IA disminuye 3 veces, las fuentes de información son más confiables
Para las preguntas comunes de consulta de información, xAI enfatiza que la tasa de alucinaciones de Grok 4.1 ha disminuido significativamente. Anteriormente, el modo rápido de Gork (Non-Reasoning) solía presentar alucinaciones debido a la falta de profundidad en el razonamiento, pero en el entrenamiento posterior de 4.1, xAI ha abordado claramente este problema. Los métodos de validación de xAI incluyen:
Realizar pruebas de muestreo a partir de las preguntas que los usuarios hacen en situaciones reales, que realmente aparecen en la plataforma.
Comparar las diferencias en las respuestas entre Grok 4.1 y el modelo anterior.
Evaluar el rendimiento en FActScore.
Los resultados muestran que la nueva versión tiene una tasa de alucinación claramente reducida al consultar hechos y responder preguntas informativas, con respuestas más estables y confiables. Esto hace que Grok 4.1 sea más práctico y preciso en los escenarios de “respuesta rápida” y “búsqueda de información” en comparación con la versión anterior.
A partir de la imagen, se puede observar que la tasa de alucinaciones de Grok 4.1 disminuyó del 12.09% al 4.22%, lo que representa una reducción de aproximadamente tres veces. La puntuación de verificación de hechos (FActScore) también disminuyó del 9.89% al 2.97%, lo que indica que la precisión de Grok 4.1 ha mejorado significativamente.
( Nota: FActScore es una prueba pública compuesta por 500 preguntas de biografía de personas reales, utilizada para evaluar el rendimiento del modelo en la búsqueda de hechos, la determinación de la exactitud y la consistencia de las respuestas, lo que se puede denominar puntuación de verificación de hechos. )
( Los 5 principales modelos de lenguaje de IA 2025: análisis completo de LLM, pago, aplicaciones y seguridad, todo en un vistazo (
Este artículo presenta Grok 4.1: ilusiones de IA reducidas en 3 veces, comprensión emocional y escritura creativa completamente mejoradas. Apareció por primera vez en Chain News ABMedia.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Grok 4.1 nuevo lanzamiento: AI ilusión reducida 3 veces, comprensión emocional y escritura creativa completamente mejoradas
xAI anunció el 17/11 que su último modelo Grok 4.1 ya está disponible para todos los usuarios, incluyendo grok.com, Twitter (X) y las aplicaciones de iOS y Android. xAI indicó que esta actualización se centra en la “utilidad en el mundo real”, que incluye una mejor comprensión emocional, una expresión de personalidad más natural, una mayor creatividad y una menor tasa de alucinaciones, al mismo tiempo que conserva la capacidad de razonamiento y estabilidad del anterior Grok 4.
La tasa de éxito de la prueba secreta es cercana al 65%, Grok 4.1 confirma el lanzamiento completo.
xAI realizará una prueba secreta de dos semanas del 1 al 14 de noviembre, introduciendo en una pequeña proporción la versión beta de Grok 4.1 en el tráfico real de Grok.com, X y la aplicación móvil, y comparando directamente con el modelo anterior Grok 4 a través de una “prueba ciega”.
xAI indica que durante las pruebas ciegas, el índice de preferencia de Grok 4.1 en tráfico real es del 64.78%, superando claramente a Grok 4, y anuncia que estará disponible oficialmente para todos los usuarios a partir del 17/11. También indica que a partir de ahora, todos los usuarios podrán utilizar Grok 4.1. Siempre que el usuario active el modo Auto, se utilizará automáticamente Grok 4.1, y el usuario también puede elegirlo por sí mismo en el menú de modelos.
Grok 4.1 Tres grandes puntos destacados de la tecnología en un vistazo
Grok 4.1 Puntos destacados técnicos 1: Nueva arquitectura de aprendizaje reforzado que permite respuestas más naturales y comprensivas.
La actualización central de Grok 4.1 proviene de la utilización de la “infraestructura de aprendizaje reforzado a gran escala” que es la misma que la de Grok 4, pero esta vez se introducen nuevos métodos que permiten al modelo optimizar automáticamente las respuestas a una mayor escala. Esta formación se centra principalmente en la calidad de las respuestas no verificables, como el tono, la consistencia del personaje, la interacción emocional, la comprensión de la intención, etc., que no pueden ser evaluadas directamente solo con datos.
Para resolver este problema, xAI utilizó el “modelo de razonamiento de vanguardia” como modelo de recompensa (Reward Model), permitiendo que estas IA con capacidades de razonamiento profundo evalúen automáticamente las respuestas de Grok 4.1, y aprendan por sí mismas, a través de una gran cantidad de comparaciones, qué respuestas son mejores y más alineadas con las expectativas humanas, y realicen ajustes. Por lo tanto, Grok 4.1 ha mejorado notablemente en tono, personalidad, emoción y naturalidad de la interacción, mientras que mantiene su capacidad de razonamiento y estabilidad originales.
Grok 4.1 Puntos destacados técnicos 2: Evaluación ciega completamente en la cima, comprensión emocional y creatividad mejoradas significativamente.
xAI también publicó múltiples resultados de pruebas, mostrando que Grok 4.1 ha mejorado notablemente en varias pruebas de capacidad.
En la plataforma de combate ciego global LMArena:
Grok 4.1 Thinking clasificado número uno en el mundo con 1483 Elo.
Grok 4.1 Non-Thinking clasificado segundo con 1465 Elo, incluso superando el “modo de razonamiento completo” de otros modelos.
Prueba de comprensión emocional ( EQ-Bench 3): utiliza 45 situaciones de alta dificultad y 3 rondas de interacción, evaluadas por Claude Sonnet 3.7. Grok 4.1 ha mostrado mejoras significativas en empatía, percepción emocional y comprensión interpersonal.
Capacidad de escritura creativa (Creative Writing v3): En una prueba de escritura de 32 preguntas × 3 rondas, Grok 4.1 obtuvo puntuaciones más altas en estilo creativo, calidad narrativa y fluidez de la historia, y la oficina mostró múltiples ejemplos de respuestas.
En general, Grok 4.1 no solo ha mejorado en capacidad de razonamiento, sino que también ha tenido una mejora notable en “interacción emocional” y “capacidad creativa”.
De la imagen se puede observar que Grok 4.1 ocupa los tres primeros lugares en clasificación de modelos de razonamiento, comprensión emocional y escritura creativa.
(Nota: Elo, que significa Grok 4.1 en la plataforma de pruebas ciegas global LMArena, es la puntuación de poder, utilizando el sistema de clasificación Elo originalmente utilizado en el ajedrez para evaluar la calidad de las respuestas del modelo. )
Grok 4.1 Puntos destacados técnicos 3: La ilusión de IA disminuye 3 veces, las fuentes de información son más confiables
Para las preguntas comunes de consulta de información, xAI enfatiza que la tasa de alucinaciones de Grok 4.1 ha disminuido significativamente. Anteriormente, el modo rápido de Gork (Non-Reasoning) solía presentar alucinaciones debido a la falta de profundidad en el razonamiento, pero en el entrenamiento posterior de 4.1, xAI ha abordado claramente este problema. Los métodos de validación de xAI incluyen:
Realizar pruebas de muestreo a partir de las preguntas que los usuarios hacen en situaciones reales, que realmente aparecen en la plataforma.
Comparar las diferencias en las respuestas entre Grok 4.1 y el modelo anterior.
Evaluar el rendimiento en FActScore.
Los resultados muestran que la nueva versión tiene una tasa de alucinación claramente reducida al consultar hechos y responder preguntas informativas, con respuestas más estables y confiables. Esto hace que Grok 4.1 sea más práctico y preciso en los escenarios de “respuesta rápida” y “búsqueda de información” en comparación con la versión anterior.
A partir de la imagen, se puede observar que la tasa de alucinaciones de Grok 4.1 disminuyó del 12.09% al 4.22%, lo que representa una reducción de aproximadamente tres veces. La puntuación de verificación de hechos (FActScore) también disminuyó del 9.89% al 2.97%, lo que indica que la precisión de Grok 4.1 ha mejorado significativamente.
( Nota: FActScore es una prueba pública compuesta por 500 preguntas de biografía de personas reales, utilizada para evaluar el rendimiento del modelo en la búsqueda de hechos, la determinación de la exactitud y la consistencia de las respuestas, lo que se puede denominar puntuación de verificación de hechos. )
( Los 5 principales modelos de lenguaje de IA 2025: análisis completo de LLM, pago, aplicaciones y seguridad, todo en un vistazo (
Este artículo presenta Grok 4.1: ilusiones de IA reducidas en 3 veces, comprensión emocional y escritura creativa completamente mejoradas. Apareció por primera vez en Chain News ABMedia.