Скануйте, щоб завантажити додаток Gate
qrCode
Більше варіантів завантаження
Не нагадувати сьогодні

Grok 4.1 новинка: AI ілюзія знижена в 3 рази, розуміння емоцій та креативне письмо повністю оновлені

xAI оголосила 17 листопада, що остання модель Grok 4.1 тепер офіційно доступна для всіх користувачів, включаючи grok.com, Twitter (X), а також iOS, Android App. xAI заявляє, що це оновлення зосереджене на «реальній доступності», включаючи більш сильне розуміння емоцій, більш природну поведінку особистості, вищу творчість та нижчий рівень ілюзій, одночасно зберігаючи попередні можливості міркування та стабільність Grok 4.

Секретне тестування показало ймовірність перемоги близько 65%, Grok 4.1 підтверджено повноцінний запуск

xAI зараз проводить двотижневе секретне тестування з 11/1 по 11/14, впроваджуючи тестову версію Grok 4.1 в малих обсягах на реальному трафіку Grok.com, X та мобільного додатка, а також проводячи “сліпе тестування” в порівнянні з попередньою моделлю Grok 4.

xAI заявляє, що під час сліпого тестування індекс переваги Grok 4.1 на реальному трафіку становить 64,78%, що явно перевищує Grok 4, і оголошує про офіційний запуск для всіх користувачів 17 листопада. Також повідомляється, що відтепер усі користувачі можуть користуватися Grok 4.1. Як тільки користувач увімкне режим Auto, він автоматично використовуватиме Grok 4.1, а користувач також може самостійно вибрати в меню моделей.

Grok 4.1 Три основні технологічні особливості в одному місці

Grok 4.1 Технічні особливості 1: абсолютно нова структура підкріпленого навчання, що робить відповіді більш природними та зрозумілими для людей.

Основне оновлення Grok 4.1 базується на використанні такої ж «інфраструктури масштабного підкріпленого навчання», як і Grok 4, але цього разу впроваджено нові методи, які дозволяють моделі автоматично оптимізувати відповіді на ще більшому масштабі. Це навчання в основному зосереджено на невизначеній якості відповідей, таких як тон, узгодженість персонажів, емоційна взаємодія, розуміння намірів тощо, які не можна оцінити лише на основі даних.

Щоб вирішити цю проблему, xAI використовує «модель передового висновку» як модель винагороди (Reward Model), дозволяючи цим AI з глибокими здатностями до висновків автоматично оцінювати відповіді Grok 4.1 та самостійно навчатися на основі великої кількості порівнянь, що є кращими та більш відповідають очікуванням людей, і вносити корективи. Таким чином, Grok 4.1 значно покращився в тонах, особистості, емоціях і природності взаємодії, водночас зберігаючи свою початкову здатність до висновків і стабільність.

Grok 4.1 Технічні переваги 2: Повне досягнення в сліпому тестуванні, значне підвищення розуміння емоцій та творчих здібностей

xAI також оприлюднив кілька результатів тестування, які показують, що Grok 4.1 має помітне покращення в багатьох тестах здібностей.

На глобальній платформі LMArena для сліпих тестів та битв:

Grok 4.1 Thinking займає перше місце у світі з рейтингом 1483 Elo.

Grok 4.1 Non-Thinking займає друге місце з рейтингом 1465 Elo, навіть перевершуючи інші моделі “повного режиму міркування”.

Тест на розуміння емоцій (EQ-Bench 3): використовує 45 складних сценаріїв і 3 раунди взаємодії, оцінюється Claude Sonnet 3.7. Grok 4.1 продемонстрував значне покращення в таких аспектах, як емпатія, емоційне сприйняття та міжособистісне розуміння.

Креативні навички письма (Creative Writing v3): У тесті на написання з 32 питань × 3 раунди, Grok 4.1 отримав вищі бали за стилем написання, якістю нарації та плавністю історії, офіційно продемонстровано кілька зразків відповідей.

В цілому, Grok 4.1 не тільки покращив свої здібності до міркування, але також зазнав помітного оновлення в сферах «емоційної взаємодії» та «творчих здібностей».

З малюнка видно, що Grok 4.1 займає перші три місця в порівнянні з інтегрованим рейтингом моделей, розумінням емоцій та креативним письмом.

(Примітка: Elo, що означає, що Grok 4.1 має рейтинг потужності на глобальній платформі сліпого тестування LMArena, використовує оригінальну систему рейтингів Elo, яка застосовується в шахах, для оцінки якості відповідей моделі.)

Grok 4.1 Технічні можливості 3: Зниження ілюзії AI в 3 рази, джерела інформації стали більш надійними

Щодо поширених запитів на інформацію, xAI особливо підкреслює, що рівень ілюзій у Grok 4.1 значно знизився. Раніше швидкий режим Gork (Non-Reasoning) міг легко страждати від недостатньої глибини розумування, що призводило до ілюзій, але в післянавчанні 4.1 xAI чітко зосередився на покращенні цього питання. Методи верифікації xAI включають:

Здійснити вибіркове тестування на основі запитань, які користувачі ставлять у реальних умовах і які дійсно з'являються на платформі.

Порівняти відповіді Grok 4.1 та старої моделі.

Оцінка продуктивності на FActScore.

Результати показують, що у новій версії під час запиту фактів і відповіді на інформаційні питання частота ілюзій помітно знизилася, відповіді стали більш стабільними та надійними. Це робить Grok 4.1 у сценаріях «швидкого відповіді» та «перегляду даних» більш практичним і точним у порівнянні з попередньою версією.

З малюнка видно, що рівень ілюзій Grok 4.1 знизився з 12,09% до 4,22%, що становить приблизно в три рази. Фактична оцінка (FActScore) також знизилася з 9,89% до 2,97%, що свідчить про значне покращення точності Grok 4.1.

(Примітка: FActScore складається з 500 запитань про реальних людей, що є публічним тестом для перевірки продуктивності моделі в пошуку фактів, визначенні правильності та узгодженості відповідей, що можна назвати оцінкою фактичності. )

( 2025 Огляд п'яти основних AI мовних моделей ( LLM ): платні послуги, застосування та безпека в одному місці )

Ця стаття Grok 4.1 новинка: AI ілюзія знизилася в 3 рази, розуміння емоцій та креативне написання повністю оновлені. Вперше з'явилася в Chain News ABMedia.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити