Що може навчити дослідника, коли він стикається з несподіваними змінами у вирішальний момент кар’єри?
Цей професійний поворот на початку 2025 року дав Tian Yuandong можливість переглянути свої вибори через класичну рамку прийняття рішень. Коли його запросили до участі у великому проекті “Аварійний” («Emergency»), цей дослідник, що давно займається дослідженнями підкріпленого навчання, заздалегідь намалював матрицю 2x2, що показує чотири можливі результати. Але реальність дала йому п’яту — результат, що перевищує всі очікування.
Ця несподіванка дала йому глибше розуміння соціальної складності. Однак у ті місяці команда досягла прориву у ключових питаннях підкріпленого навчання: стабільність тренування, взаємодія тренування та розуміння, дизайн архітектури моделі, зв’язок попереднього тренування та проміжного, алгоритми довгого ланцюга логіки, методи генерації даних, дизайн рамки після тренування тощо. Ці досягнення стали важливим зсувом у його подальших дослідженнях.
Tian Yuandong зізнається, що рішення покинути великі компанії вже давно назрівало. Більше десяти років у професійній кар’єрі він неодноразово думав про звільнення — наприкінці 2023 року він майже вдався до цього, але економічні та сімейні обставини змусили його передумати. Останнім часом він жартома говорив, що його поведінка наче натякає компанії, що йому слід звільнитися. Цього разу йому нарешті “допомогли” прийняти рішення.
Цікаво, що цей “зигзаг” у житті став джерелом його креативності. Як каже стара приказка: “Якщо шлях чиновника закритий, поет здобуде свою вигоду; чим багатший життєвий досвід, тим глибшими стають вірші.” Надто гладке життя позбавляє його життєвої напруги.
Він також пам’ятає, що на початку 2021 року, коли у щорічному підсумку він написав кілька рядків про те, чому його статтю не прийняли, він отримав досить недружній відгук. Але він мовчав, навіть роблячи вигляд, що щойно отримав підвищення. Через півроку стало зрозуміло, що цей підхід спрацював: його справді підвищили. А стаття, яка у 2021 році залишалася непоміченою, у липні отримала нагороду за кращу статтю на ICML і стала класикою у галузі навчання за зразками.
Після 22 жовтня всі його канали зв’язку були тимчасово несправні — щодня приходило сотні повідомлень, листів і запрошень на конференції. Понад кілька тижнів він відновлював нормальне життя. Вдячний усім за турботу, хоча визнає, що деякі повідомлення міг і не встигнути відповісти.
Зрештою, за кількома пропозиціями провідних технологічних компаній він обрав приєднатися до нового стартапу у ролі співзасновника. Деталі поки що тримають у секреті, він більше зосереджений на роботі, ніж на ранньому публічному оголошенні.
Карта досліджень 2025 року: три основні напрями
Tian Yuandong чітко окреслив свої дослідницькі маршрути: ефективність логіки великих моделей та можливість інтерпретації моделей.
Послідовне поширене логічне мислення у просторі латентних змінних
Робота з послідовним логічним мисленням у просторі латентних змінних (coconut, COLM’25), опублікована наприкінці 2024 року, викликала широкий резонанс у 2025-му. Уся дослідницька спільнота почала досліджувати: як застосувати цей підхід у підкріпленому навчанні та попередньому тренуванні? Як оптимізувати ефективність тренування та обчислювальні витрати?
Хоча його команда згодом була переведена на інші проекти і не могла глибше розвивати цю лінію, цей напрямок уже довів свою цінність. У першій половині року вони опублікували теоретичний аналіз у статті «Reasoning by Superposition»(NeurIPS’25), у якій строго з математичної точки зору обґрунтували переваги послідовного логічного мислення у просторі латентних змінних порівняно з традиційними методами, здобувши значну увагу.
Багатовимірний прорив у ефективності логіки
Зниження витрат на логіку великих моделей — це системна задача, і команда Tian Yuandong просувалася у кількох напрямках:
Оптимізація на рівні токенів: Token Assorted (ICLR’25), що спочатку навчає дискретні токени у латентному просторі (з допомогою VQVAE), а потім у процесі додаткового тренування змішує ці дискретні токени з текстовими, суттєво знижуючи витрати на логіку та одночасно підвищуючи продуктивність.
Довірливий контроль для завершення логіки: DeepConf визначає рівень довіри кожного згенерованого токена і динамічно вирішує, чи можна завершити логіку раніше, що значно зменшує кількість оброблюваних токенів. У більшості сценаріїв, наприклад, голосування, продуктивність навіть перевищує попередні.
Паралельне тренування ланцюгів логіки: ThreadWeaver створює паралельні ланцюги логіки, а за допомогою додаткового тренування ці ланцюги оптимізуються спільно, що прискорює весь процес.
Крім того, команда досліджувала підкріплене навчання для розвитку логічних здібностей малих моделей (Sandwiched Policy Gradient), і навіть у легких моделях, таких як MobileLLM-R1, досягла здатності до складної логіки.
Пояснюваність: від “чому це працює” до “чому це неминуче”
Інтерес Tian Yuandong до явища Grokking (раптового проникнення у суть) виник два роки тому з основного питання: аналізуючи репрезентаційне навчання, він міг описати динаміку навчання і механізми колапсу, але не міг відповісти на фундаментальне питання — що саме модель фактично навчає? Як ці репрезентації пов’язані з структурою даних? Який рівень узагальнення вони досягають?
Явища Grokking — раптовий перехід від пам’яті до узагальнення — здається, вікно у цю загадку. Початкові дослідження були дуже складними. Робота 2024 року COGS (NeurIPS’25) могла аналізувати лише окремі випадки, і він був цим не цілком задоволений. Після понад року роздумів і багатьох діалогів із GPT, остання робота «Provable Scaling Laws» стала значним проривом: вона здатна аналізувати явища, що виходять за межі лінійної NTK-рамки, і досить добре пояснює механізми появи ознак під час тренування. Хоча приклади залишаються специфічними, це вже відкрило нове вікно.
Остання робота року «The path not taken» — особливо її цінує автор — вона дає попередні відповіді на рівні ваг, пояснюючи, чому поведінка підкріпленого навчання і SFT так різняться.
SFT спричиняє перенавчання і катастрофічне забування, і поверхнева причина — відсутність on-policy характеристик у тренувальних даних, глибша — зовнішні дані викликають значні зміни у головних вагових компонентах, руйнуючи “базову” стабільність. А підкріплене навчання, використовуючи on-policy дані, зберігає ці компоненти незмінними, змінюючи лише другорядні, що запобігає катастрофічному забуванню — і ці зміни ваг більш розподілені (особливо при bf16-квантуванні).
Чому пояснюваність варта довіри
Багато хто вважає, що пояснюваність — питання “чому AI так ефективний” — не настільки важливе. Але для Tian Yuandong це — ключова проблема майбутнього.
Розглянемо два сценарії:
Сценарій один: якщо за допомогою масштабування досягається AGI або навіть ASI, тоді праця людства стане майже безцінною. У цьому випадку AI — величезна чорна скринька, що вирішує всі проблеми. Тоді найактуальніше питання: як гарантувати, що цей суперінтелект завжди буде добрим і не приховуватиме зловмисних намірів? Відповідь — у дослідженнях пояснюваності.
Сценарій два: якщо шлях масштабування зазнає застоїв і людство не зможе задовольнити зростаючі ресурси, тоді потрібно шукати інші шляхи. Тоді питання — чому модель працює, що робить її ефективною і що спричиняє її несправність — стане критичним. А дослідження пояснюваності — основа цього альтернативного шляху.
У будь-якому випадку, пояснюваність — ключ до розв’язання. Навіть якщо AI стане всезнаючим і добрим, людська природа спонукатиме нас з’ясувати, чому воно таке. Адже “чорна скринька” сама по собі породжує підозри.
У часи, коли технології великих моделей досягли або перевищили середній рівень людського, “закон темної ліри” з “Трьох тіл” може проявитися у новій формі. Зараз же відкриття внутрішніх механізмів моделі, її “чорної скриньки”, залишається першочерговим завданням.
Справжня складність пояснюваності полягає у тому, щоб: з першопринципів — з архітектури моделі, градієнтного спуску і внутрішньої структури даних — пояснити, чому модель сходиться до тих розв’язків, що є розв’язаними, розрідженими, низькоранговими, модульними, комбінаційними ознаками. Чому існує так багато рівнозначних пояснень? Які гіперпараметри спричиняють появу цих структур? Як вони взаємопов’язані?
Коли ми зможемо прямо з рівнянь градієнтного спуску вивести необхідність появи ознак у великих моделях, пояснюваність перетвориться з біологічного “збір доказів” у фізичне “виведення з перших принципів”, що стане керівництвом для практики і відкриє нові шляхи у проектуванні майбутнього AI.
Якщо провести аналогію з фізикою чотирьохсотлітньої давнини: тоді були багато Ньютона і Галілея (збирачів даних і гіпотез), але ще не було Ньютона — відкривача законів. Коли цей момент настане, світ зміниться докорінно.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Перехрестя 2025 року: річне роздуми дослідника штучного інтелекту (Перша частина)
Джерело статті: Xinzhiyuan | Редактор: Taozi
Чіткий вибір за плечима професійного повороту
Що може навчити дослідника, коли він стикається з несподіваними змінами у вирішальний момент кар’єри?
Цей професійний поворот на початку 2025 року дав Tian Yuandong можливість переглянути свої вибори через класичну рамку прийняття рішень. Коли його запросили до участі у великому проекті “Аварійний” («Emergency»), цей дослідник, що давно займається дослідженнями підкріпленого навчання, заздалегідь намалював матрицю 2x2, що показує чотири можливі результати. Але реальність дала йому п’яту — результат, що перевищує всі очікування.
Ця несподіванка дала йому глибше розуміння соціальної складності. Однак у ті місяці команда досягла прориву у ключових питаннях підкріпленого навчання: стабільність тренування, взаємодія тренування та розуміння, дизайн архітектури моделі, зв’язок попереднього тренування та проміжного, алгоритми довгого ланцюга логіки, методи генерації даних, дизайн рамки після тренування тощо. Ці досягнення стали важливим зсувом у його подальших дослідженнях.
Tian Yuandong зізнається, що рішення покинути великі компанії вже давно назрівало. Більше десяти років у професійній кар’єрі він неодноразово думав про звільнення — наприкінці 2023 року він майже вдався до цього, але економічні та сімейні обставини змусили його передумати. Останнім часом він жартома говорив, що його поведінка наче натякає компанії, що йому слід звільнитися. Цього разу йому нарешті “допомогли” прийняти рішення.
Цікаво, що цей “зигзаг” у житті став джерелом його креативності. Як каже стара приказка: “Якщо шлях чиновника закритий, поет здобуде свою вигоду; чим багатший життєвий досвід, тим глибшими стають вірші.” Надто гладке життя позбавляє його життєвої напруги.
Він також пам’ятає, що на початку 2021 року, коли у щорічному підсумку він написав кілька рядків про те, чому його статтю не прийняли, він отримав досить недружній відгук. Але він мовчав, навіть роблячи вигляд, що щойно отримав підвищення. Через півроку стало зрозуміло, що цей підхід спрацював: його справді підвищили. А стаття, яка у 2021 році залишалася непоміченою, у липні отримала нагороду за кращу статтю на ICML і стала класикою у галузі навчання за зразками.
Після 22 жовтня всі його канали зв’язку були тимчасово несправні — щодня приходило сотні повідомлень, листів і запрошень на конференції. Понад кілька тижнів він відновлював нормальне життя. Вдячний усім за турботу, хоча визнає, що деякі повідомлення міг і не встигнути відповісти.
Зрештою, за кількома пропозиціями провідних технологічних компаній він обрав приєднатися до нового стартапу у ролі співзасновника. Деталі поки що тримають у секреті, він більше зосереджений на роботі, ніж на ранньому публічному оголошенні.
Карта досліджень 2025 року: три основні напрями
Tian Yuandong чітко окреслив свої дослідницькі маршрути: ефективність логіки великих моделей та можливість інтерпретації моделей.
Послідовне поширене логічне мислення у просторі латентних змінних
Робота з послідовним логічним мисленням у просторі латентних змінних (coconut, COLM’25), опублікована наприкінці 2024 року, викликала широкий резонанс у 2025-му. Уся дослідницька спільнота почала досліджувати: як застосувати цей підхід у підкріпленому навчанні та попередньому тренуванні? Як оптимізувати ефективність тренування та обчислювальні витрати?
Хоча його команда згодом була переведена на інші проекти і не могла глибше розвивати цю лінію, цей напрямок уже довів свою цінність. У першій половині року вони опублікували теоретичний аналіз у статті «Reasoning by Superposition»(NeurIPS’25), у якій строго з математичної точки зору обґрунтували переваги послідовного логічного мислення у просторі латентних змінних порівняно з традиційними методами, здобувши значну увагу.
Багатовимірний прорив у ефективності логіки
Зниження витрат на логіку великих моделей — це системна задача, і команда Tian Yuandong просувалася у кількох напрямках:
Оптимізація на рівні токенів: Token Assorted (ICLR’25), що спочатку навчає дискретні токени у латентному просторі (з допомогою VQVAE), а потім у процесі додаткового тренування змішує ці дискретні токени з текстовими, суттєво знижуючи витрати на логіку та одночасно підвищуючи продуктивність.
Довірливий контроль для завершення логіки: DeepConf визначає рівень довіри кожного згенерованого токена і динамічно вирішує, чи можна завершити логіку раніше, що значно зменшує кількість оброблюваних токенів. У більшості сценаріїв, наприклад, голосування, продуктивність навіть перевищує попередні.
Паралельне тренування ланцюгів логіки: ThreadWeaver створює паралельні ланцюги логіки, а за допомогою додаткового тренування ці ланцюги оптимізуються спільно, що прискорює весь процес.
Крім того, команда досліджувала підкріплене навчання для розвитку логічних здібностей малих моделей (Sandwiched Policy Gradient), і навіть у легких моделях, таких як MobileLLM-R1, досягла здатності до складної логіки.
Пояснюваність: від “чому це працює” до “чому це неминуче”
Інтерес Tian Yuandong до явища Grokking (раптового проникнення у суть) виник два роки тому з основного питання: аналізуючи репрезентаційне навчання, він міг описати динаміку навчання і механізми колапсу, але не міг відповісти на фундаментальне питання — що саме модель фактично навчає? Як ці репрезентації пов’язані з структурою даних? Який рівень узагальнення вони досягають?
Явища Grokking — раптовий перехід від пам’яті до узагальнення — здається, вікно у цю загадку. Початкові дослідження були дуже складними. Робота 2024 року COGS (NeurIPS’25) могла аналізувати лише окремі випадки, і він був цим не цілком задоволений. Після понад року роздумів і багатьох діалогів із GPT, остання робота «Provable Scaling Laws» стала значним проривом: вона здатна аналізувати явища, що виходять за межі лінійної NTK-рамки, і досить добре пояснює механізми появи ознак під час тренування. Хоча приклади залишаються специфічними, це вже відкрило нове вікно.
Остання робота року «The path not taken» — особливо її цінує автор — вона дає попередні відповіді на рівні ваг, пояснюючи, чому поведінка підкріпленого навчання і SFT так різняться.
SFT спричиняє перенавчання і катастрофічне забування, і поверхнева причина — відсутність on-policy характеристик у тренувальних даних, глибша — зовнішні дані викликають значні зміни у головних вагових компонентах, руйнуючи “базову” стабільність. А підкріплене навчання, використовуючи on-policy дані, зберігає ці компоненти незмінними, змінюючи лише другорядні, що запобігає катастрофічному забуванню — і ці зміни ваг більш розподілені (особливо при bf16-квантуванні).
Чому пояснюваність варта довіри
Багато хто вважає, що пояснюваність — питання “чому AI так ефективний” — не настільки важливе. Але для Tian Yuandong це — ключова проблема майбутнього.
Розглянемо два сценарії:
Сценарій один: якщо за допомогою масштабування досягається AGI або навіть ASI, тоді праця людства стане майже безцінною. У цьому випадку AI — величезна чорна скринька, що вирішує всі проблеми. Тоді найактуальніше питання: як гарантувати, що цей суперінтелект завжди буде добрим і не приховуватиме зловмисних намірів? Відповідь — у дослідженнях пояснюваності.
Сценарій два: якщо шлях масштабування зазнає застоїв і людство не зможе задовольнити зростаючі ресурси, тоді потрібно шукати інші шляхи. Тоді питання — чому модель працює, що робить її ефективною і що спричиняє її несправність — стане критичним. А дослідження пояснюваності — основа цього альтернативного шляху.
У будь-якому випадку, пояснюваність — ключ до розв’язання. Навіть якщо AI стане всезнаючим і добрим, людська природа спонукатиме нас з’ясувати, чому воно таке. Адже “чорна скринька” сама по собі породжує підозри.
У часи, коли технології великих моделей досягли або перевищили середній рівень людського, “закон темної ліри” з “Трьох тіл” може проявитися у новій формі. Зараз же відкриття внутрішніх механізмів моделі, її “чорної скриньки”, залишається першочерговим завданням.
Справжня складність пояснюваності полягає у тому, щоб: з першопринципів — з архітектури моделі, градієнтного спуску і внутрішньої структури даних — пояснити, чому модель сходиться до тих розв’язків, що є розв’язаними, розрідженими, низькоранговими, модульними, комбінаційними ознаками. Чому існує так багато рівнозначних пояснень? Які гіперпараметри спричиняють появу цих структур? Як вони взаємопов’язані?
Коли ми зможемо прямо з рівнянь градієнтного спуску вивести необхідність появи ознак у великих моделях, пояснюваність перетвориться з біологічного “збір доказів” у фізичне “виведення з перших принципів”, що стане керівництвом для практики і відкриє нові шляхи у проектуванні майбутнього AI.
Якщо провести аналогію з фізикою чотирьохсотлітньої давнини: тоді були багато Ньютона і Галілея (збирачів даних і гіпотез), але ще не було Ньютона — відкривача законів. Коли цей момент настане, світ зміниться докорінно.