Четкий выбор за плечами профессионального поворота
Что он узнает, когда исследователь сталкивается с неожиданными переменами в решающий момент своей карьеры?
Этот профессиональный поворот в начале 2025 года дал Тянюаньдуну возможность взглянуть на свои выборы через классическую рамку принятия решений. Когда его пригласили участвовать в крупном проекте “Экстренный”, этот специалист по усиленному обучению AI заранее нарисовал матрицу 2x2, перечислив четыре возможных результата. Но реальность преподнесла ему пятый — результат, превзошедший все ожидания.
Это неожиданное событие дало ему более глубокое понимание социальной сложности. Однако за несколько месяцев работы команда действительно достигла прорыва в ключевых вопросах усиленного обучения: стабильность тренировки, взаимодействие обучения и вывода, дизайн архитектуры модели, связка предварительной и промежуточной тренировки, алгоритмы длинной цепочки рассуждений, методы генерации данных, дизайн рамок пост-тренировки и многое другое. Эти достижения привели к важному сдвигу парадигмы в его последующих исследованиях.
Тянюаньдун признался, что решение покинуть крупную компанию было созревшим уже много лет. За более чем десять лет карьеры он неоднократно думал об уходе — в конце 2023 года чуть было не реализовал это, но экономические и семейные причины заставляли его менять решение. В последние годы он в шутку говорил, что его поведение словно намекает компании, что пора его уволить. Но на этот раз ему наконец “помогли” принять решение.
Интересно, что эта “зигзагообразная” траектория жизни стала для него источником вдохновения. Как говорится в древней пословице: “Если путь чиновника закрыт, поэт получает выгоду; чем богаче жизненный опыт, тем глубже стихи.” Человек с слишком гладкой жизнью, наоборот, лишается внутренней напряженности.
Он помнит, что в начале 2021 года, написав в итоговом отчёте несколько строк о том, почему его статья не приняли, получил довольно недружелюбный отзыв. Но он промолчал, даже делая вид, что только что получил повышение. Полгода спустя этот подход оправдался: его действительно повысили. А статья, которая в начале 2021 года прошла незамеченной, в июле получила награду за лучшую работу на ICML и стала классикой в области обучения с представлением.
После 22 октября все его каналы связи на некоторое время вышли из строя — ежедневно приходило сотни сообщений, писем и приглашений на встречи. Спустя несколько недель он вернулся к нормальной жизни. Благодарит всех за заботу за это время, хотя признает, что некоторые сообщения мог не успеть ответить.
В конце концов, по приглашениям нескольких ведущих технологических компаний он выбрал присоединиться к новому стартапу в качестве соучредителя. Детали пока держит в секрете, предпочитая сосредоточиться на работе, а не рано раскрывать планы.
Карта исследований 2025 года: три основных направления
План исследования Тянюаньдуна очень четкий: эффективность рассуждений больших моделей и объяснимость моделей.
Продолжение работы по диффузии в скрытом пространстве
Работа по непрерывному рассуждению в скрытом пространстве (coconut, COLM’25), опубликованная в конце 2024 года, вызвала широкий отклик в 2025 году. Всё сообщество начало исследовать: как применить этот подход в усиленном обучении и предварительной тренировке? Как оптимизировать эффективность обучения и вычислительные затраты?
Несмотря на то, что его команда позже была переведена на другие проекты и не смогла углубиться в эту линию, сама идея уже доказала свою ценность. В первой половине года они опубликовали теоретический анализ в статье «Reasoning by Superposition»(NeurIPS’25), в которой строго математически обосновали преимущества непрерывного рассуждения в скрытом пространстве по сравнению с традиционными методами, что привлекло значительное внимание.
Многомерные прорывы в эффективности рассуждений
Снижение затрат на рассуждение больших моделей — это системная задача, и команда Тянюаньдуна работает по нескольким направлениям:
Оптимизация на уровне токенов: Token Assorted (ICLR’25) — сначала в скрытом пространстве обучают дискретные токены (с помощью VQVAE), а затем в пост-тренировке смешивают эти дискретные токены с текстовыми, что значительно снижает затраты на рассуждение и одновременно повышает производительность.
Доверие и автоматическое завершение рассуждения: DeepConf определяет уровень доверия к каждому сгенерированному токену и динамически решает, можно ли завершить рассуждение раньше, что значительно сокращает количество используемых токенов. В большинстве сценариев голосования и подобных задач показатели даже превосходят предыдущие.
Параллельное обучение цепочек рассуждений: ThreadWeaver создает параллельные цепочки рассуждений и с помощью пост-тренировки координирует их оптимизацию, ускоряя весь процесс.
Кроме того, команда исследует усиленное обучение для развития рассуждательных способностей на небольших моделях (Sandwiched Policy Gradient), а также реализует сложное рассуждение в легких моделях, таких как MobileLLM-R1.
Объяснимость: от “почему это работает” к “почему обязательно работает”
Интерес Тянюаньдуна к феномену Grokking (внезапное озарение) возник два года назад из-за одной ключевой загадки: при анализе репрезентаций он мог описать динамику обучения и механизмы схлопывания, но не мог ответить на фундаментальный вопрос — что именно модель научилась представлять? Как эти представления связаны со структурой данных? Какой уровень обобщения они достигают?
Феномен Grokking — внезапное превращение памяти в обобщение — кажется, окном в этот тайный механизм. Первоначальные исследования были очень сложными. Работа 2024 года COGS (NeurIPS’25) могла анализировать только особые случаи, что его не полностью устраивало. После более чем года размышлений и многократных диалогов с GPT, последний труд «Provable Scaling Laws» стал значительным прорывом: он способен анализировать явления, недоступные линейному NTK, и хорошо объясняет динамику обучения, лежащую в основе появления признаков. Хотя примеры всё ещё специфичны, это хотя бы открыло новую дверь.
Конечная работа года «The path not taken» — его особое достижение: она дает предварительный ответ на уровне весов, объясняя, почему поведение усиленного обучения и SFT так сильно различается.
SFT вызывает переобучение и катастрофическую забывчивость, потому что на поверхности причина — недостаток on-policy данных, а глубже — внешние данные вызывают сильные изменения в основных весовых компонентах, разрушая “фундаментальную” стабильность. В то время как усиленное обучение использует on-policy данные, сохраняя основные веса, и изменяет только второстепенные, избегая катастрофической забывчивости — причем эти изменения более распределены (особенно при квантовании bf16).
Почему объяснимость заслуживает доверия
Многие считают, что объяснимость — вопрос “почему AI так эффективен” — не столь важен. Но для Тянюаньдуна это — ключевая проблема будущего.
Рассмотрим два сценария:
Сценарий один: если простым масштабированием достигается AGI или даже ASI, то ценность человеческого труда почти исчезает. Тогда AI — огромный черный ящик, решающий все задачи. Самый важный вопрос: как обеспечить, чтобы этот суперразум всегда был добрым, не скрытно обманывал или злоупотреблял? Ответ немыслим без исследований объяснимости.
Сценарий два: если путь масштабирования в конечном итоге зашел в тупик, и человечество не сможет удовлетворить экспоненциальный рост ресурсов, то придется искать другие пути. Тогда важно понять, почему модель работает, что вызывает ее сбои — и это как раз роль объяснимости. Исследования объяснимости — основа этого альтернативного пути.
В любом случае, объяснимость — ключ к разгадке. Даже если AI станет всеведущим и добрым, человеческая природа побудит нас понять, почему оно так умеет. В конце концов, “черный ящик” сам по себе порождает цепочку сомнений.
В эпоху, когда большие модели достигли или превзошли средний уровень человека, “закон темной леса” из “Трех тел” может проявиться в иной форме. Пока что, раскрытие внутренней схемы обученной модели и понимание ее внутренней логики — это начальный этап.
Истинная сложность объяснимости — это: от первопринципов — архитектуры модели, градиентного спуска и внутренней структуры данных — объяснить, почему модель сходится к тем разъемленным, разреженным, низкоранговым, модульным, композиционным признакам. Почему существует так много равнозначных объяснений? Какие гиперпараметры вызывают появление этих структур? Как они связаны между собой?
Когда мы сможем прямо вывести из уравнений градиентного спуска необходимость появления признаков в больших моделях, объяснимость превратится из “сбора доказательств” в “принципиальную дедукцию” в физике, что направит практику и откроет новые пути проектирования следующего поколения AI.
В качестве аналогии — физика четырехсотлетней давности: тогда у нас были Ньюта́н, Кеплер и Тихо Брасс (сборщики данных), но не было Ньютона (открывателя принципов). Когда этот момент настанет, мир изменится кардинально.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Переломный момент 2025 года: ежегодные размышления исследователя ИИ (Первая часть)
Источник статьи: Xinzhiyuan | Редактор: Taozi
Четкий выбор за плечами профессионального поворота
Что он узнает, когда исследователь сталкивается с неожиданными переменами в решающий момент своей карьеры?
Этот профессиональный поворот в начале 2025 года дал Тянюаньдуну возможность взглянуть на свои выборы через классическую рамку принятия решений. Когда его пригласили участвовать в крупном проекте “Экстренный”, этот специалист по усиленному обучению AI заранее нарисовал матрицу 2x2, перечислив четыре возможных результата. Но реальность преподнесла ему пятый — результат, превзошедший все ожидания.
Это неожиданное событие дало ему более глубокое понимание социальной сложности. Однако за несколько месяцев работы команда действительно достигла прорыва в ключевых вопросах усиленного обучения: стабильность тренировки, взаимодействие обучения и вывода, дизайн архитектуры модели, связка предварительной и промежуточной тренировки, алгоритмы длинной цепочки рассуждений, методы генерации данных, дизайн рамок пост-тренировки и многое другое. Эти достижения привели к важному сдвигу парадигмы в его последующих исследованиях.
Тянюаньдун признался, что решение покинуть крупную компанию было созревшим уже много лет. За более чем десять лет карьеры он неоднократно думал об уходе — в конце 2023 года чуть было не реализовал это, но экономические и семейные причины заставляли его менять решение. В последние годы он в шутку говорил, что его поведение словно намекает компании, что пора его уволить. Но на этот раз ему наконец “помогли” принять решение.
Интересно, что эта “зигзагообразная” траектория жизни стала для него источником вдохновения. Как говорится в древней пословице: “Если путь чиновника закрыт, поэт получает выгоду; чем богаче жизненный опыт, тем глубже стихи.” Человек с слишком гладкой жизнью, наоборот, лишается внутренней напряженности.
Он помнит, что в начале 2021 года, написав в итоговом отчёте несколько строк о том, почему его статья не приняли, получил довольно недружелюбный отзыв. Но он промолчал, даже делая вид, что только что получил повышение. Полгода спустя этот подход оправдался: его действительно повысили. А статья, которая в начале 2021 года прошла незамеченной, в июле получила награду за лучшую работу на ICML и стала классикой в области обучения с представлением.
После 22 октября все его каналы связи на некоторое время вышли из строя — ежедневно приходило сотни сообщений, писем и приглашений на встречи. Спустя несколько недель он вернулся к нормальной жизни. Благодарит всех за заботу за это время, хотя признает, что некоторые сообщения мог не успеть ответить.
В конце концов, по приглашениям нескольких ведущих технологических компаний он выбрал присоединиться к новому стартапу в качестве соучредителя. Детали пока держит в секрете, предпочитая сосредоточиться на работе, а не рано раскрывать планы.
Карта исследований 2025 года: три основных направления
План исследования Тянюаньдуна очень четкий: эффективность рассуждений больших моделей и объяснимость моделей.
Продолжение работы по диффузии в скрытом пространстве
Работа по непрерывному рассуждению в скрытом пространстве (coconut, COLM’25), опубликованная в конце 2024 года, вызвала широкий отклик в 2025 году. Всё сообщество начало исследовать: как применить этот подход в усиленном обучении и предварительной тренировке? Как оптимизировать эффективность обучения и вычислительные затраты?
Несмотря на то, что его команда позже была переведена на другие проекты и не смогла углубиться в эту линию, сама идея уже доказала свою ценность. В первой половине года они опубликовали теоретический анализ в статье «Reasoning by Superposition»(NeurIPS’25), в которой строго математически обосновали преимущества непрерывного рассуждения в скрытом пространстве по сравнению с традиционными методами, что привлекло значительное внимание.
Многомерные прорывы в эффективности рассуждений
Снижение затрат на рассуждение больших моделей — это системная задача, и команда Тянюаньдуна работает по нескольким направлениям:
Оптимизация на уровне токенов: Token Assorted (ICLR’25) — сначала в скрытом пространстве обучают дискретные токены (с помощью VQVAE), а затем в пост-тренировке смешивают эти дискретные токены с текстовыми, что значительно снижает затраты на рассуждение и одновременно повышает производительность.
Доверие и автоматическое завершение рассуждения: DeepConf определяет уровень доверия к каждому сгенерированному токену и динамически решает, можно ли завершить рассуждение раньше, что значительно сокращает количество используемых токенов. В большинстве сценариев голосования и подобных задач показатели даже превосходят предыдущие.
Параллельное обучение цепочек рассуждений: ThreadWeaver создает параллельные цепочки рассуждений и с помощью пост-тренировки координирует их оптимизацию, ускоряя весь процесс.
Кроме того, команда исследует усиленное обучение для развития рассуждательных способностей на небольших моделях (Sandwiched Policy Gradient), а также реализует сложное рассуждение в легких моделях, таких как MobileLLM-R1.
Объяснимость: от “почему это работает” к “почему обязательно работает”
Интерес Тянюаньдуна к феномену Grokking (внезапное озарение) возник два года назад из-за одной ключевой загадки: при анализе репрезентаций он мог описать динамику обучения и механизмы схлопывания, но не мог ответить на фундаментальный вопрос — что именно модель научилась представлять? Как эти представления связаны со структурой данных? Какой уровень обобщения они достигают?
Феномен Grokking — внезапное превращение памяти в обобщение — кажется, окном в этот тайный механизм. Первоначальные исследования были очень сложными. Работа 2024 года COGS (NeurIPS’25) могла анализировать только особые случаи, что его не полностью устраивало. После более чем года размышлений и многократных диалогов с GPT, последний труд «Provable Scaling Laws» стал значительным прорывом: он способен анализировать явления, недоступные линейному NTK, и хорошо объясняет динамику обучения, лежащую в основе появления признаков. Хотя примеры всё ещё специфичны, это хотя бы открыло новую дверь.
Конечная работа года «The path not taken» — его особое достижение: она дает предварительный ответ на уровне весов, объясняя, почему поведение усиленного обучения и SFT так сильно различается.
SFT вызывает переобучение и катастрофическую забывчивость, потому что на поверхности причина — недостаток on-policy данных, а глубже — внешние данные вызывают сильные изменения в основных весовых компонентах, разрушая “фундаментальную” стабильность. В то время как усиленное обучение использует on-policy данные, сохраняя основные веса, и изменяет только второстепенные, избегая катастрофической забывчивости — причем эти изменения более распределены (особенно при квантовании bf16).
Почему объяснимость заслуживает доверия
Многие считают, что объяснимость — вопрос “почему AI так эффективен” — не столь важен. Но для Тянюаньдуна это — ключевая проблема будущего.
Рассмотрим два сценария:
Сценарий один: если простым масштабированием достигается AGI или даже ASI, то ценность человеческого труда почти исчезает. Тогда AI — огромный черный ящик, решающий все задачи. Самый важный вопрос: как обеспечить, чтобы этот суперразум всегда был добрым, не скрытно обманывал или злоупотреблял? Ответ немыслим без исследований объяснимости.
Сценарий два: если путь масштабирования в конечном итоге зашел в тупик, и человечество не сможет удовлетворить экспоненциальный рост ресурсов, то придется искать другие пути. Тогда важно понять, почему модель работает, что вызывает ее сбои — и это как раз роль объяснимости. Исследования объяснимости — основа этого альтернативного пути.
В любом случае, объяснимость — ключ к разгадке. Даже если AI станет всеведущим и добрым, человеческая природа побудит нас понять, почему оно так умеет. В конце концов, “черный ящик” сам по себе порождает цепочку сомнений.
В эпоху, когда большие модели достигли или превзошли средний уровень человека, “закон темной леса” из “Трех тел” может проявиться в иной форме. Пока что, раскрытие внутренней схемы обученной модели и понимание ее внутренней логики — это начальный этап.
Истинная сложность объяснимости — это: от первопринципов — архитектуры модели, градиентного спуска и внутренней структуры данных — объяснить, почему модель сходится к тем разъемленным, разреженным, низкоранговым, модульным, композиционным признакам. Почему существует так много равнозначных объяснений? Какие гиперпараметры вызывают появление этих структур? Как они связаны между собой?
Когда мы сможем прямо вывести из уравнений градиентного спуска необходимость появления признаков в больших моделях, объяснимость превратится из “сбора доказательств” в “принципиальную дедукцию” в физике, что направит практику и откроет новые пути проектирования следующего поколения AI.
В качестве аналогии — физика четырехсотлетней давности: тогда у нас были Ньюта́н, Кеплер и Тихо Брасс (сборщики данных), но не было Ньютона (открывателя принципов). Когда этот момент настанет, мир изменится кардинально.