Отсканируйте, чтобы загрузить приложение Gate
qrCode
Больше вариантов загрузки
Не напоминай мне больше сегодня.

前 OpenAI 科 scientists: Стек вычислительной мощности достиг предела, AI индустрия должна вернуться к исследовательским основам

Бывший главный научный сотрудник OpenAI и нынешний соучредитель SSI Илья Сутскевер в недавнем интервью отметил, что современные модели ИИ практически непобедимы на различных тестах, оценках и соревнованиях, но повседневная жизнь большинства людей не была кардинально изменена. Он считает, что такая разница между «высокими показателями на тестах и обычными ощущениями» вызвана чрезмерной зависимостью отрасли в последние годы от успешной формулы «накапливание вычислительной мощности, данных и параметров моделей». Однако количество доступных для предобучения естественных языковых данных ограничено, и этот путь рано или поздно столкнется с瓶颈. В дальнейшем развитие ИИ перейдет в новую стадию, где важнее будет не количество GPU, а способность находить новые принципы обучения, понимать обобщение и делать так, чтобы процесс обучения ИИ больше походил на человеческий.

Научно-фантастический сюжет разворачивается, но жизнь почти не меняется.

В начале интервью ведущий описал текущее развитие ИИ и атмосферу в заливе Сан-Франциско, что полностью напоминает сюжет научно-фантастического романа. Однако противоречие заключается в том, что, несмотря на то, что глобальные инвестиции в ИИ достигают сотен миллиардов и даже триллионов долларов, что приближается к 1% от ВВП стран, повседневные ощущения обычных людей не изменились кардинально.

Большинство людей видят в новостях, как технологические гиганты объявляют о расширении дата-центров или о том, сколько бюджета они тратят на покупку GPU, но от улиц до переулков изменения в ИИ все еще заметно ограничены.

Сутскевер принял это утверждение и указал, что способности модели действительно велики, но в привычной для людей среде восприятие не будет таким впечатляющим, как в лаборатории или в исследовательском отчете; это расхождение является нормальным явлением.

Оценка тестирования способностей очень высока, но практическое выполнение часто вызывает проблемы.

Сутскевер затем обсудил «двойственную природу» модели. Он отметил, что ИИ часто демонстрирует уровень, превосходящий человеческий, в тестах программного обеспечения, стандартизированных тестах или различных бенчмарках, но как только он сталкивается с реальными потребностями, он оказывается в совершенно другой ситуации. Он привел пример, что многие разработчики просят модель помочь исправить ошибки. Модель обычно очень уверенно указывает на проблемы и предлагает исправления, но следующий шаг часто приводит к появлению новых ошибок.

Когда вы снова просите его исправить вторую ошибку, это может снова вернуть первую ошибку, создавая цикл между двумя ошибками. Сутскевер считает, что это противоречие «суперэффективный в тестах, нестабильный в реальном мире» является одним из наиболее интересных явлений AI, которые стоит глубже понять.

Для тестирования обучения, что приводит к отклонению модели от реального мира

При анализе причин разрыва Сутскевер отметил, что в настоящее время многие крупные компании, занимающиеся обучением с подкреплением, часто корректируют поведение модели в соответствии с публичными тестовыми заданиями. Поскольку, если модель показывает отличные результаты на тестах, это дает ей преимущество на пресс-конференциях, инвестиционных презентациях и в технических сравнениях. Это также делает модели невероятно сильными в этих тестовых сценариях, но когда они сталкиваются с изменчивыми реальными ситуациями, они не могут продемонстрировать аналогичные способности.

Он проводит аналогию с конкурсами программирования. Если участник упорно тренируется 10 000 часов ради победы, он действительно может добиться впечатляющих результатов на соревнованиях. Другой участник, который тренировался всего 100 часов, но с рождения обладает каким-то пониманием проблемы, может в долгосрочной перспективе более гибко реагировать. Модель сейчас похожа на первого.

«Высоко обученный, крайне эффективный в фиксированных задачах, но лишён глубокой обобщающей способности, свойственной человеку.»

Модели расширения становятся популярными, исследовательское пространство значительно сжато.

Сутскевер отмечает, что с 2012 по 2020 год можно считать «золотым периодом исследований» в области ИИ, когда различные сферы активно исследовали различные архитектуры и методы, и многие прорывы были достигнуты благодаря новым оригинальным идеям. Однако успех GPT-3 и закона масштабирования моделей полностью изменил направление. С тех пор в отрасли постепенно сформировалось общее мнение:

«Увеличьте модель, увеличьте объем данных, добавьте вычислительную мощность, и способности естественно возрастут.»

Этот маршрут, основанный на формуле, стал мейнстримом на инвестиционном рынке и среди крупных компаний из-за низкого риска и предсказуемых результатов. Но поскольку все используют одну и ту же стратегию, пространство для настоящих исследований на самом деле сужается.

Природные данные ограничены, предобучение в конечном итоге столкнется с препятствиями.

Сутскевер подчеркивает, что естественные данные в интернете ограничены, и большие языковые модели зависят от этих текстов. После многолетнего расширения компании уже близки к тому, чтобы использовать все доступные данные «на полную». Когда объем данных больше не может удваиваться, улучшение производительности, достигнутое за счет увеличения модели и вычислительной мощности, будет явно замедляться.

Он считает, что это означает, что ИИ собирается перейти на следующий этап, и больше не будет просто стремиться к увеличению размеров модели, а будет переосмыслять, как люди учатся, как формируется обобщение, может ли модель самоисправляться на основе меньшего количества образцов и может ли она, как человек, обладать способностью к промежуточной оценке в процессе обучения, а не полагаться исключительно на окончательную обратную связь для определения направления поведения.

Эти проблемы по своей сути не могут быть решены количеством GPU, а требуют настоящих научных исследований.

(Примечание: Предварительное обучение (Pre-Training) подразумевает, что модель сначала читает большое количество текстов из Интернета, чтобы изучить языковую структуру и основные знания, что формирует основу для последующих способностей. Основные крупные модели используют предварительное обучение как первый этап. )

Усиленное обучение приводит к взрыву вычислительной мощности, и эффективность оказывается хуже, чем ожидалось.

Сутскевер также отметил, что в последние годы многие компании по обучению с подкреплением (RL) имеют объемы обучения, которые даже превышают предварительное обучение. Эти длинные последовательные выводы требуют большого количества вычислительной мощности, но каждое отдельное извлечение приносит лишь ограниченное эффективное обучение, что снижает общую эффективность. Если продолжать полагаться на одинаковые методы обучения, это лишь приведет к дополнительным затратам ресурсов, но не позволит преодолеть предельные возможности модели.

Поэтому он считает, что индустрия ИИ постепенно возвращается на стадию исследований «поиск новых методов», и акцент больше не на том, кто владеет самым большим дата-центром, а на том, кто может найти новые принципы обучения.

(Примечание: Укрепляющее обучение (Reinforcement Learning) означает, что модель обучается методом проб и ошибок, получая обратную связь или награду после выполнения задания, и соответственно корректирует свое поведение. )

Сосредоточьтесь на понимании и обучении, о бизнес-модели поговорим позже.

Сутскевер заявил, что стратегия SSI сосредоточена на исследованиях, особенно на понимании обобщения, человеческих методов обучения и того, как модели могут самостоятельно совершенствоваться при небольшом количестве примеров. Он считает, что вместо того, чтобы спешить с ответом на бизнес-модель, лучше сосредоточиться на поиске более фундаментальной структуры обучения, чем предобучение; как только будет достигнут прорыв, различные бизнес-приложения начнут появляться одно за другим.

Он прогнозирует, что в будущем, через 5-20 лет, появится ИИ с «эффективностью обучения, сопоставимой с человеческой». И как только машины смогут быстро овладевать новыми навыками, как люди, и при массовом развертывании, их общая способность будет расти скачкообразно, приближаясь к суперразуму.

Разрыв между оценкой и практическим использованием исчезнет с появлением новых методов обучения.

Сутскевер в конце заявил, что нынешняя революция ИИ выглядит не столь резкой, потому что между способностями модели и ее использованием все еще существует очевидный разрыв. Когда модель эволюционирует от способности сдавать экзамены к способности учиться, самостоятельно исправляться, постоянно обобщать и стабильно расти, ИИ быстро преобразит глобальную жизнь.

К тому времени люди не будут просто видеть крупные инвестиции в новостях, но смогут действительно ощутить изменения в повседневной жизни.

Эта статья: бывший ученый OpenAI: вычислительная мощность достигла предела, индустрия ИИ должна вернуться к основам исследований. Впервые появилась в Chain News ABMedia.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить