Искусственный интеллект на исходе

robot
Генерация тезисов в процессе

В эпоху генеративного ИИ модели таких гигантов, как OpenAI, Google, Anthropic, почти полностью используют открытые данные из сети. Однако согласно исследованию Оксфордского университета и нескольких организаций, к 2026-2028 годам высококачественные открытые данные, которые человечество может предоставить ИИ, почти исчерпают себя. Когда сеть будет затоплена контентом, сгенерированным ИИ, новые модели неизбежно будут обучаться на данных, произведенных ИИ. Этот самореферентный процесс подобен инбридингу среди близких родственников ИИ.

Данные, созданные человечеством в 2026 году, будут полностью усвоены ИИ.

Оксфордский университет, Кембриджский университет и несколько исследовательских институтов опубликовали в апреле 2024 года статью “Проклятие рекурсии: обучение на сгенерированных данных заставляет модели забывать”, которая раскрывает этот феномен.

Они обнаружили, что когда генеративные модели многократно используют данные, которые они сами сгенерировали, для обучения, даже в идеальных условиях модель постепенно забывает реальность и в конечном итоге деградирует. Исследовательская группа, проводя эксперименты с различными структурами, такими как языковая модель, вариационный автокодировщик (VAE) и модель Гауссовской смеси (GMM), указала, что каждое повторное обучение похоже на повторную печать копии: детали постепенно исчезают, редкие события забываются первыми. Через несколько поколений в модели остается только среднее и мейнстримный облик, в конечном итоге она становится посредственной, однообразной и даже ошибочной.

Этот процесс похож на самоотравление данных, инициированное моделью (self-poisoning). В конечном итоге модель перестает понимать язык и реальность, а вывод становится повторяющимся бредом.

Стэнфордская статья: если реальные данные продолжают участвовать, ИИ не потерпит краха

Тем не менее, статья, опубликованная в апреле 2024 года командой Стэнфордского университета и Constellation под названием «Является ли коллапс модели неизбежным? Преодоление проклятия рекурсии путем накопления реальных и синтетических данных», предлагает более оптимистичный ответ. Они воспроизвели эксперимент оксфордской команды, но предложили новую стратегию обучения: накапливать данные, а не заменять их. То есть новое поколение ИИ не отбрасывает старые человеческие данные, а продолжает накладывать и объединять человеческое и сгенерированное ИИ содержимое.

Результаты показывают, что если каждый раз обучение заменяет старые данные новыми синтезированными, производительность модели линейно ухудшается. Однако, если сохранить оригинальные данные и продолжать накапливать их, ошибка модели постепенно становится стабильной и даже прекращает ухудшаться. Они неоднократно проверяли это на языковой модели (GPT-2, Llama 2), генерации изображений (VAE), а также модели молекулярной генерации (Diffusion model), и все пришли к единому выводу: пока реальные данные продолжают участвовать, ИИ не потерпит крах.

Исследователи теоретически также доказали: когда данные накапливаются, предел ошибки модели является конечным и не будет бесконечно увеличиваться. Это означает, что «инбридинг» ИИ не предопределён, пока мы не разорвём связь с реальными данными человечества.

У ИИ также есть феномен Хаббса, самоссылка ИИ подобна инцесту.

Основатель iKala Чен Шицзя, ранее работавший инженером-программистом в Google, описывает это явление, используя известную в истории человечества династию Габсбургов. Чтобы сохранить чистоту своей крови, известная в европейской истории династия Габсбургов использовала близкородственные браки, чтобы запереть богатство и власть внутри семьи. В результате появился известный “губ Габсбургов”, но это лишь верхушка айсберга генетических проблем. Различные генетические заболевания, эпилепсия, умственные недостатки и даже высокая смертность стали проклятием семьи Габсбургов, и последний король Карлос II страдал от множества болезней и умер без потомства.

Чэн Шицзя объясняет на более конкретном примере: изначально это была картина пейзажа, полная деталей, даже с небольшими недостатками. Стиль художника, детали, штрихи, недостатки и т. д. на самом деле представляют собой генетическое разнообразие. При первом копировании AI создает копию (, синтезируя данные ). В этот момент копия на 99,9% близка к оригиналу. Однако AI — это модель, которая берет среднее значение, сглаживает недостатки (, представляющие редкие знания ), и немного усиливает самые распространенные черты (, представляя мейнстримные взгляды ). Следующее поколение учится на этом, снова берет среднее значение, и это самореферентный цикл.

Эта статья о ИИ впервые появилась на Chain News ABMedia.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить