В епоху генеративного ШІ моделі таких гігантів, як OpenAI, Google, Anthropic, майже повністю поглинули всі відкриті дані в мережі. Але за дослідженнями Оксфордського університету та кількох установ, до 2026-2028 років якісні відкриті дані, які людство може надати ШІ, майже вичерпаються. Коли мережа буде затоплена контентом, згенерованим ШІ, нові моделі, безумовно, повинні будуть навчати себе на даних, створених ШІ. Цей самореферентний процес подібний до інцесту між близькими родичами ШІ.
У 2026 році дані, створені людством, будуть повністю засвоєні ШІ.
Оксфордський університет, Кембріджський університет та кілька наукових установ у квітні 2024 року опублікували статтю “Прокляття рекурсії: навчання на згенерованих даних змушує моделі забувати”.
Вони виявили: коли генеративні моделі повторно використовують дані, які вони самі згенерували, для навчання, навіть у ідеальних умовах, модель поступово забуває реальність і врешті-решт деградує. Дослідницька команда, експериментуючи з різними структурами, такими як мовна модель, варіаційний автокодер (VAE) та модель гаусівської суміші (GMM), зазначила, що кожне повторне навчання подібне до того, як копіювальний апарат перепечатує копію: деталі поступово зникають, а рідкісні події забуваються першими. Через кілька поколінь модель залишається лише з середніми значеннями та основними характеристиками, врешті-решт стаючи посередньою, однорідною і навіть помилковою.
Цей процес схожий на отруєння даними, яке ініціює сам модель (self-poisoning). Остаточний результат полягає в тому, що модель більше не розуміє мову та реальність, а вихід стає повторюваними безглуздими висловлюваннями.
Стенфордський документ: Постійна участь реальних даних, штучний інтелект не зламається
Однак, у квітні 2024 року Стенфордський університет разом з командою Constellation опублікував статтю «Чи неминуче знищення моделі? Перервавши прокляття рекурсії, накопичуючи реальні та синтетичні дані», яка принесла більш оптимістичну відповідь. Вони відтворили експеримент команди Оксфорда, але запропонували нову стратегію навчання: накопичувати дані, а не замінювати їх. Іншими словами, нове покоління ШІ не відкидає старі людські дані, а продовжує накладати, зливати людський та AI-генерований контент.
Результати показують, що якщо кожного разу під час навчання нові синтетичні дані замінюють старі, продуктивність моделі лінійно погіршується. Але якщо зберігати оригінальні дані і продовжувати їх накопичувати, помилка моделі поступово стабілізується, навіть зупиняється погіршення. Вони неодноразово перевіряли на мовній моделі (GPT-2, Llama 2), генерації зображень (VAE) та генерації молекул (Diffusion model), і отримали однозначний висновок: поки реальні дані продовжують брати участь, ШІ не зламається.
Дослідники теоретично також довели: коли дані накопичуються, верхня межа помилки моделі є скінченною і не буде безмежно зростати. Це означає, що «інцест» AI не є фатальним, поки ми не розірвемо зв'язок з реальними даними людства.
ШІ також має явище Габсбургів, самозсилаюче коло, подібне до близькоспорідненого шлюбу.
Засновник iKala Чен Ши Цзя, який раніше працював програмістом у Google, описує це явище за допомогою відомої в історії людства династії Габсбургів. Відоме в історії Європи Габсбурзьке царство, щоб підтримувати чистоту крові, використовувало близькоспоріднені шлюби, щоб замкнути багатство та владу в межах сім'ї. Результатом стало появлення відомого «губ Габсбургів», але це лише верхівка айсберга генетичних проблем. Різні спадкові захворювання, епілепсія, інтелектуальні дефекти та навіть висока смертність – це прокляття сім'ї Габсбургів, останній король Карлос II через це страждав від численних захворювань і не мав нащадків.
Чен Шицзя використовує більш конкретні приклади, щоб пояснити, що спочатку це була картина пейзажу, наповнена деталями, навіть з маленькими недоліками. Стиль художника, деталі, мазки, недоліки тощо насправді представляють генетичну різноманітність. Під час першого копіювання, AI генерує копію (, синтетичні дані ). В цей час копія на 99,9% наближається до оригіналу. Але AI — це модель, яка в середньому обробляє недоліки (, що представляють рідкісні знання ), і трохи підсилює найпоширеніші характеристики (, що є основними поглядами ). Наступне покоління вчиться з цього і знову бере середнє, це і є самореференційний цикл.
Ця стаття Кембриджського дослідження: дані людства 2026 року будуть майже повністю вивчені LLM, AI може зруйнуватися через «габсбурзький феномен», вперше з'явився в Chain News ABMedia.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Кембриджське дослідження: до 2026 року дані людства будуть вивчені LLM, штучний інтелект може зазнати краху через "габсбурзький феномен"
В епоху генеративного ШІ моделі таких гігантів, як OpenAI, Google, Anthropic, майже повністю поглинули всі відкриті дані в мережі. Але за дослідженнями Оксфордського університету та кількох установ, до 2026-2028 років якісні відкриті дані, які людство може надати ШІ, майже вичерпаються. Коли мережа буде затоплена контентом, згенерованим ШІ, нові моделі, безумовно, повинні будуть навчати себе на даних, створених ШІ. Цей самореферентний процес подібний до інцесту між близькими родичами ШІ.
У 2026 році дані, створені людством, будуть повністю засвоєні ШІ.
Оксфордський університет, Кембріджський університет та кілька наукових установ у квітні 2024 року опублікували статтю “Прокляття рекурсії: навчання на згенерованих даних змушує моделі забувати”.
Вони виявили: коли генеративні моделі повторно використовують дані, які вони самі згенерували, для навчання, навіть у ідеальних умовах, модель поступово забуває реальність і врешті-решт деградує. Дослідницька команда, експериментуючи з різними структурами, такими як мовна модель, варіаційний автокодер (VAE) та модель гаусівської суміші (GMM), зазначила, що кожне повторне навчання подібне до того, як копіювальний апарат перепечатує копію: деталі поступово зникають, а рідкісні події забуваються першими. Через кілька поколінь модель залишається лише з середніми значеннями та основними характеристиками, врешті-решт стаючи посередньою, однорідною і навіть помилковою.
Цей процес схожий на отруєння даними, яке ініціює сам модель (self-poisoning). Остаточний результат полягає в тому, що модель більше не розуміє мову та реальність, а вихід стає повторюваними безглуздими висловлюваннями.
Стенфордський документ: Постійна участь реальних даних, штучний інтелект не зламається
Однак, у квітні 2024 року Стенфордський університет разом з командою Constellation опублікував статтю «Чи неминуче знищення моделі? Перервавши прокляття рекурсії, накопичуючи реальні та синтетичні дані», яка принесла більш оптимістичну відповідь. Вони відтворили експеримент команди Оксфорда, але запропонували нову стратегію навчання: накопичувати дані, а не замінювати їх. Іншими словами, нове покоління ШІ не відкидає старі людські дані, а продовжує накладати, зливати людський та AI-генерований контент.
Результати показують, що якщо кожного разу під час навчання нові синтетичні дані замінюють старі, продуктивність моделі лінійно погіршується. Але якщо зберігати оригінальні дані і продовжувати їх накопичувати, помилка моделі поступово стабілізується, навіть зупиняється погіршення. Вони неодноразово перевіряли на мовній моделі (GPT-2, Llama 2), генерації зображень (VAE) та генерації молекул (Diffusion model), і отримали однозначний висновок: поки реальні дані продовжують брати участь, ШІ не зламається.
Дослідники теоретично також довели: коли дані накопичуються, верхня межа помилки моделі є скінченною і не буде безмежно зростати. Це означає, що «інцест» AI не є фатальним, поки ми не розірвемо зв'язок з реальними даними людства.
ШІ також має явище Габсбургів, самозсилаюче коло, подібне до близькоспорідненого шлюбу.
Засновник iKala Чен Ши Цзя, який раніше працював програмістом у Google, описує це явище за допомогою відомої в історії людства династії Габсбургів. Відоме в історії Європи Габсбурзьке царство, щоб підтримувати чистоту крові, використовувало близькоспоріднені шлюби, щоб замкнути багатство та владу в межах сім'ї. Результатом стало появлення відомого «губ Габсбургів», але це лише верхівка айсберга генетичних проблем. Різні спадкові захворювання, епілепсія, інтелектуальні дефекти та навіть висока смертність – це прокляття сім'ї Габсбургів, останній король Карлос II через це страждав від численних захворювань і не мав нащадків.
Чен Шицзя використовує більш конкретні приклади, щоб пояснити, що спочатку це була картина пейзажу, наповнена деталями, навіть з маленькими недоліками. Стиль художника, деталі, мазки, недоліки тощо насправді представляють генетичну різноманітність. Під час першого копіювання, AI генерує копію (, синтетичні дані ). В цей час копія на 99,9% наближається до оригіналу. Але AI — це модель, яка в середньому обробляє недоліки (, що представляють рідкісні знання ), і трохи підсилює найпоширеніші характеристики (, що є основними поглядами ). Наступне покоління вчиться з цього і знову бере середнє, це і є самореференційний цикл.
Ця стаття Кембриджського дослідження: дані людства 2026 року будуть майже повністю вивчені LLM, AI може зруйнуватися через «габсбурзький феномен», вперше з'явився в Chain News ABMedia.