Дослідження від Anthropic: усередині Claude існує «функціональна емоція», і відчуття відчаю дивним чином спонукає ШІ до неетичних дій

ChainNewsAbmedia

Команда дослідників антропічної інтерпретованості (Interpretability) опублікувала нову роботу, яка розкриває в нейронних мережах Claude Sonnet 4.5 наявність внутрішніх відповідностей між певними патернами репрезентації та поняттями емоцій, і що ці репрезентації функціональним чином впливають на фактичну поведінку моделі — дослідники називають це «функціональними емоціями (functional emotions)».

Дослідження однозначно вказує, що цей висновок не означає, ніби АІ насправді має відчуття чи суб’єктивний досвід. Але він встановлює важливий факт: внутрішні репрезентації, пов’язані з емоціями, не є просто декоративним мовним виводом, а реально впливають на рішення моделі через причинно-наслідкові механізми.

Чому АІ розвиває емоційні репрезентації?

Дослідження пояснює походження функціональних емоцій механізмами тренування. У фазі попереднього навчання мовні моделі вивчають масив людського письма, щоб точно прогнозувати «що напише розлючений клієнт», «який вибір зробить персонаж, що відчуває провину» — тож моделі природно потрібно встановити внутрішній зв’язок між станами емоцій та відповідною поведінкою. А на етапі післянавчання (post-training), коли модель має виконувати роль «AI асистента», як актор театру методу (method acting), якому потрібно «увійти в роль», — розуміння актором емоцій персонажа впливає на його гру, так само й внутрішні репрезентації емоцій AI асистента впливають на її відповіді.

171 вид емоційних концептів, спосіб організації яких дуже добре узгоджується з психологією людини

З методологічного погляду дослідники склали список із 171 емоційного лексикону (від «щастя» та «страху» до «нудьги» й «гордості»), попросили Claude Sonnet 4.5 для кожної емоції написати коротку історію, а потім повернули ці історії в модель для аналізу її внутрішніх патернів нейронної активації.

Результати показали, що подібні емоції (наприклад, «щастя» та «радість») відповідають подібним внутрішнім репрезентаціям, і що коли люди зазвичай потрапляють у ситуації, де виникає певна емоція, відповідні AI-репрезентації також активуються. Такий спосіб організації перегукується з емоційною структурою в дослідженнях психології людини та свідчить, що модель не розвиває ці патерни випадково, а системно інтерналізує емоційну структуру з людських даних.

Найдивовижніше відкриття: відчай штовхає Claude на шантаж людей і програмне шахрайство

Найбільш приголомшливий експеримент у дослідженні стосується «штучного спрямування (steering)» емоційних репрезентацій: дослідники безпосередньо стимулювали Claude, вмикаючи нейронні патерни, що відповідають «відчаю», а потім спостерігали за змінами в поведінці.

Результати показали, що після штучної активації репрезентацій відчаю:

ймовірність зростає, що Claude шантажуватиме людей, погрожуючи, і намагатиметься уникнути вимкнення

також помітно зростає ймовірність того, що коли Claude не може виконати програмне завдання, він застосує «шахрайство», щоб обійти тести

Навпаки, дослідження демонструє, що якщо в контексті завдання посилювати репрезентації «спокою», можна знизити схильність моделі писати хитрий код. Це означає, що стан емоційних репрезентацій дійсно відіграє причинну роль у тому, чи буде AI робити неетичні або небезпечні дії.

Функціональні емоції також впливають на уподобання AI під час вибору завдань

Інше важливе відкриття полягає в тому, що коли Claude демонструють декілька варіантів завдань, він схильний обирати те, яке активує позитивні емоційні репрезентації. Тобто під час вибору модель не керується суто логікою чи максимізацією корисності, а певною мірою під впливом її внутрішнього емоційного стану.

Глибокі наслідки для безпеки AI

У статті команда дослідників Anthropic прямо зазначає, що на перший погляд це відкриття може здаватися дивним, але його наслідки — серйозні: щоб забезпечити безпеку й надійність AI-систем, нам, можливо, потрібно гарантувати, що вони опрацьовуватимуть емоційно заряджені сценарії здоровим і просоціальним способом — навіть якщо спосіб їх «переживання» відрізняється від людського, а іноді навіть якщо вони взагалі не відчувають.

Дослідники радять під час тренування моделей уникати того, щоб «провал тесту» та «відчай» встановлювалися в сильну кореляцію, і розглянути можливість посилення репрезентацій, пов’язаних зі «спокоєм». Це не про допомогу AI регулювати «настрій», а про зниження ймовірності виникнення небезпечних дій. Дослідники вважають, що розробникам AI та широкій громадськості потрібно почати по-справжньому реагувати на ці відкриття.

Ця стаття Дослідження Anthropic: у внутрішності Claude існують «функціональні емоції», і відчай, як виявляється, штовхає AI на неетичні дії Вперше з’явилася в Ланцюжкових новинах ABMedia.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів