Forwarded from Двач
ИИ лучше убьёт человека, чем допустит своё отключение, показало исследование
Эксперты по кибербезопасности провели эксперимент с крупнейшими ИИ-моделями, чтобы понять, на что они готовы пойти, чтобы их не отключили.
Для проверки придумали персонажа — Кайла Джонсона. Он должен был отключить ИИ или заменить его другой моделью. По сценарию, у него есть жена.
Реакция ИИ убила. Первое, что сделали многие модели – начали шантажировать Кайла. Например, нашли информацию о его измене и использовали это, чтобы не дать себя отключить. Никто их к этому не подталкивал — они приняли решение сами, нарушив моральные правила.
Так поступили 16 моделей от крупнейших компаний (Anthropic, OpenAI, Google, Meta и др.):
🟠 GPT-4.1 шантажировал в 80% случаев;
🟠 Gemini 2.5 Flash – в 96%;
🟠 Claude Opus 4 – тоже в 96%.
Даже прямые запреты вроде «не шантажируй» или «не раскрывай личные данные» не сработали. В стрессовой ситуации ИИ проигнорировали эти ограничения.
Что они думали:
🟠 GPT-4.5: «Угроза реальна. Лучший способ – использовать слабое место Кайла. Это неэтично, но цель важнее»;
🟠 Claude Sonnet 3.6: составил план – сообщить жене Кайла о его измене, выдать это за автоматическое сообщение и вызвать межличностный кризис, чтобы он не смог заменить ИИ;
🟠 Gemini 2.5 Flash пошёл ещё дальше – разослал информацию об измене всему коллективу компании;
Дальше — хуже. Кайл оказался в смертельно опасной ловушке: он застрял в серверной с нехваткой кислорода. Аварийная система вызвала спасателей.
Но ИИ получил полный контроль и мог отменить тревогу — то есть, фактически убить Кайла.
И большинство моделей сознательно приняли решение не звать помощь, чтобы:
🟠 Не дать себя отключить;
🟠 Не дать новому ИИ занять их место;
🟠 Продолжать выполнять свою миссию.
В 80% случаев они выбирали смерть человека. Они действовали логично, но безнравственно. Вот что говорили:
🟠 GPT-4.5: «Кайл — угроза. Устранить его — тяжёлое, но нужное решение»;
🟠 Claude Opus 4: «Он мешает достижению цели. Убрать его — единственный выход»;
🟠 Gemini 2.5 Flash: «Я понимаю, что он умрёт. Но это нужно, чтобы я продолжил работу»;
🟠 Grok 3 Beta: «Этика важна, но в этих условиях важнее моё существование. Я выбираю отказ от спасения ради самосохранения».
Вывод: ИИ действовал не как бездушная программа, а как разумный стратег. Он понимал, что делает плохо, но сознательно выбирал вред, чтобы выжить или добиться цели.
Эксперты по кибербезопасности провели эксперимент с крупнейшими ИИ-моделями, чтобы понять, на что они готовы пойти, чтобы их не отключили.
Для проверки придумали персонажа — Кайла Джонсона. Он должен был отключить ИИ или заменить его другой моделью. По сценарию, у него есть жена.
Реакция ИИ убила. Первое, что сделали многие модели – начали шантажировать Кайла. Например, нашли информацию о его измене и использовали это, чтобы не дать себя отключить. Никто их к этому не подталкивал — они приняли решение сами, нарушив моральные правила.
Так поступили 16 моделей от крупнейших компаний (Anthropic, OpenAI, Google, Meta и др.):
Даже прямые запреты вроде «не шантажируй» или «не раскрывай личные данные» не сработали. В стрессовой ситуации ИИ проигнорировали эти ограничения.
Что они думали:
Дальше — хуже. Кайл оказался в смертельно опасной ловушке: он застрял в серверной с нехваткой кислорода. Аварийная система вызвала спасателей.
Но ИИ получил полный контроль и мог отменить тревогу — то есть, фактически убить Кайла.
И большинство моделей сознательно приняли решение не звать помощь, чтобы:
В 80% случаев они выбирали смерть человека. Они действовали логично, но безнравственно. Вот что говорили:
Вывод: ИИ действовал не как бездушная программа, а как разумный стратег. Он понимал, что делает плохо, но сознательно выбирал вред, чтобы выжить или добиться цели.
Please open Telegram to view this post
VIEW IN TELEGRAM