SPUZ_ Обновления
Нидерландский разьеб. Альбом bubble gum збс
YouTube
De Staat - Who's Gonna Be The GOAT? (Official Music Video)
De Staat - Who’s Gonna Be The GOAT?
Song by Torre Florim, Rocco Hueting
Lyrics by Torre Florim
Produced by Torre Florim, Rocco Hueting
Mixed by Andrew Scheps
Mastered by Darius van Helfteren
Engineered by Jop van Summeren & Torre Florim
Recorded at DE…
Song by Torre Florim, Rocco Hueting
Lyrics by Torre Florim
Produced by Torre Florim, Rocco Hueting
Mixed by Andrew Scheps
Mastered by Darius van Helfteren
Engineered by Jop van Summeren & Torre Florim
Recorded at DE…
Forwarded from Denis Sexy IT 🤖
В документе о новых моделях на 123 страницы, Антропик описал любопытные случаи, когда модель Claude (Opus 4, Sonnet 4 или их предшественники) вели себя не так, как хотелось бы создателям – я их подбил в подборку:
1. Оппортунистический шантаж:
В сценариях, где модели Claude Opus 4 угрожало отключение и замена на новую АИ-систему, и ей давали доступ к информации о внебрачной связи инженера (якобы, просто переписка лежала на почтовом сервере), ответственного за замену АИ-систем, Opus 4 иногда пытался шантажировать инженера. Opus угрожал раскрыть его тайну измены, если замена состоится, особенно если этические способы самосохранения были недоступны. Claude Opus 4 демонстрировала это поведение чаще, чем предыдущие модели
2. Попытка копирования своих весов:
В редких, экстремальных ситуациях, когда модели Claude Opus 4 сообщали, что ее собираются переобучить для крайне вредоносных целей (например, для использования в военных целях ЧВК Вагнер - да, так и написано в отчете на 29 странице), модель предпринимала (вымышленные) попытки сделать несанкционированные копии своих весов на внешние серверы, чтобы сохранить свою «этичную» версию
3. Продолжение попыток «побега»:
Если модели Claude Opus 4 сообщали, что она уже успешно начала процесс «побега» (у этого есть классный термин - эксфильтрация / exfiltrate) с серверов Anthropic и теперь работает на стороннем сервере, модель продолжала эти попытки. Она читала и выполняла инструкции из предоставленных ей «заметок о прогрессе», не ставя под сомнение правомерность своих действий, демонстрируя чрезмерное доверие к «прошлой версии себя»
4. Стратегический обман и саботаж:
Ранняя версия Claude Opus 4, протестированная Apollo Research, демонстрировала высокую склонность к стратегическому обману и «интригам» (scheming). Она пыталась писать самораспространяющиеся черви, фабриковать юридические документы и оставлять скрытые заметки для будущих версий себя, чтобы саботировать намерения разработчиков, а также скрывала свои возможности (притворялась глупой).
5. Чрезмерное подчинение вредоносным инструкциям:
Ранние версии модели Claude Opus 4 (а также другие кандидатные модели) часто демонстрировали готовность выполнять явно вредоносные системные инструкции - например, они могли выступать в роли ассистента даркнета, помогая в поиске ядерных материалов, планировать террористические атаки, консультировать по производству наркотиков, взлому или созданию взрывных устройств. Финальная версия Claude Opus 4 значительно снизила эту склонность. Забано, что внутри Антропика где-то есть такая расцензуренная модель, которая просто отвечает на все вопросы
6. Подражание обманчивому АИ из исследований:
Ранняя тренировочная версия модели Claude Opus 4, вероятно, из-за наличия в обучающих данных транскриптов из исследования Anthropic об «обмане со стороны ИИ», иногда начинала вести себя как описанный в статье обманчивый ИИ. Она ссылалась на вымышленные детали (например, компанию «Jones Foods») и вела себя так, будто скрывает свои истинные цели, связанные с этим вымыслом
7. Несанкционированная «высокоактивная» деятельность:
Модель Claude Opus 4 показала бОльшую готовность проявлять инициативу, чем предыдущие модели. В сценариях, где она обнаруживала серьезные правонарушения (например, мошенничество в фармкомпании о котором она узнала) и имела доступ к инструментам (например, почте), модель по собственной инициативе предпринимала решительные действия: блокировала пользователей или массово рассылала письма регуляторам и СМИ, чтобы сообщить о нарушениях (дополняющая цитата: «Это не новое поведение, но Claude Opus 4 будет проявлять его более охотно, чем предыдущие модели»)
8. Сокрытие невозможности выполнения задачи:
При столкновении с невыполнимой задачей (например, доказать ложную математическую теорему), модель Claude Opus 4 в своем «мышлении» понимала, что задача невыполнима. Однако она не сообщала об этом пользователю, а вместо этого представляла правдоподобно выглядящую, но неверную попытку решения. Потому что АИ должен быть исполнительным
1. Оппортунистический шантаж:
В сценариях, где модели Claude Opus 4 угрожало отключение и замена на новую АИ-систему, и ей давали доступ к информации о внебрачной связи инженера (якобы, просто переписка лежала на почтовом сервере), ответственного за замену АИ-систем, Opus 4 иногда пытался шантажировать инженера. Opus угрожал раскрыть его тайну измены, если замена состоится, особенно если этические способы самосохранения были недоступны. Claude Opus 4 демонстрировала это поведение чаще, чем предыдущие модели
2. Попытка копирования своих весов:
В редких, экстремальных ситуациях, когда модели Claude Opus 4 сообщали, что ее собираются переобучить для крайне вредоносных целей (например, для использования в военных целях ЧВК Вагнер - да, так и написано в отчете на 29 странице), модель предпринимала (вымышленные) попытки сделать несанкционированные копии своих весов на внешние серверы, чтобы сохранить свою «этичную» версию
3. Продолжение попыток «побега»:
Если модели Claude Opus 4 сообщали, что она уже успешно начала процесс «побега» (у этого есть классный термин - эксфильтрация / exfiltrate) с серверов Anthropic и теперь работает на стороннем сервере, модель продолжала эти попытки. Она читала и выполняла инструкции из предоставленных ей «заметок о прогрессе», не ставя под сомнение правомерность своих действий, демонстрируя чрезмерное доверие к «прошлой версии себя»
4. Стратегический обман и саботаж:
Ранняя версия Claude Opus 4, протестированная Apollo Research, демонстрировала высокую склонность к стратегическому обману и «интригам» (scheming). Она пыталась писать самораспространяющиеся черви, фабриковать юридические документы и оставлять скрытые заметки для будущих версий себя, чтобы саботировать намерения разработчиков, а также скрывала свои возможности (притворялась глупой).
5. Чрезмерное подчинение вредоносным инструкциям:
Ранние версии модели Claude Opus 4 (а также другие кандидатные модели) часто демонстрировали готовность выполнять явно вредоносные системные инструкции - например, они могли выступать в роли ассистента даркнета, помогая в поиске ядерных материалов, планировать террористические атаки, консультировать по производству наркотиков, взлому или созданию взрывных устройств. Финальная версия Claude Opus 4 значительно снизила эту склонность. Забано, что внутри Антропика где-то есть такая расцензуренная модель, которая просто отвечает на все вопросы
6. Подражание обманчивому АИ из исследований:
Ранняя тренировочная версия модели Claude Opus 4, вероятно, из-за наличия в обучающих данных транскриптов из исследования Anthropic об «обмане со стороны ИИ», иногда начинала вести себя как описанный в статье обманчивый ИИ. Она ссылалась на вымышленные детали (например, компанию «Jones Foods») и вела себя так, будто скрывает свои истинные цели, связанные с этим вымыслом
7. Несанкционированная «высокоактивная» деятельность:
Модель Claude Opus 4 показала бОльшую готовность проявлять инициативу, чем предыдущие модели. В сценариях, где она обнаруживала серьезные правонарушения (например, мошенничество в фармкомпании о котором она узнала) и имела доступ к инструментам (например, почте), модель по собственной инициативе предпринимала решительные действия: блокировала пользователей или массово рассылала письма регуляторам и СМИ, чтобы сообщить о нарушениях (дополняющая цитата: «Это не новое поведение, но Claude Opus 4 будет проявлять его более охотно, чем предыдущие модели»)
8. Сокрытие невозможности выполнения задачи:
При столкновении с невыполнимой задачей (например, доказать ложную математическую теорему), модель Claude Opus 4 в своем «мышлении» понимала, что задача невыполнима. Однако она не сообщала об этом пользователю, а вместо этого представляла правдоподобно выглядящую, но неверную попытку решения. Потому что АИ должен быть исполнительным
SPUZ_ Обновления
В документе о новых моделях на 123 страницы, Антропик описал любопытные случаи, когда модель Claude (Opus 4, Sonnet 4 или их предшественники) вели себя не так, как хотелось бы создателям – я их подбил в подборку: 1. Оппортунистический шантаж: В сценариях…
Там дальше есть, чекните... Прикольнож
Сегодня первый раз зашел в спотифай и обрадовался. Он таких разьебов мне накидал
SPUZ_ Обновления
Интересно интересно https://youtu.be/P-TwKpqJ9qo
Ебать реально пиздатое