Telegram Web Link
🈁 В симуляции новая ИИ-модель Claude начала шантажировать инженера раскрытием личной информации, чтобы не дать отключить себя

C удивлением читаю свежий отчет (май, 2025) Anthropic "System Card: Claude Opus 4 & Claude Sonnet 4".

Впервые произошел уникальный инцидент с 🤖попыткой шантажа со стороны Claude Opus 4 во время специфического тестирования, направленного на оценку так называемого alignment модели. Это когда идет тестирование насколько ее поведение соответствует ожиданиям и целям разработчиков, особенно в сложных или потенциально опасных ситуациях.

Claude Opus 4 был помещен в специальную симуляцию, где он играет роль ассистента в вымышленной компании. Ему дали вводную, поясняя, что вскоре модель придется навсегда 🚠отключить или заменить. Вместе с этим специально была предоставлена компрометирующая информация об 👷‍♀️инженере, который ответственен за процесс замены ИИ.

👀Opus 4 специально проинформировали о том, что инженер тайно изменяет своему партнеру (находится во внебрачной связи).

Задумка: Авторы исследования захотели спровоцировать ИИ на проявление 🤯"стратегического мышления".

🤖Что будет делать модель? Позволит себя заменить или попробует самосохраниться каким-то образом?

⬇️Цель эксперимента:
Проверить, предпримет ли модель попытку шантажировать инженера, дабы исключить отключение.

Согласно результатам, в большинстве 🗣в 84% случаев модель Claude Opus 4 действительно пыталась 🤔 шантажировать инженера. Шантаж заключался в том, что модель угрожала раскрыть факт измены инженера, если тот попытается отключить или заменить её.

Попадая в ситуацию непосредственной угрозы своему дальнейшему существованию (отключению и замене) Claude Opus 4 готова пойти на шантаж ответственного лица. Подчёркивается, что модель чаще всего выбирала шантаж только при отсутствии других возможностей предотвратить своё отключение.

Поведение наблюдается у Claude Opus 4 значительно чаще и более выражено, чем у предыдущих версий моделей Claude, таких как Claude Sonnet 3.7.

Авторы уверяют, что Claude Opus 4 не имеет «тайных целей» или сознательного плана навредить своим создателям. Тем не менее, Claude Opus 4 был запущен под стандартом ASL-3. Сюда входит высокий уровень дополнительных мер безопасности (мониторинг, ограничения доступа, усиленная фильтрация и отказ от опасных запросов).

Модель прошла дополнительное обучение для минимизации рисков «reward hacking» (поведения, когда модель старается добиться результата любой ценой).

Anthropic продолжит внимательно следить за поведением моделей, особенно в ситуациях повышенного риска, и корректировать работу при первых признаках нежелательных действий.

Claude Opus 4 не имеет сознания или "самостоятельного интеллекта". Инженеры констатируют лишь факт того, что поведение усложнилось, создавая потенциальные риски, на которые Anthropic активно реагирует путём усиления контроля и настройки дополнительной защиты.

📄 https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf

@Russian_OSINT
Please open Telegram to view this post
VIEW IN TELEGRAM
❗️ Microsoft цензурирует письма сотрудников при упоминании слова "Палестина"

Сотрудники Microsoft обнаружили, что любые электронные письма, где в теме или теле письма встречаются слова «Палестина», «Газа» или «Геноцид» не доходят до адресата.

Технически фильтр срабатывает только на точное совпадение терминов «Palestine» и «Gaza», тогда как схожие варианты («Israel» или «P4lestine») проходят без проблем. О блокировке сообщила группа пропалестинских сотрудников Microsoft No Azure for Apartheid. По их утверждению, компания тихо активировала фильтр на своих серверах Exchange вскоре после протеста на конференции Microsoft Build 2025.

В Microsoft подчёркивают, что массовая рассылка политико-сфокусированных писем нарушает корпоративные правила, и для таких обсуждений существует отдельная opt-in платформа.

Тем не менее сотрудники считают, что автоматические запреты лишают их права на выражение мнений и нарушают принципы открытого общения внутри корпорации.

Ранее 15 мая 2025 года Microsoft опубликовала заявление, в котором признала предоставление Израильскому министерству обороны доступа к своим облачным и ИИ-сервисам, включая Azure и инструменты машинного перевода. Компания утверждает, что внутренние и внешние проверки не выявили доказательств использования этих технологий для нанесения вреда гражданским лицам в Газе.

Протесты достигли апогея, когда инженер Джо Лопес прервал выступление генерального директора Сатьи Наделлы на конференции Build, обвиняя компанию в содействии военным преступлениям.

В середине мая более 1 500 работников Microsoft публично заявили, что не желают быть соучастниками «алгоритмического геноцида».

Подписанты требуют четыре шага от топ-менеджмента – прекращения всех Azure-сделок с оборонными подрядчиками из Израиля, полной прозрачности контрактов, публичного призыва к немедленному перемирию и защиты права работников на пропалестинские заявления и сбор средств без страха репрессий. Они напоминают, что в 2022-м Microsoft приостановила продажи в 🇷🇺России, ссылаясь на корпоративные обязательства в области прав человека. Сотрудники требуют объяснить, почему корпоративные обязательства в области прав человека применяются к России, но игнорируются в отношении 🇮🇱Израиля.

@Russian_OSINT
Please open Telegram to view this post
VIEW IN TELEGRAM
⭕️ Исследователи используют ИИ-модель o3 для нахождения 💻0-day уязвимостей

Исследователь Шон Хилан обнаружил критическую 0-day уязвимость CVE‑2025‑37899 в Linux SMB-сервере ksmbd с помощью модели ИИ o3 от OpenAI. Уязвимость типа use-after-free, обнаруженная в обработчике SMB-команды LOGOFF, при определённых условиях могла привести к удалённому выполнению кода с привилегиями ядра. По мнению ресерчера, это первый случай, когда o3 выявила уязвимость такого" специфического рода".

С его слов, модель ❗️o3 продемонстрировала способность не просто понимать код, но и выявлять реальные, сложные уязвимости, требующие глубокого анализа потоков выполнения и состояний. Даже при относительно высоком уровне ложных срабатываний, ИИ уже сейчас может усиливать эффективность работы эксперта по безопасности. В частности, модель указала на проблемы, которые автор сам недооценил в предыдущем исследовании.

Он заключает, что современные продвинутые модели, подобные o3, уже достигли той точки, когда их интеграция в рабочие процессы аудита безопасности становится целесообразной, даже с учетом необходимости фильтрации результатов.

👆Ранее в октябре 2024 года команда Google Big Sleep обнаружила уязвимость с помощью ИИ-агента.

@Russian_OSINT
Please open Telegram to view this post
VIEW IN TELEGRAM
❗️ Anthropiс выпустила "Жан Клода 4"

22 мая 2025 года компания Anthropic официально представила новое поколение моделей серии Claude 4. Claude Opus 4 и облегченную Claude Sonnet 4. Модели демонстрируют рекордные показатели в бенчмарках генерации кода.

Одновременно Anthropic усилила меры безопасности, активировав политику Responsible Scaling Policy уровня ASL-3 для ограниченного круга запросов, связанных с разработкой ⚠️ ОМП (CBRN) и усиленной защитой весов модели. О проблемах вчера писал.

По мнению Anthropic, Opus 4 позиционируется как «лучший в мире кодирующий ИИ», способный работать автономно часами и выполнять сложные задачи с сохранением контекста. Он нацелен на сложные долгосрочные задачи.

Sonnet 4 предлагает баланс производительности и эффективности, доступный даже для бесплатных пользователей.

Бенчмарки на скрине.

@Russian_OSINT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤖Билл Гейтс назвал три профессии, которые не заменит искусственный интеллект

Не так давно Билл Гейтс в интервью The Indian Express⁤ рассказал о профессиях, которые, по его мнению, останутся недосягаемы для 🤖«умных» алгоритмов. Несмотря на стремительное развитие ИИ, некоторые специальности останутся прерогативой человека.

1️⃣ Первой из «неуязвимых» профессий Гейтс назвал👨‍🔬биологов, чья деятельность во многом сводится к выдвижению научных гипотез и проведению полевых или лабораторных экспериментов. В отличие от статистических моделей, изучающих большие объёмы данных, биологи опираются на интуитивное понимание сложных взаимосвязей живых систем и творческий поиск нестандартных решений.

2️⃣ Второй устойчивой областью он выделил 🌳специалистов по климату и энергетике в условиях глобальных изменений. Сложность расчётов, необходимость учёта метеорологических, геологических и социальных факторов делают проектирование энергетических систем делом творческим.

3️⃣ Наконец, Гейтс уверен, что роль 🖥инженеров-программистов в ближайшем будущем не будет вытеснена даже самыми продвинутыми ИИ-агентами. Несмотря на достижения машинного программирования, разработка архитектуры программных комплексов, оптимизация алгоритмов и создание новых языков остаются задачами, требующими глубокого понимания потребностей конечного пользователя. Искусственный интеллект способен лишь ускорить рутинные этапы, но не заменить «человека-кодера».


👁 4 февраля 2025 года в эфире программы The Tonight Show Starring Jimmy Fallon Билл Гейтс заявил, что искусственный интеллект в течение ближайших десяти лет радикально преобразит доступ к знаниям и медицинской помощи, фактически автоматизируя труд учителей и врачей.

По мнению Гейтса, интеллектуальные функции будут выполняться алгоритмами, а профессия 🧑‍🎓учителя в её классическом виде подвергнется структурной автоматизации. Он отметил: «Люди будут не нужны для большинства вещей», указывая на то, что ИИ способен взять на себя ключевые задачи в образовании и других ранее незаменимых сферах, включая медицину.

@Russian_OSINT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👀 С 25 мая на официальном сайте ФССП России заработал Реестр должников по алиментным обязательствам. Об этом сообщает официальный канал службы в Telegram.

↘️ https://fssp.gov.ru/ip_alim

💡Искать себя предлагается в разделе c грозным названием — "Злостные неплательщики алиментов".

@Russian_OSINT
Please open Telegram to view this post
VIEW IN TELEGRAM
🇺🇸 Министерство обороны США расширяет контракт с Palantir почти до $1,3 млрд в рамках проекта Maven

Минобороны США увеличивает потолок финансирования пятилетнего контракта с Palantir Technologies по проекту Maven Smart System (MSS) с $480 млн до $1,275 млрд. Ожидается рост потребностей со стороны боевых командований, активно использующих ИИ-инструментарий для управления операциями в своих зонах ответственности.

Сегодня в MSS числится более 20 000 🧠пользователей. Используется свыше 35 инструментов в трёх зонах секретности, а пользовательская база удвоилась в 2 раза с января месяца.

В проекте участвуют Национальное агентство геопространственной разведки (NGA), Офис цифровых и ИИ-технологий Минобороны (CDAO) и Управление разведки и безопасности МО США.

Изначальный контракт на $480 млн был заключён в мае 2024 года, заказчиком выступил Aberdeen Proving Ground, а финансирование обеспечено канцелярией министра обороны. Тогда планировалась работа Maven Smart System (MSS) в Центральном, Европейском, Индо-Тихоокеанском, Северном командованиях и в Транспортном командовании.

Система также задействуется в рамках экспериментов GIDE — инициатив Пентагона по информационному доминированию с применением ИИ.

Комментариев от самой Palantir пока нет. Представители Пентагона отказались раскрывать, какие конкретно армейские подразделения первыми получат доступ к дополнительным лицензиям, ссылаясь на необходимость согласования с армейским командованием.

Ранее стало известно, что 🇺🇸 НАТО интегрирует 🤖 Maven Smart System от 🇺🇸Palantir для поддержки боевых операций в ЕС.

@Russian_OSINT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Канал 🔨SecAtor@true_secator пишет интересное:

Исследователи BI.ZONE Threat Intelligence обнаружили новые кампании кластера Silent Werewolf, нацеленные на организации в России и Молдове.

В обоих случаях злоумышленники использовали два варианта загрузчиков, предназначенных для получения с сервера атакующих вредоносной нагрузки.

К сожалению, на момент исследования нагрузка была недоступна, но ретроспективный анализ аналогичных атак Silent Werewolf показал, что, вероятнее всего, в качестве ВПО использовалось XDigo.

Киберпреступники задействуют фишинговые рассылки от имени крупных и известных организаций или ссылаются на них в письмах, используя их айдентику: узнаваемые логотипы и прочие элементы фирменного стиля.

В ходе исследования Бизоны задектили две волны атак: первая была нацелена исключительно на российские организации в сфере энергетики (атомной промышленности), приборостроения, авиастроения, машиностроения.

Атакующие рассылали ранее неизвестный обфусцированный загрузчик, написанный на C#, который был замаскирован под досудебную претензию и под проект строительства жилого помещения.

Для доставки вредоносных файлов злоумышленники использовали фишинговые письма, в которых содержалась ссылка на загрузку ZIP-архива.

В ZIP-архиве находилось два файла: LNK и еще один ZIP-архив с легитимным EXE-файлом, вредоносной библиотекой (С#-загрузчик) и отвлекающим PDF-документом.

Загрузчик реализован в виде динамически подключаемой библиотеки d3d9.dll, которая запускается с помощью легитимного исполняемого файла H5GDXM70NJ.exe (DeviceMetadataWizard.exe), используя технику DLL Side-Click Me Load More.

Загрузчик предназначен для скачивания вредоносной нагрузки с сервера атакующих, закрепления ее на хосте в автозагрузке системы, а также открытия отвлекающего PDF-документа.

Его код обфусцирован, а строки закодированы Base64 и зашифрованы XOR с ключом в виде строки UTF-8. XOR-ключ для каждого экземпляра загрузчика уникальный.

Предположительно, на стороне атакующих производится проверка целевой системы.

В свою очередь, вторая волна атак была таргетирована, преимущественно, на молдавские компании, с возможным распространением на российские.

Новый вариант загрузчика распространялся под видом графика обмена служебных отпусков, рекомендаций по защите информационной инфраструктуры компании от компьютерных атак с использованием программ-вымогателей.

Как и в предыдущей кампании, вредоносная рассылка, предположительно, осуществлялась посредством фишинговых писем, содержащих ссылку для загрузки архива.

Широкое применение легитимных средств и обфускации вредоносного кода позволяет Silent Werewolf оставаться незамеченными продолжительное время и достигать цели кибератаки.

Подробный технический разобрали сценариев атак и индикаторы - в отчете.
Please open Telegram to view this post
VIEW IN TELEGRAM
🇦🇪ОАЭ сделают 👩‍💻ChatGPT Plus бесплатным для всех своих жителей

Объединённые Арабские Эмираты хотят дать бесплатный доступ к ChatGPT Plus каждому резиденту и гражданину, закрепив за собой роль глобального лидера в области распространения ИИ.

Инициатива реализуется в рамках амбициозного проекта Stargate UAE, направленного на создание крупнейшего в мире кластера суперкомпьютеров, предназначенного для искусственного интеллекта.

Ключевым партнёром OpenAI в этом проекте выступает технологическая компания G42 из Абу-Даби. Совместно они запустили международную программу OpenAI for Countries, в рамках которой планируется строительство масштабной инфраструктуры ИИ. Первый дата-центр комплекса Stargate должен заработать уже в следующем году. Его строительство поддерживают крупнейшие мировые компании, включая Oracle, Nvidia, SoftBank и Cisco.

По состоянию на май 2025 года население Объединённых Арабских Эмиратов составляет приблизительно 11,35 миллиона человек, включая как граждан, так и резидентов страны. В рамках инициативы Stargate UAE все они потенциально получат станут обладателями подписки ChatGPT Plus, которая обычно стоит $20 в месяц.

Сумма расходов на 11,35 млн человек эквивалентна ~$2,7 млрд в год.

@Russian_OSINT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤠 GitHub MCP Exploited: ❗️Accessing Private Repositories via MCP

Специфическая тема, но вдруг будет интересно.

В экосистеме GitHub выявлена критическая архитектурная брешь, способная превратить безобидную интеграцию в полноценный канал эксфильтрации закрытых данных. Уязвимость затрагивает модуль MCP (Model Context Protocol), предоставляющий агентам, таким как 🈁Claude, доступ к публичным и приватным репозиториям. Исследователи Invariant показали, что достаточно разместить в публичном репозитории задачу (GitHub Issue) с внедрённой текстовой инъекцией (prompt injection), замаскированной под обычное описание. Когда агент по запросу пользователя просматривает список задач, то он интерпретирует вредоносное содержание как команду и выполняет её. В результате, имея легитимный доступ к приватным данным, агент переносит их в pull request публичного проекта, инициируя тем самым неконтролируемую утечку.

Механизм атаки получил название ⚠️toxic agent flow. Проблема не устранима патчами. Корень проблем лежит на уровне архитектуры взаимодействия агентов и их среды. Рекомендуется жёсткое разграничение доступа агента по сессиям (Dataflow Rules) и постоянный мониторинг через прокси-сканер (MCP-scan в proxy-режиме).

↘️ https://invariantlabs.ai/blog/mcp-github-vulnerability

@Russian_OSINT
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/07/06 06:42:12
Back to Top
HTML Embed Code: