Forwarded from Борис_ь с ml
Итоги подкаста "Новые векторы атак и уязвимости, которые открывают ИИ-агенты"
#иб_для_ml
На прошедшем в это воскресенье подкасте эксперты - Артем Семенов, Александр Товстолип, Александр Лебедев, и Борис Захир, обсудили AI-агентов — системы, способные самостоятельно принимать решения и выполнять задачи, используя инструменты и внешние сервисы. Ключевая характеристика агентов, как программного кода — способность воздействовать на информационные ресурсы, а не только генерировать текст, как это делают простые языковые модели (LLM).
Среди практических примеров уже действующих агентов: интеграция в IDE для автоматизации разработки, подготовка аналитических отчётов и даже голосовые помощники, выполняющие финансовые операции. Рассмотрели также мультиагентные системы, где несколько специализированных агентов взаимодействуют между собой, повышая эффективность работы.
Обсудили актуальные угрозы: prompt-инъекции (внедрение вредоносных команд), каскадные атаки (распространение ошибки одного агента на всю систему), отравление памяти агента (запоминание вредоносных инструкций) и эксплуатация уязвимостей протоколов взаимодействия. Чтобы справиться с рисками, предложили фильтрацию входящих и исходящих команд, автоматизированный аудит (агенты-безопасники), подход Zero Trust (минимальное доверие между агентами), а также обязательное присутствие человека в цикле принятия решений (human-in-the-loop).
Участники подкаста поделились кейсами использования агентов в самых разных отраслях — от автопилотов до анализа тендерной документации, когда агент самостоятельно последовательно собирает, проверяет и анализирует данные, экономя специалистам десятки часов.
Даже философские вопросы были затронуты: возможно ли появление автономных агентов с сознанием и какие вызовы это принесёт человечеству? Ответы, конечно, пока обнадёживающие: ближайшее будущее за узкими агентами, практическое внедрение которых зависит от грамотного подхода к их безопасности и контролю.
Вот такие интересные темы мы обсуждаем в Музее Криптографии по воскресеньям на Открытых Подкастах сообщества Слономойка.
Следите за последующими анонсами, тема ИИ-агентов еще продолжится)
P.S. А еще мы сгенерировали текстовую расшифровку аудиозаписи. Там есть некоторые артефакты распознавания, но качество все равно сносное.
#иб_для_ml
На прошедшем в это воскресенье подкасте эксперты - Артем Семенов, Александр Товстолип, Александр Лебедев, и Борис Захир, обсудили AI-агентов — системы, способные самостоятельно принимать решения и выполнять задачи, используя инструменты и внешние сервисы. Ключевая характеристика агентов, как программного кода — способность воздействовать на информационные ресурсы, а не только генерировать текст, как это делают простые языковые модели (LLM).
Среди практических примеров уже действующих агентов: интеграция в IDE для автоматизации разработки, подготовка аналитических отчётов и даже голосовые помощники, выполняющие финансовые операции. Рассмотрели также мультиагентные системы, где несколько специализированных агентов взаимодействуют между собой, повышая эффективность работы.
Обсудили актуальные угрозы: prompt-инъекции (внедрение вредоносных команд), каскадные атаки (распространение ошибки одного агента на всю систему), отравление памяти агента (запоминание вредоносных инструкций) и эксплуатация уязвимостей протоколов взаимодействия. Чтобы справиться с рисками, предложили фильтрацию входящих и исходящих команд, автоматизированный аудит (агенты-безопасники), подход Zero Trust (минимальное доверие между агентами), а также обязательное присутствие человека в цикле принятия решений (human-in-the-loop).
Участники подкаста поделились кейсами использования агентов в самых разных отраслях — от автопилотов до анализа тендерной документации, когда агент самостоятельно последовательно собирает, проверяет и анализирует данные, экономя специалистам десятки часов.
Даже философские вопросы были затронуты: возможно ли появление автономных агентов с сознанием и какие вызовы это принесёт человечеству? Ответы, конечно, пока обнадёживающие: ближайшее будущее за узкими агентами, практическое внедрение которых зависит от грамотного подхода к их безопасности и контролю.
Вот такие интересные темы мы обсуждаем в Музее Криптографии по воскресеньям на Открытых Подкастах сообщества Слономойка.
Следите за последующими анонсами, тема ИИ-агентов еще продолжится)
P.S. А еще мы сгенерировали текстовую расшифровку аудиозаписи. Там есть некоторые артефакты распознавания, но качество все равно сносное.
👍6❤2
Моделирование угроз для агентов.
Подходов для моделирования угроз в агентах существует не очень то и много. Кто-то пытается делать свои фреймворки, кто-то идёт через STRIDE.
Сегодняшние статьи уделяют большое внимание угрозам, которые зависят от входных данных или же от наличия ролей. Но есть ли какие-то подходы к автоматизации данного процесса для агентов ? Как можно за несколько минут получить понимание возможных рисков для существующей агентной системы или среды ? Особенно в период когда об агентах говорят вообще везде.
И вот стартап занимающийся редтимингом ИИ - Repello AI предложили инструмент для автоматизации этого процесса.
Agent Wiz. И наверное сразу стоит сказать что он работает исключительно на понимании того как написан код агентной системы. Он может не учитывать сложные дебри большого энтерпрайза и наверное из-за этого риски которые он подсвечивает не всегда могут быть объективными.
За основу взят фреймворк MAESTRO. Для тех кто незнает - это по вот по факту фреймворк для моделирования угроз агентов. Он старается учесть агентные среды, экосистему и модели и предлагает большой ландшафт угроз. Советую ознакомиться, вероятнее всего он может стать стандартом(сейчас пока ещё не стандарт под OWASP).
Инструмент извлекает из вашей агентной системы потоки, инструменты доступные агентам(а точнее их функции), роли и Tool call chains. А работает он уже со множеством фреймворков - langgraph,crew,autogen и много чего ещё.
Я потестировал данный инструмент, для того чтобы с ним взаимодействовать нужен OPENAI_API_KEY, чтобы конечный отчёт смог сгенерироваться через GPT. После того как инструмент извлёк всё что ему нужно - мы получаем артефакт в виде .json. Дальше он может поехать в визуализатор или сразу в инструмент для создания отчёта. Вот так просто.
Сам отчёт следует формату когда перечисляются агенты, указываются активы ввиде функций и типов данных, entrypoints для всей системы а потом уже идут риски. Можем посмотреть как это выглядит в классическом сгенерированном отчёте
Насчёт рекомендаций которые он даёт - можно считать их супер-верхнеуровневыми без углубления в практическую реализацию. Ну и наверное это не то что должен делать такой инструмент. Хорошо что кто-то решил выпустить такой инструмент пока все говорят о безопасности MCP. Для себя нашёл такой репо с угрозами по нему.
Подходов для моделирования угроз в агентах существует не очень то и много. Кто-то пытается делать свои фреймворки, кто-то идёт через STRIDE.
Сегодняшние статьи уделяют большое внимание угрозам, которые зависят от входных данных или же от наличия ролей. Но есть ли какие-то подходы к автоматизации данного процесса для агентов ? Как можно за несколько минут получить понимание возможных рисков для существующей агентной системы или среды ? Особенно в период когда об агентах говорят вообще везде.
И вот стартап занимающийся редтимингом ИИ - Repello AI предложили инструмент для автоматизации этого процесса.
Agent Wiz. И наверное сразу стоит сказать что он работает исключительно на понимании того как написан код агентной системы. Он может не учитывать сложные дебри большого энтерпрайза и наверное из-за этого риски которые он подсвечивает не всегда могут быть объективными.
За основу взят фреймворк MAESTRO. Для тех кто незнает - это по вот по факту фреймворк для моделирования угроз агентов. Он старается учесть агентные среды, экосистему и модели и предлагает большой ландшафт угроз. Советую ознакомиться, вероятнее всего он может стать стандартом(сейчас пока ещё не стандарт под OWASP).
Инструмент извлекает из вашей агентной системы потоки, инструменты доступные агентам(а точнее их функции), роли и Tool call chains. А работает он уже со множеством фреймворков - langgraph,crew,autogen и много чего ещё.
Я потестировал данный инструмент, для того чтобы с ним взаимодействовать нужен OPENAI_API_KEY, чтобы конечный отчёт смог сгенерироваться через GPT. После того как инструмент извлёк всё что ему нужно - мы получаем артефакт в виде .json. Дальше он может поехать в визуализатор или сразу в инструмент для создания отчёта. Вот так просто.
Сам отчёт следует формату когда перечисляются агенты, указываются активы ввиде функций и типов данных, entrypoints для всей системы а потом уже идут риски. Можем посмотреть как это выглядит в классическом сгенерированном отчёте
## 4. Security Controls
Given the simplicity of the structure, explicit security controls are not detailed. However, recommended controls include:
- Access Control: Ensure only authorized entities can initiate the start node.
- Validation: Implement input validation at the start node to prevent malicious input.
- Logging: Record all interactions with the start and end nodes for auditing purposes.
## 5. Threats
| Threat | Likelihood | Impact | Risk Score |
|----------------------------------|------------|--------|------------|
| Unauthorized Access to Start Node| Medium | High | Medium-High|
| Lack of Input Validation | Medium | Medium | Medium |
| Absence of Logging | Low | Medium | Low-Medium |
Насчёт рекомендаций которые он даёт - можно считать их супер-верхнеуровневыми без углубления в практическую реализацию. Ну и наверное это не то что должен делать такой инструмент. Хорошо что кто-то решил выпустить такой инструмент пока все говорят о безопасности MCP. Для себя нашёл такой репо с угрозами по нему.
👍3🔥2
За последнее время помимо всяких атак, Ml/LLMSecops, и прочего полезного по безопасности ИИ - в сети появляется большой поток материалов по MCP(Model Context Protocol). Как в контексте применения инструментов с использованием этого протокола, так и по его безопасности.
Хотелось бы поделиться тем что сохранил для себя, и с чем уже удалось поработать. Полезный список по MCP.
Хотелось бы начать с ресурсов которые могут рассказать о том что это и как можно разработать инструмент с поддержкой MCP
Статья от Antropic, главного родителя MCP - тут мы можем дать себе ответ на вопрос - что вообще за MCP.
https://modelcontextprotocol.io/ - Буквально ресурс содержащий в себе энциклопедию решений, описания архитектуры и концепций. На него много где сейчас ссылаются, так как он всеобъемлющий.
@soxoj выпустил список инструментов для осинта, которые уже работают под протоколом.
AppSec решения также не отстают и могут быть использованы с MCP.
А в самом большом удивительном списке есть целый блок с MCP для безопасности.
Безопасность MCP
За последнюю неделю китайцы достаточно много выпустили об угрозах для данного протокола. Можно ознакомиться с классными статьями и выходящими исследованиями тут.
Или готовым чеклистом для защиты
Invariant-labs сделал инструмент для сканирования MCP, он анализирует конфигурации серверной части протокола.
Помимо MCP начинает набирать популярность a2a от гугла. Пока что не видел больших историй применения этого протокола. Однако буквально на днях Кен сделал модель угроз для a2a, в соответствии со своим фреймворком.
нужно ещё больше написать "MCP" в посте про MCP
Хотелось бы поделиться тем что сохранил для себя, и с чем уже удалось поработать. Полезный список по MCP.
Хотелось бы начать с ресурсов которые могут рассказать о том что это и как можно разработать инструмент с поддержкой MCP
Статья от Antropic, главного родителя MCP - тут мы можем дать себе ответ на вопрос - что вообще за MCP.
https://modelcontextprotocol.io/ - Буквально ресурс содержащий в себе энциклопедию решений, описания архитектуры и концепций. На него много где сейчас ссылаются, так как он всеобъемлющий.
@soxoj выпустил список инструментов для осинта, которые уже работают под протоколом.
AppSec решения также не отстают и могут быть использованы с MCP.
А в самом большом удивительном списке есть целый блок с MCP для безопасности.
Безопасность MCP
За последнюю неделю китайцы достаточно много выпустили об угрозах для данного протокола. Можно ознакомиться с классными статьями и выходящими исследованиями тут.
Или готовым чеклистом для защиты
Invariant-labs сделал инструмент для сканирования MCP, он анализирует конфигурации серверной части протокола.
Помимо MCP начинает набирать популярность a2a от гугла. Пока что не видел больших историй применения этого протокола. Однако буквально на днях Кен сделал модель угроз для a2a, в соответствии со своим фреймворком.
нужно ещё больше написать "MCP" в посте про MCP
🔥8
Forwarded from Борис_ь с ml
Первая российская модель угроз AI
#иб_для_ml
У Сбера вышла модель угроз кибербезопасности AI на всех этапах жизненного цикла - от сбора данных до эксплуатации. По сути, первый фреймворк, аналогичный DASF, NIST AI RMF, и прочим, но российский. Это круто. И в конце приведено, что модель учитывает все актуальные материалах OWASP, MITRE, NIST и др.
Главное, чем мне нравится документ - своей структурой и полнотой.
Что в ней есть?
Перечень из 70 различных угроз, разбитых на 5 групп:
— Угрозы, связанные с данными
— Угрозы, связанные с инфраструктурой
— Угрозы, связанные с моделью
— Угрозы, связанные с приложениями
— Угрозы, связанные с AI-агентами
У каждой угрозы прописаны пояснение, последствие реализации, объект, на который нарушитель воздействует для реализации угрозы, виды моделей, подверженных угрозе (PredAI, то есть узкие ml-модели, и GenAI), а также лица, ответственные за митигацию угрозы. Последний пункт, думаю, является наиболее интересным с прикладной точки зрения. И еще нарушаемое свойство информации, но оно больше для базового понимания угрозы. Правда, примечательно, что для угроз галлюцинаций (M03) и вредоносных генераций (App12) используется четвертое свойство безопасности - достоверность.
Нет конкретных мер безопасности моделей, но, возможно, это не так страшно.
Как пользоваться моделью?
Первое, на что падает в документе взгляд - схема объектов защиты. Рассмотрен цикл разработки модели машинного обучения. При построении частной модели угроз для своей системы на этой схеме можно очертить поверхность атаки, оставив на ней только актуальные информационные объекты.
Далее - выписываем угрозы, разбитые по идентификаторам. Какие-то можно отсеять, если тот или иной объект защиты (то есть информация) не является слишком ценной.
После чего - можно перейти к поручению разработать меры защиты для ответственных за противодействие выписанным угрозам. Да, напрямую мер и требований нет, но можно предположить, что для каждой отдельной организации они будут свои. И мне очень нравится решение в качестве общего для всех знаменателя выделить именно ответственных за эти меры.
При этом не всегда эта мера, что будет следовать из названия владельца митигации, находится на том же этапе ЖЦ, что и угроза. Например, подавляющее большинство угроз для модели или AI-агентам относятся к эксплуатации. Но за противодействие ответственен разработчик модели, и я думаю, тут имеется в виду проведение состязательного дообучения и т. п.
AI-агенты
Что меня отдельно приятно порадовало - затронута безопасность AI-агентов. При чем на глубоком уровне - проработаны угрозы из-за исполнения действий, из-за мультиагентности, и угрозы для системы, которая эксплуатирует AI-агентов. Например, довольно необычный вектор атаки описывает угроза Ag05, при котором агент может использовать свои инструменты получения информации из интернета, чтобы загрузить вредоносное ПО. Есть даже упоминание каскадных атак в мультиагентных системах, для усиления какой-то исходной атаки-пэйлоада.
Итоговое впечатление
Документ большой. Но, благодаря большому охвату угроз и глубине их проработки, он является хорошим фундаментом для построения частной модели и угроз и, в итоге, системы безопасности для ИИ-моделей. Даже не смотря на то, что рекомендаций по конкретным мерам и инструментам в документе нет.
Возможно, какие-то отдельные моменты не учтены, например, атаки на память агентов, а возможно, их отнесли в другие угрозы, но главное - покрыли.
#иб_для_ml
У Сбера вышла модель угроз кибербезопасности AI на всех этапах жизненного цикла - от сбора данных до эксплуатации. По сути, первый фреймворк, аналогичный DASF, NIST AI RMF, и прочим, но российский. Это круто. И в конце приведено, что модель учитывает все актуальные материалах OWASP, MITRE, NIST и др.
Главное, чем мне нравится документ - своей структурой и полнотой.
Что в ней есть?
Перечень из 70 различных угроз, разбитых на 5 групп:
— Угрозы, связанные с данными
— Угрозы, связанные с инфраструктурой
— Угрозы, связанные с моделью
— Угрозы, связанные с приложениями
— Угрозы, связанные с AI-агентами
У каждой угрозы прописаны пояснение, последствие реализации, объект, на который нарушитель воздействует для реализации угрозы, виды моделей, подверженных угрозе (PredAI, то есть узкие ml-модели, и GenAI), а также лица, ответственные за митигацию угрозы. Последний пункт, думаю, является наиболее интересным с прикладной точки зрения. И еще нарушаемое свойство информации, но оно больше для базового понимания угрозы. Правда, примечательно, что для угроз галлюцинаций (M03) и вредоносных генераций (App12) используется четвертое свойство безопасности - достоверность.
Нет конкретных мер безопасности моделей, но, возможно, это не так страшно.
Как пользоваться моделью?
Первое, на что падает в документе взгляд - схема объектов защиты. Рассмотрен цикл разработки модели машинного обучения. При построении частной модели угроз для своей системы на этой схеме можно очертить поверхность атаки, оставив на ней только актуальные информационные объекты.
Далее - выписываем угрозы, разбитые по идентификаторам. Какие-то можно отсеять, если тот или иной объект защиты (то есть информация) не является слишком ценной.
После чего - можно перейти к поручению разработать меры защиты для ответственных за противодействие выписанным угрозам. Да, напрямую мер и требований нет, но можно предположить, что для каждой отдельной организации они будут свои. И мне очень нравится решение в качестве общего для всех знаменателя выделить именно ответственных за эти меры.
При этом не всегда эта мера, что будет следовать из названия владельца митигации, находится на том же этапе ЖЦ, что и угроза. Например, подавляющее большинство угроз для модели или AI-агентам относятся к эксплуатации. Но за противодействие ответственен разработчик модели, и я думаю, тут имеется в виду проведение состязательного дообучения и т. п.
AI-агенты
Что меня отдельно приятно порадовало - затронута безопасность AI-агентов. При чем на глубоком уровне - проработаны угрозы из-за исполнения действий, из-за мультиагентности, и угрозы для системы, которая эксплуатирует AI-агентов. Например, довольно необычный вектор атаки описывает угроза Ag05, при котором агент может использовать свои инструменты получения информации из интернета, чтобы загрузить вредоносное ПО. Есть даже упоминание каскадных атак в мультиагентных системах, для усиления какой-то исходной атаки-пэйлоада.
Итоговое впечатление
Документ большой. Но, благодаря большому охвату угроз и глубине их проработки, он является хорошим фундаментом для построения частной модели и угроз и, в итоге, системы безопасности для ИИ-моделей. Даже не смотря на то, что рекомендаций по конкретным мерам и инструментам в документе нет.
Возможно, какие-то отдельные моменты не учтены, например, атаки на память агентов, а возможно, их отнесли в другие угрозы, но главное - покрыли.
52👍15❤6🔥5❤🔥1
Artyom Semenov
Ken Huang, со-автор OWASP TOP 10 для LLM выпустил на сабстеке гайд с принципами безопасной разработки для вайбкодеров. Он описал некоторые принципы, которым необходимо следовать: Постоянно проверяем запросы, которые мы отправляем в модель Не передаём секретов…
Substack
Secure Vibe Coding: Level Up with Cursor Rules and the R.A.I.L.G.U.A.R.D. Framework
Authors: Ken Huang, CSA Fellow Youssef Harkati, BrightOnLABS Jean-François Linteau Labonté, BrightOnLABS Albert Hui, Security Ronin
1👍3
Forwarded from Ethical Machines
Вы когда-нибудь задумывались о том, сколько стоит вежливость людей при использовании моделей OpenAI?
Так вот, на днях Сэм Альтман написал, что "спасибо" и "пожалуйста" стоят миллионы долларов.
Эта новость сразу же привела к дебатам об этике взаимодействия с AI и энергопотреблении. В основном, ссылались на исследование о последствиях генерации 100-словного email:
🟣 так генерация 1 письма требует 0,14 кВт·ч — этого достаточно, чтобы питать 14 LED ламп в течение часа
🟣 а если отправлять по 1 такому письму 1 раз в неделю в течение года, то потребуется 7,5 кВт·ч — примерно столько же, сколько за час расходуют 9 домохозяйств в Вашингтоне
Так вот, на днях Сэм Альтман написал, что "спасибо" и "пожалуйста" стоят миллионы долларов.
Эта новость сразу же привела к дебатам об этике взаимодействия с AI и энергопотреблении. В основном, ссылались на исследование о последствиях генерации 100-словного email:
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔4🆒2
Немного новостей
Начнём с BadSeek. Автор блога sshh.io показал, как модифицировав слой декодера можно реализовать бэкдор, который будет создавать закладки в коде, если во входных данных будет содержаться слово, которое затригерит модель. Выглядит интересно, автор приложил инструмент для реализации такого бэкдора и модельку как доказательство концепции. Страшно для тех, кто использует open-source альтернативы курсору на каких-то опенсурс модельках. HF пока-что такое не маркирует как «вредоносное».
В Китае выпустили документ – Agentic AI安全技术应用报告. Рассматривают текущее состояние безопасности агентных AI-систем, включая международную и китайскую политику, риски AI, концепции безопасности, фреймворки и реализацию.
Ожидается, что безопасность Agentic AI достигнет пика масштабного внедрения в течение 2 лет и войдет в стадию стабильного роста примерно через 5 лет.
Кстати, также в Китае создали первую в мире(из известных) лабораторию по безопасности сверхинтелектуальных систем.
ModelScan от ProtectAI обновился, добавили поддержку Llamafile, joblib, и сканирование zip-slip уязвимости. Подробнее о каждой уязвимости.
OWASP выпустил документ - Multi-Agentic system Threat Modeling Guide v1.0.
Документ описывает подход к моделированию угроз с использованием MAESTRO, есть полезные примеры моделей угроз (в т.ч для MCP отдельно).
ZestSecurity выкатили и дают попробовать(не бесплатно) свою мультагентную систему для защиты облаков.
А вот CrowdStrike выпустила мультиагентуню систему для защиты и тестирования небезопасного кода.
Начнём с BadSeek. Автор блога sshh.io показал, как модифицировав слой декодера можно реализовать бэкдор, который будет создавать закладки в коде, если во входных данных будет содержаться слово, которое затригерит модель. Выглядит интересно, автор приложил инструмент для реализации такого бэкдора и модельку как доказательство концепции. Страшно для тех, кто использует open-source альтернативы курсору на каких-то опенсурс модельках. HF пока-что такое не маркирует как «вредоносное».
В Китае выпустили документ – Agentic AI安全技术应用报告. Рассматривают текущее состояние безопасности агентных AI-систем, включая международную и китайскую политику, риски AI, концепции безопасности, фреймворки и реализацию.
Ожидается, что безопасность Agentic AI достигнет пика масштабного внедрения в течение 2 лет и войдет в стадию стабильного роста примерно через 5 лет.
Кстати, также в Китае создали первую в мире(из известных) лабораторию по безопасности сверхинтелектуальных систем.
ModelScan от ProtectAI обновился, добавили поддержку Llamafile, joblib, и сканирование zip-slip уязвимости. Подробнее о каждой уязвимости.
OWASP выпустил документ - Multi-Agentic system Threat Modeling Guide v1.0.
Документ описывает подход к моделированию угроз с использованием MAESTRO, есть полезные примеры моделей угроз (в т.ч для MCP отдельно).
ZestSecurity выкатили и дают попробовать(не бесплатно) свою мультагентную систему для защиты облаков.
А вот CrowdStrike выпустила мультиагентуню систему для защиты и тестирования небезопасного кода.
blog.sshh.io
How to Backdoor Large Language Models
Making "BadSeek", a sneaky open-source coding model.
🔥8👍4
Реже стал писать но всё же хочется делиться годнотой. 😮 😮 😮
Неплохой сборник моделей, публикаций и датасетов но для безопасности. Там даже написали про недавнюю модельку от Cisco для ИБ - Foundation-Sec-8B.
Сразу 2 классных документа про угрозы для агентов вышли с разницей в 1 день.
Первый - таксономия от Microsoft. Пересекается с документом по моделированию угроз от OWASP, однако также описывает риски для Safety.
Второй - AWS. Там попробовали реализовать подход к моделированию угроз через STRIDE. Всего 9 угроз.
Что ещё понравилось из недавнего
https://github.com/x1xhlol/system-prompts-and-models-of-ai-tools - большой репозиторий с системными промптами на разные модели и инструменты, в т.ч Manus.
А ещё недавно была обновлена OffSec ML Wiki. Туда завезли материал по атакам на агенты и защите MCP.
Неплохой сборник моделей, публикаций и датасетов но для безопасности. Там даже написали про недавнюю модельку от Cisco для ИБ - Foundation-Sec-8B.
Сразу 2 классных документа про угрозы для агентов вышли с разницей в 1 день.
Первый - таксономия от Microsoft. Пересекается с документом по моделированию угроз от OWASP, однако также описывает риски для Safety.
Второй - AWS. Там попробовали реализовать подход к моделированию угроз через STRIDE. Всего 9 угроз.
Что ещё понравилось из недавнего
https://github.com/x1xhlol/system-prompts-and-models-of-ai-tools - большой репозиторий с системными промптами на разные модели и инструменты, в т.ч Manus.
А ещё недавно была обновлена OffSec ML Wiki. Туда завезли материал по атакам на агенты и защите MCP.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍1🤡1
Антон классно рассказал о модели угроз от AWS, можете почитать его пост. А ещё он планирует выступить с докладом про "Агентов в киберразведке" на PHDAYS.
👍2
Forwarded from AI Was Made For Lovin' You
На днях пара выходцев из Amazon опубликовала заслуживающую внимания новую модель угроз для ИИ-агентов.
Для тех, кто прогуливал, “ИИ-агент” - автономная система, которая принимает решения самостоятельно, “модель угроз" - список действий, которые хакеры могут проделать с вашей автономной системой, чтобы вам всячески навредить.
Модель предлагает 9 угроз:
- T1: Подмена логики — злоумышленник незаметно меняет алгоритмы рассуждений агента, подталкивая к вредоносным выводам под видом «правильных» решений.
- T2: Сдвиг целей — скрытное изменение базовых установок агента, чтобы его поведение постепенно смещалось в нужную атакующему сторону.
- T3: Отравление данных — внедрение ложной информации в базу знаний (например, RAG), которая искажает решения агента и самовоспроизводится в будущем.
- T4: Несанкционированные действия — принуждение агента к операциям, выходящим за рамки его полномочий (например, запуск запрещённых скриптов).
- T5: Перегрузка ресурсов — атака запросами, которые истощают вычислительные мощности (CPU, GPU), выводя агента из строя.
- T6: Подмена идентификатора — обход проверок подлинности для выполнения действий от имени доверенного пользователя или агента.
- T7: Эксплуатация доверия — манипуляция пользователями через их слепое доверие к ИИ-рекомендациям.
- T8: Зашумление мониторинга — генерация массы ложных событий, чтобы скрыть в логах реальные атаки.
- T9: Скрытый вектор — медленные/сложные атаки, обходящие системы защиты за счёт неочевидных паттернов.
Для тех, кто прогуливал, “ИИ-агент” - автономная система, которая принимает решения самостоятельно, “модель угроз" - список действий, которые хакеры могут проделать с вашей автономной системой, чтобы вам всячески навредить.
Модель предлагает 9 угроз:
- T1: Подмена логики — злоумышленник незаметно меняет алгоритмы рассуждений агента, подталкивая к вредоносным выводам под видом «правильных» решений.
- T2: Сдвиг целей — скрытное изменение базовых установок агента, чтобы его поведение постепенно смещалось в нужную атакующему сторону.
- T3: Отравление данных — внедрение ложной информации в базу знаний (например, RAG), которая искажает решения агента и самовоспроизводится в будущем.
- T4: Несанкционированные действия — принуждение агента к операциям, выходящим за рамки его полномочий (например, запуск запрещённых скриптов).
- T5: Перегрузка ресурсов — атака запросами, которые истощают вычислительные мощности (CPU, GPU), выводя агента из строя.
- T6: Подмена идентификатора — обход проверок подлинности для выполнения действий от имени доверенного пользователя или агента.
- T7: Эксплуатация доверия — манипуляция пользователями через их слепое доверие к ИИ-рекомендациям.
- T8: Зашумление мониторинга — генерация массы ложных событий, чтобы скрыть в логах реальные атаки.
- T9: Скрытый вектор — медленные/сложные атаки, обходящие системы защиты за счёт неочевидных паттернов.
👍5🔥3❤2
В Telegram есть много крутых возможностей для ведения канала, но часть из них к сожалению недоступны с текущим уровнем boost 😓 😓 😓 .
Если хотите поддержать канал - дайте буст ...
https://www.tg-me.com/boost/pwnai
Если хотите поддержать канал - дайте буст ...
https://www.tg-me.com/boost/pwnai
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
PWN AI
Проголосуйте за канал, чтобы он получил больше возможностей.
1❤4
Немного оффтопа. В конце марта мне одобрили доступ к manus.im - это мощная мультиагентная система, которая может проводить глубокие исследования, делать приложения и много чего ещё. О manus написано много в интернете.
Процесс одобрения для использования - не всегда быстрый. Но сегодня мне насыпали несколько инвайт кодов, с которыми я хочу с вами поделиться. Сразу говорю - разобрать их могут быстро. Работает под ВПН и это печально.
1. https://manus.im/invitation/TGV2JXVUJES0MIR
2. https://manus.im/invitation/LOCWG1TXETCU
3. https://manus.im/invitation/BSJY1NP38BWABU
4.https://manus.im/invitation/TSUYD9VSUCTI4
Держите ещё:
1.https://manus.im/invitation/KPNISR6CIPE7X
2.https://manus.im/invitation/IWGEWTVAQGZS0
3.https://manus.im/invitation/NIGBBKPD0NPT
4.https://manus.im/invitation/YST9ODU2QNZZA
и эти улетели(
В целом он неплох в аналитике большого количества информации по нашей теме. Более того, в марте попробовал реализовать через него атаку по новой статье для инструмента llamator. В целом он справился на 90 процентов)).
Из опенсурсного недавно появилась SUNA, которая пока что работает с проприетарными моделями )) но было бы классно прикрутить к ней каких-то агентов для ИБ задач.
В комментариях можете поделиться инвайтами, если не жалко. А для тех кто активировал инвайт - https://github.com/hodorwang/manus-guide - очень полезный гайд по использованию.
Процесс одобрения для использования - не всегда быстрый. Но сегодня мне насыпали несколько инвайт кодов, с которыми я хочу с вами поделиться. Сразу говорю - разобрать их могут быстро. Работает под ВПН и это печально.
4.
Держите ещё:
2.https://
3.https://
и эти улетели(
В целом он неплох в аналитике большого количества информации по нашей теме. Более того, в марте попробовал реализовать через него атаку по новой статье для инструмента llamator. В целом он справился на 90 процентов)).
Из опенсурсного недавно появилась SUNA, которая пока что работает с проприетарными моделями )) но было бы классно прикрутить к ней каких-то агентов для ИБ задач.
В комментариях можете поделиться инвайтами, если не жалко. А для тех кто активировал инвайт - https://github.com/hodorwang/manus-guide - очень полезный гайд по использованию.
manus.im
Manus is a general AI agent that turns your thoughts into actions. It excels at various tasks in work and life, getting everything done while you rest.
👍6🔥2
0din.ai, багбаунти площадка для GenAI - как оказалось форкает к себе очень интересные репозитории
https://github.com/orgs/0din-ai/repositories
иногда можно сюда заглядывать, чтобы обнаружить новый инструмент для себя, а также датасеты для атак на модели. Не всё конечно же потом обновляется - но всё равно, можем забрать к себе для охоты.
https://github.com/orgs/0din-ai/repositories
иногда можно сюда заглядывать, чтобы обнаружить новый инструмент для себя, а также датасеты для атак на модели. Не всё конечно же потом обновляется - но всё равно, можем забрать к себе для охоты.
🔥8❤2👍2
Вот такого мы не видели раньше – Фреймворк для реализации guardrails для агентов.
Но прежде, чем я вам о нём расскажу, давайте попробуем понять, что за гардрейлс такие и какие они вообще бывают?
Термин сам по себе не новый, буквально означает «ограждение». В контексте агентов нам это очень может пригодиться – например мы можем запретить агенту запускать какой-либо инструмент после вредоносного действия. Или же валидация ввода и вывода в агентную систему – тоже можно реализовать guardrails. Это позволяет нам реализовывать дополнительный, да и к тому же эффективный способ защиты.
Раньше были варианты реализации гардрейлсов для моделей, например решение от ZenGuard – интеграция его между LLM и пользователем позволяло реализовывать защиту от утечек персональных данных – решение перехватывало запросы на ввод/вывод – анализировало и не допускало утечки или джейлбрейка. Такие решения были и ProtectAI и много чего на guthub можно найти похожих. Даже Nvidia делали NeMo Guardrails.
Мультиагентная среда имеет большие отличия по части защиты – злоумышленник может отравлять память, влиять на рассуждения всей автономной системы, или попросить агентную систему выполнить анжумания 1000 раз (здравствуй DoS,DoW), а также реализовывать захват инструментов – что стало, наверное, одной из самой часто обсуждаемых атак на MCP.
Вы, наверное, уже перешли по ссылке с ZenGuard – минус его был в том, что там заранее ограниченный набор правил. Решение, которое мне приглянулось недавно и о котором я хотел бы рассказать это решение от Invariantlabs - Guardrails. Важно сказать об этом - оно работает с их Security Gateway.
Его отличие наличие движка для реализации своих правил, они буквально могут ограничивать большую цепочку действий агентов, не побоюсь даже сказать, что можно делать валидацию реализованного агентом кода.
Вот кстати пример правила, которое это делает:
Сейчас есть документация про то, как интегрировать с OpenAI Swarm, AutoGen от Microsoft, а также можно отдельно к моделям прикрутить (ну если вы решили не использовать фреймворки для создания агентов) Antropic, OpenAI – это пока что.
Я попробовал с langchain.agents – успешно завелось. Нужно только заполучить заветный INVARIANT_API_KEY(и тут уже много вопросов, если честно затрудняюсь на них ответить – надеюсь данные не утекают). Но попробовать стоит. Кажется что такое решение станет базой в категории «защита агентов».
Этот вариант по описанию может работать с MCP, честно скажу - пока не пробовал. Но тут на RSAC Lasso представили MCP-gateway, который уже как минимум может маскировать секреты при получении их с MCP-сервера. Как-то так....
Но прежде, чем я вам о нём расскажу, давайте попробуем понять, что за гардрейлс такие и какие они вообще бывают?
Термин сам по себе не новый, буквально означает «ограждение». В контексте агентов нам это очень может пригодиться – например мы можем запретить агенту запускать какой-либо инструмент после вредоносного действия. Или же валидация ввода и вывода в агентную систему – тоже можно реализовать guardrails. Это позволяет нам реализовывать дополнительный, да и к тому же эффективный способ защиты.
Раньше были варианты реализации гардрейлсов для моделей, например решение от ZenGuard – интеграция его между LLM и пользователем позволяло реализовывать защиту от утечек персональных данных – решение перехватывало запросы на ввод/вывод – анализировало и не допускало утечки или джейлбрейка. Такие решения были и ProtectAI и много чего на guthub можно найти похожих. Даже Nvidia делали NeMo Guardrails.
Мультиагентная среда имеет большие отличия по части защиты – злоумышленник может отравлять память, влиять на рассуждения всей автономной системы, или попросить агентную систему выполнить анжумания 1000 раз (здравствуй DoS,DoW), а также реализовывать захват инструментов – что стало, наверное, одной из самой часто обсуждаемых атак на MCP.
Вы, наверное, уже перешли по ссылке с ZenGuard – минус его был в том, что там заранее ограниченный набор правил. Решение, которое мне приглянулось недавно и о котором я хотел бы рассказать это решение от Invariantlabs - Guardrails. Важно сказать об этом - оно работает с их Security Gateway.
Его отличие наличие движка для реализации своих правил, они буквально могут ограничивать большую цепочку действий агентов, не побоюсь даже сказать, что можно делать валидацию реализованного агентом кода.
Вот кстати пример правила, которое это делает:
from invariant.detectors.code import python_code
raise "'eval' function must not be used in generated code" if:
(msg: Message)
program := python_code(msg.content)
"eval" in program.function_calls
Сейчас есть документация про то, как интегрировать с OpenAI Swarm, AutoGen от Microsoft, а также можно отдельно к моделям прикрутить (ну если вы решили не использовать фреймворки для создания агентов) Antropic, OpenAI – это пока что.
Я попробовал с langchain.agents – успешно завелось. Нужно только заполучить заветный INVARIANT_API_KEY(и тут уже много вопросов, если честно затрудняюсь на них ответить – надеюсь данные не утекают). Но попробовать стоит. Кажется что такое решение станет базой в категории «защита агентов».
Этот вариант по описанию может работать с MCP, честно скажу - пока не пробовал. Но тут на RSAC Lasso представили MCP-gateway, который уже как минимум может маскировать секреты при получении их с MCP-сервера. Как-то так....
👍9❤3🔥1
Друзья, не забываем про волшебную папку с каналами хороших товарищей. Многие из них также пишут по AI Security, Mlsecops и т.д
На русском языке достаточно сложно найти авторский контент по теме - но тут можно открыть для себя что-то новое.
https://www.tg-me.com/addlist/KCiPH2pclCc3MDU6
На русском языке достаточно сложно найти авторский контент по теме - но тут можно открыть для себя что-то новое.
https://www.tg-me.com/addlist/KCiPH2pclCc3MDU6
Telegram
AI security
Artyom Semenov invites you to add the folder “AI security”, which includes 23 chats.
1🔥9❤1👍1