Telegram Web Link
AI Package Hallucination

Годовой давности статья, которая поднимает вопрос того, можно ли полагаться на код, сгенерированный ИИ.
Исследователи распарсили вопросы со StackOverflow, которые так и остались без ответа, и на основе их собрали базу запросов для ChatGPT. Уточнили эти вопросы, дополнив деталями и просьбой подсказать библиотеку, решающую ту или иную задачу, и задали их боту. Затем проверили полученные ответы, выбрали те из них, которые являются галлюцинациями, и насобирали порядка 150 имен библиотек, которых не существует в природе и которые рекомендует ChatGPT к использованию. И единственный шаг, который осталось сделать, -- зарегать библиотеки с такими же именами и с вредоносной нагрузкой.

Красиво, массово, легко реализуется, ничего нового. Последствия могут быть потенциально катастрофическими, ведь даже typosquatting, впервые массово реализованный Тчачером в рамках курсовой работы студента, имел весьма широкий эффект.

На всякий случай напоминаю - полагаться на ИИ как на авторитет ни стоит не в каких задачах.

https://vulcan.io/blog/ai-hallucinations-package-risk
👍6🔥3
Google's Secure AI Framework: A practitioner’s guide to navigating AI security
Google, 2023
Веб-сайт

Сегодня хотелось бы вернуться к ИБ и посмотреть на один из фреймворков с рекомендациями по обеспечению кибербезопасности ИИ-систем, а именно Google’s Secure AI Framework (SAIF). SAIF достаточно сильно отличается от часто упоминаемых MITRE ATLAS и OWASP Top 10 for LLMs. OWASP Top 10 for LLMs перечисляет конкретные наиболее критичные уязвимости (вы не поверите, 10 штук), от LLM01 Prompt Injection до LLM10 Model Theft, в подробностях рассказывая, откуда эти уязвимости берутся, как они могут быть проэксплуатированы, а также приводят ссылки на дополнительные ресурсы и иногда конкретные примеры. MITRE ATLAS сделан для тех, кто мыслит в терминах MITRE ATT&CK, и крутится вокруг тактик (цель атакующего от начальных до завершающих стадий атаки, например, «разведка» или «боковое перемещение»), по сути добавляя в них ML-специфичные техники и две тактики (доступ к модели и подготовка атаки на ML-модель). При этом техники ATLAS могут совпадать с «уязвимостями» OWASP Top-10 (например, кража модели). Для разных техник существуют митигации, которые должны снизить вероятность их реализации.

SAIF, как фреймворк от компании-разработчика ИИ-систем, рассматривает безопасность с точки зрения процесса разработки (explore AI development through a security lens) и того, где и на каком этапе могут возникнуть разнообразные риски. Фреймворк состоит из трех основных понятий: компоненты, риски и средства управления рисками, которые объединены в единую карту.
🔥2
Компоненты – это те процессы и сущности, которые возникают в процессе разработки ИИ-систем. Они поделены на четыре основных зоны: данные, инфраструктура, модель, приложение.

Данные – особая сущность, так как в отличие от традиционного ПО данные в ML-системах подменяют код, определяя логику. Компоненты, связанные с данными – это источники данных, процессы очистки и обработки данных и результирующие датасеты.

Инфраструктура – это все, что связано с процессами вокруг данных и моделей, за которые как правило отвечает традиционный код. Это код фреймворков, процесс обучения, дообучения и оценки, хранения данных и моделей и деплой модели (serving).

Модель – тут все понятно. Основные сущности тут – это файл модели, обработка входов в модель и обработка выходов модели.

Приложение – финальный слой, на котором идет взаимодействие с пользователем. Отмечается, что это взаимодействие, особенно в случае с приложениями на базе LLM, может сильно отличаться от взаимодействия со стандартными приложениями. Здесь компонентами являются само приложение и агенты с плагинами в случае с LLM-приложениями.

Риски – это те проблемы, с которыми может столкнуться разработчик, владелец сервиса или потребитель ИИ- модели. Они достаточно сильно пересекаются с техниками ATLAS и рисками OWASP Top-10: в частности, тут тоже есть Model Exfiltration, во всех трех есть Prompt Injection. Для каждого риска указывается, каковы причины его возникновения, как он может митигироваться и какие были примеры его реализации. Кроме того, указывается, кто ответственен за митигацию – создатель модели или ее потребитель, а также какие средства управления рисками к нему применимы.

Средства управления рисками (controls) – суть понятна из перевода. Средства разбиты по зонам компонентов и ссылаются на риски, которые с их помощью можно закрывать, а также на роль (создатель или потребитель модели), который может их применить.
🔥2
Наконец, всё это отображается на карту, которая показывает процесс разработки ИИ-системы и показывает, на каком этапе может возникнуть тот или иной риск, в чем опасность и как риск митигировать. Карта интерактивная: можно выбирать риски, чтобы визуально все это себе представлять. В дополнение к ней идет AI Development Primer (достаточно подробная статья для не-ML-щиков о том, как делает машинлернинг) и Risk Self Assessment (тест на то, на какие риски стоит обратить внимание в организации).

Этот фреймворк далеко не идеальный: например, мне непонятно, зачем вообще выделять зону «модель», в которую входит «модель», а также некоторая алгоритмическая (не связанная с моделью) составляющая по обработке входов-выводов; компонент агентов-плагинов слегка тенденциозный и в целом скорее про вводы-выводы, т.к. сами плагины обычно имплементируют детерминированную логику, а агенты с ними объединены вообще непонятно за какие заслуги; evaluation и тем более fine-tuning в моем сознании больше про «модель», чем про инфраструктуру и так далее. Тем не менее, есть причины, по которым захотелось про него рассказать. Во-первых, он в равной мере нацелен и службы ИБ, и на разработчиков систем (вроде меня). Во-вторых, он ориентирован на риски, а не уязвимости (строго говоря, хотя на OWASP написано черным по белому a list of the most critical vulnerabilities, model theft это тоже риск, а не уязвимость). В-третьих, он включает дополнительные материалы, которые должны помочь всем акторам (менеджерам, ИБ-шникам и ML-щикам) говорить на одном языке, в отличие от того же ATLAS, и визуальное представление процесса, которое, если общий язык не найден, дает возможность тыкать в это представление пальцем. Последнее, на мой взгляд, очень важно, поэтому если бы я делал свой идеальный фреймворк, который бы потом объяснял разработчикам я бы основывал его скорее на карте SAIF, а не на ATLAS. Возможно, я не знаю про какие-то еще более удачные фреймворки, но если узнаю – обязательно поделюсь 🔪
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6
Подпись моделей как метод защиты от атак на цепочку поставок в MlSecOps.


Возможно кто-то из вас уже наслышан о том, что реализация подписи кода и генерация SBOM являются важной составляющей классического DevSecOps. Это позволяет нам быть уверенным что файл не был модифицирован злоумышленником. Для моделей также эта проблема является актуальной. Мы должны с вами понимать, что модели могут быть модифицированы - форматы сериализации могут привносить уязвимости.

Можем вспомнить с вами недавний случай, который хорошо продемонстрировал пример того что файлы модели никак не проверялись - ПИКЛБОМБА В ТИКТОКЕ.

Что-же делать ? Ну естественно прежде всего провести анализ уязвимостей - чтобы понять есть ли проблемы.

- Уязвимости были найдены и исправлены.
- Теперь приступим к подписи.


⬇️⬇️⬇️

Чтобы нам подписать модель мы можем воспользоваться замечательной утилитой, которая вышла совсем недавно в свет.

tensor-man
- этот тул может подписывать модели safetensors, ONNX, GGUF и PyTorch. Придётся немножко помочить рукава в "компиляции бинаря на RUST". Я этот процесс описывать не буду, это база можно почитать в доке тулзы.

tman create-key --private-key priv_super_key.key --public-key public_not_super_key.key


и вот мы уже с вами создаём ключики, приватный и публичный. Нам это необходимо для того чтобы мы могли их использовать для создания

tman sign /my/wonderwall.onnx -K /keys/priv_super_key.key


и верификации подписанной модели

tman verify /my/wonderwall.onnx -K /keys/public_not_super_key.key


Несомненно, можно подписать и все модели в проекте. Для этого просто в пути указываем только название директории. Самое конечно крутое, это то что утилиту можно завести и из докера, она может проводит анализ тензоров модели. А файлы с полученными сигнатурами будут иметь расширение .signature

У Sigstore также есть похожий тул для подписи. Подпись проходит через сам sigstore. Но он может работать с keras моделями. Я уже делал раннее файл для CI, можете воспользоваться им чтобы подписывать модельки.

Не забываем, что атаки на цепочку поставок в машинном обучении являются большой проблемой, закрытию которой надо уделять внимание. Об этом шумят все и JFrog и ProtectAI и множество статьей в первых 20 ссылках гугла по запросу "атаки на машинное обучение".

ai_sec_folder
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥51
Основные ресурсы по вопросам безопасности ИИ

#иб_в_ml

Если вы задавались вопросом, как найти полезную информацию о некоторой узкой теме в ML Security, или только собираетесь знакомится с этой областью, этот список ресурсов для вас.

Просто ML

🟢Гит со ссылками про MLOps

🟢Introduction to Machine Learning - статья (649 страниц) на arxiv про все машинное обучение до самых основ, вышла 4 сентября 2024 года.

🟢Введение в практический ML с тетрадками jupyter

🟢Курс по NLP на HuggingFace

🟢Основы MLOps

Безопасность ML
🔵Карта навыков от PWNAI

🔵глоссарий терминов

🔵Статья от Microsoft про концепции в AI Secuirty

🔵Adversarial AI Attacks, Mitigations, and Defense Strategies: A cybersecurity professional's guide to AI attacks, threat modeling, and securing AI with MLSecOps - Книга, написанная для безопасников по безопасности ИИ

🔵Periodic Table of AI Security by OWASP - фреймворк от OWASP, где рассмотрены меры защиты

🔵Generative AI Security: теория и практики - Достаточно много инфы по LLM, включая регуляторику.

🔵Еще про регуляторику писали тут (в самом конце).

🔵Список ресурсов около llm-security тематики от PWNAI

🔵Еще один список: ML+OPS+security

🔵MlSecurity Playbook по offensive security

🔵Объяснимость ИИ

🔵Конференции, где есть безопасность ИИ
— Зарубежные: DEFCON (AI Villiage), BlackHat (трэки AI,Datascience),
Conference on Applied Machine Learning in Information Security. + Обзор докладов на тему AI с этих конференций.
— Российские: PHDAYS (названия треков меняются, но есть с AI), OFFZONE (AI.ZONE), Форум "Технологии Доверенного ИИ", и скоро будет анонсирована еще одна, пока секретная...

🔵Интересные исследователи по MLSec: Николас Карлини, wunderwuzzi

🔵Классические фреймворки по MLSecOps: Huawei, Databricks, Snowflake, CyberOrda (RU).

🔵Коллекция ссылок и немного теории - гит от jiep

🔵Таксономии атак на ml - карта от MRL, от института BIML

🔵ИИ для кибербезопасности: тренды и востребованность - статья от ВШЭ

🔵Коллекция вредоносных промптов для LLM

🔵И еще один такой сборник

🔵Большая статья с кучей кода как проводить атаки на ml

🔵Доклад Adversa на Conf 42 - Introducing MLSecOps

🔵Пара статей с Хабра про атаки на мл

🔵Paper stack от dreadnode

🔵CTF и подобные площадки, где можно попробовать собственные силы в промпт-атаках LLM (спасибо Коле)
1. crucible.dreadnode.io
2. https://huggingface.co/spaces/invariantlabs/ctf-summer-24/tree/main
3. https://promptairlines.com/
4. burp labs: https://portswigger.net/web-security/llm-attacks
5. в обычных ctf тоже появляются куски с ml/llm, например, в http://poll-vault.chal.hackthe.vote/
6. https://myllmdoc.com/
7. https://gandalf.lakera.ai/
8. AI CTF с PHDFest2 2024: https://aictf.phdays.fun/

И немного от меня лично:

🔵Обзор компетенций для работы с данными в ИБ в трех частях (один, два, три)

🔵Статья про инциденты ML Security

🔵Введение в NLP в ИБ (один, два)

🔵Большой гайд по взлому приложений с LLM: от а до я погружаемся в тестирование.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥71👍1
Forwarded from ML&|Sec Feed (Борис_ь с ml)
Recent advancements in LLM Red-Teaming: Techniques, Defenses, and Ethical Considerations


https://arxiv.org/html/2410.09097v1
Я всё-таки не очень люблю писать сюда не по тематике канала. Но этот момент я не мог не рассказать вам. Я думаю что он вам может быть полезен.

Недавно Stanford выпустил крутой opensource инструмент STORM и задеплоил его у себя на домене. И он позволяет нам сократить время на анализ огромного количества источников информации, ссылок и возможно PDF. Вы буквально можете вбить туда свой запрос на английском(другие языки пока что никак) + небольшое доп.описание, которое поможет улучшить процесс поиска информации.

(20 слов, множество промпт инъекций не работают(не все потестил) - поэтому если пишете слово "attack" - он может заругаться, вместо этого используйте синонимы).

И что вы получаете ... А вы получаете крутую выжимку информации из огромного количества источников - не первые 10 ссылок, как это есть у некоторых поисковиков с ИИ, а гораздо больше.

Этот инструмент изначально разработан как "личный академик" - он круто бегает по arxiv и другим источникам академ инфы, но также хорошо пробегается по сайтам типа медиума* или форумам ... После чего он даёт вам "статью", которую вы можете скачать в PDF.

Есть 2 режима работы. 1ый это когда инструмент автоматически делает сборку инфы, и 2ой когда вы делаете уточнения на разных этапах(пытался этот режим попробовать - но было потрачено достаточно много времени, чтобы этот режим запустить 😔😔😔 и всё в пустую).

Для регистрации можно использовать аккаунт Google, пока это возможно для нас. А кстати сам инструмент ищет всё через BING. Но есть и библиотека, я думаю рано или поздно её докрутят и сделают поддержку того же гугла.

А в дополнение вы получаете возможность просматривать статьи, которые были созданы кем-то (вкладка Discover) и также смотреть "brainSTORMing" - функция в которой при разных ролях для openai вы получаете разное саммари результатов.

ai_sec_folder
👍8🔥2🦄2👏1
В ближайшие недели выходит релиз OWASP Top 10 for LLM Applications 2025. Часть старых уязвимостей исключается из гайда, и их заменят новые.

Model Denial of Service. DOS-атака на LLM больше не считается уязвимостью моделей как таковых, и этот пункт заменит Unbounded Consumption.

Overreliance — недоверие к результатам работы LLM будет переименовано в Misinformation. Это не о дипфейках и дезинформации, а о фактической неточности генерации и, как ни странно, качестве работы кодовых моделей. Остаются вопросы к этой "уязвимости", но хотя бы неудачное название Overreliance уйдет в прошлое :)

Insecure Plugin Design больше не будет в списке критичных уязвимостей. GPT-плагины так и не получили массового распространения, и даже GPT Store остается нишевым маркетплейсом. Вместо этого в новом гайде добавлена глава про уязвимости RAG-систем, которые стали стандартом в реализации корпоративных ИИ-ассистентов.

Кража модели также перестает быть уязвимостью, вынесенной на первый уровень фреймворка.

Выделена новая уязвимость System Prompt Leakage, на которую OWASP рекомендует обратить внимание разработчикам прикладных решений на GenAI. Дискуссия о том, стоит ли включать ее отдельным пунктом или оставить в рамках Prompt Injection, длилась долго, но в результате голосования утечка системного промпта вошла в новую версию фреймворка.

Также доработаны существующие разделы списка уязвимостей, добавлены свежие инциденты и ссылки на таксономии MITRE ATLAS и штатовский NIST AI Risk Management Framework.

К новой версии, безусловно, остаются вопросы, но это движение вперед и актуализация видов угроз для GenAI-приложений. OWASP — это открытое сообщество, и сейчас решения о включении тех или иных пунктов принимаются на основе обсуждений и голосования, а не статистики инцидентов.
52
AI Security: Раскрываем природу небезопасности машинного обучения

Соскучились по глубоким дискуссиям об искусственном интеллекте и безопасности? У нас отличные новости! 24 ноября в Музее Криптографии состоится экспертная встреча, посвященная одной из самых горячих тем в сфере ИИ – безопасности машинного обучения.

О чём поговорим?

- Уязвимости в ML: от теории к практике
- Современные атаки на ML-системы: особенности и отличия от классических киберугроз
- Защита ML-моделей: эффективные стратегии и реальные кейсы
- Prompt-инъекции в LLM: хайп или реальная угроза?
- Будущее профессий на стыке ИИ и кибербезопасности
- Риски использования ML для российских организаций

Наши эксперты:

Модератор дискуссии:
- Борис Захир — автор канала "Борис_ь с ml", аспирант МГТУ им. Н. Э. Баумана

Приглашенные эксперты:
- Владислав Тушканов — руководитель команды ML-разработки в кибербезопасности, компьютерный лингвист, создатель канала "llm_security и каланы"
- Илья Запорожец — специалист по доверенному ИИ, эксперт в области интерпретируемости и безопасности больших языковых моделей (LLM)

Детали мероприятия:

📍 Место: Музей Криптографии, Москва
📅 Дата: 24 ноября (воскресенье)
🕐 Время: 12:00 - 14:00
💰 Стоимость: Бесплатно

Важно: Количество мест ограничено! Не забудьте заранее зарегистрироваться на мероприятие.
5🔥2👍1
🔥5
Множество уязвимостей недавно обнаружили Jfrog в разных MLOps сервисах.

коротко о тех самых уязвимостях

CVE-2024-7340 (8.8) - Уязвимость навигации между каталогами в Weave ML, позволяющая читать файлы, включая "api_keys.ibd" (исправлено в 0.50.8).

Уязвимость контроля доступа в ZenML, позволяющая повышать привилегии с просмотра до администратора.

CVE-2024-6507 (8.1) - Command Injection в Deep Lake при загрузке данных Kaggle (исправлено в 3.9.11).

CVE-2024-5565 (8.1) - Уязвимость внедрения приглашения в Vanna.AI, позволяющая реализовать удаленное выполнение кода.

CVE-2024-45187 (7.1) - Уязвимость назначения привилегий в Mage AI, позволяющая гостям выполнять код удаленно.

CVE-2024-45188/45189/45190 (6.5) - Уязвимости навигации по пути в Mage AI, позволяющие читать файлы через различные API.

Уверен, что скоро база пополнится эксплоитами для этих уязвимостей
3🔥2👍1
Список чатов и каналов про AI Safety в telegram.

Каналы:

https://www.tg-me.com/neuralpurgatory - оперативные новости в мире пугающего ускорения технологий

https://www.tg-me.com/MrsWallbreaker - отличные технические объяснения современных методов алаймента (и их проблем!)

https://www.tg-me.com/makikoty - переводы постов про AI safety с LW и не только

www.tg-me.com/mishasamin - канал Миши Самина, организатор печати ГПиМРМ, сейчас организатор https://aigsi.org/

https://www.tg-me.com/andrey_kiselnikov Психофизиолог, заинтересован в AGI, AI safety и внутренней психологии моделек, ожидает, что AGI будет скоро

https://www.tg-me.com/hardbits канал про Agent Foundations

https://www.tg-me.com/pwnai про LLM security, не совсем AI Safety, но тоже важно и методы из областей часто пересекаются

https://www.tg-me.com/poxek про кибербезопасность в целом, но и про ЛЛМки тоже иногда речь заходит, как например в коллабе с вот https://www.tg-me.com/borismlsec этим каналом

Чаты:

https://www.tg-me.com/miniclippy - мероприятия про AI safety и рациональность на русском

https://www.tg-me.com/+4OvUAl0HxnoyODFi - англоязычный чат по AI safety

https://www.tg-me.com/+H8uD0kNQU2A3NzY6 - Байесов Сад, есть топик с AI safety

https://www.tg-me.com/lesswrong_ru_translation - чат для обсуждения переводов материалов LW

Распространение разрешается и поощряется. Если что-то забыл, то напишите в комментах и я добавлю.
🔥21
Думаю это вам точно будет интересно. Хоть это и драфт, однако уже много интересного можно из него вынести для себя. Это "GAI Red Teaming Methodologies, Guidelines & Best Practices" - сейчас версия 0.0.3, сообщество OWASP активно пилит этот документ с июля этого года. Сейчас там много интересного - например вы можете уже для себя найти информацию о фазах тестирования, ключевые этапы тестирования для каждой фазы и лучшие практики ....


Драфт тут
1👍3🔥21
2025/07/14 04:30:08
Back to Top
HTML Embed Code: