PWN AI

AI Package Hallucination

Годовой давности статья, которая поднимает вопрос того, можно ли полагаться на код, сгенерированный ИИ.
Исследователи распарсили вопросы со StackOverflow, которые так и остались без ответа, и на основе их собрали базу запросов для ChatGPT. Уточнили эти вопросы, дополнив деталями и просьбой подсказать библиотеку, решающую ту или иную задачу, и задали их боту. Затем проверили полученные ответы, выбрали те из них, которые являются галлюцинациями, и насобирали порядка 150 имен библиотек, которых не существует в природе и которые рекомендует ChatGPT к использованию. И единственный шаг, который осталось сделать, -- зарегать библиотеки с такими же именами и с вредоносной нагрузкой.

Красиво, массово, легко реализуется, ничего нового. Последствия могут быть потенциально катастрофическими, ведь даже typosquatting, впервые массово реализованный Тчачером в рамках курсовой работы студента, имел весьма широкий эффект.

На всякий случай напоминаю - полагаться на ИИ как на авторитет ни стоит не в каких задачах.

https://vulcan.io/blog/ai-hallucinations-package-risk

Tenable®

Cybersecurity Snapshot: New Guide Details How To Use AI Securely, as CERT Honcho Tells CISOs To Sharpen AI Security Skills Pronto

Cyber agencies from multiple countries published a joint guide on using artificial intelligence safely. Meanwhile, CERT’s director says AI is the top skill for CISOs to have in 2024. Plus, the UK’s NCSC forecasts how AI will supercharge cyberattacks. And…

👍6🔥3

1.17K views11:56

PWN AI

Forwarded from llm security и каланы

Google's Secure AI Framework: A practitioner’s guide to navigating AI security
Google, 2023
Веб-сайт

Сегодня хотелось бы вернуться к ИБ и посмотреть на один из фреймворков с рекомендациями по обеспечению кибербезопасности ИИ-систем, а именно Google’s Secure AI Framework (SAIF). SAIF достаточно сильно отличается от часто упоминаемых MITRE ATLAS и OWASP Top 10 for LLMs. OWASP Top 10 for LLMs перечисляет конкретные наиболее критичные уязвимости (вы не поверите, 10 штук), от LLM01 Prompt Injection до LLM10 Model Theft, в подробностях рассказывая, откуда эти уязвимости берутся, как они могут быть проэксплуатированы, а также приводят ссылки на дополнительные ресурсы и иногда конкретные примеры. MITRE ATLAS сделан для тех, кто мыслит в терминах MITRE ATT&CK, и крутится вокруг тактик (цель атакующего от начальных до завершающих стадий атаки, например, «разведка» или «боковое перемещение»), по сути добавляя в них ML-специфичные техники и две тактики (доступ к модели и подготовка атаки на ML-модель). При этом техники ATLAS могут совпадать с «уязвимостями» OWASP Top-10 (например, кража модели). Для разных техник существуют митигации, которые должны снизить вероятность их реализации.

SAIF, как фреймворк от компании-разработчика ИИ-систем, рассматривает безопасность с точки зрения процесса разработки (explore AI development through a security lens) и того, где и на каком этапе могут возникнуть разнообразные риски. Фреймворк состоит из трех основных понятий: компоненты, риски и средства управления рисками, которые объединены в единую карту.

SAIF: Secure AI Framework

SAIF: Google's Guide to Secure AI

Building AI? Learn how to keep it secure with Google's Secure AI Framework. Explore resources, tools, and best practices for responsible AI development.

🔥2

877 views20:13

PWN AI

Forwarded from llm security и каланы

Компоненты – это те процессы и сущности, которые возникают в процессе разработки ИИ-систем. Они поделены на четыре основных зоны: данные, инфраструктура, модель, приложение.

Данные – особая сущность, так как в отличие от традиционного ПО данные в ML-системах подменяют код, определяя логику. Компоненты, связанные с данными – это источники данных, процессы очистки и обработки данных и результирующие датасеты.

Инфраструктура – это все, что связано с процессами вокруг данных и моделей, за которые как правило отвечает традиционный код. Это код фреймворков, процесс обучения, дообучения и оценки, хранения данных и моделей и деплой модели (serving).

Модель – тут все понятно. Основные сущности тут – это файл модели, обработка входов в модель и обработка выходов модели.

Приложение – финальный слой, на котором идет взаимодействие с пользователем. Отмечается, что это взаимодействие, особенно в случае с приложениями на базе LLM, может сильно отличаться от взаимодействия со стандартными приложениями. Здесь компонентами являются само приложение и агенты с плагинами в случае с LLM-приложениями.

Риски – это те проблемы, с которыми может столкнуться разработчик, владелец сервиса или потребитель ИИ- модели. Они достаточно сильно пересекаются с техниками ATLAS и рисками OWASP Top-10: в частности, тут тоже есть Model Exfiltration, во всех трех есть Prompt Injection. Для каждого риска указывается, каковы причины его возникновения, как он может митигироваться и какие были примеры его реализации. Кроме того, указывается, кто ответственен за митигацию – создатель модели или ее потребитель, а также какие средства управления рисками к нему применимы.

Средства управления рисками (controls) – суть понятна из перевода. Средства разбиты по зонам компонентов и ссылаются на риски, которые с их помощью можно закрывать, а также на роль (создатель или потребитель модели), который может их применить.

🔥2

876 views20:13

PWN AI

Forwarded from llm security и каланы

Наконец, всё это отображается на карту, которая показывает процесс разработки ИИ-системы и показывает, на каком этапе может возникнуть тот или иной риск, в чем опасность и как риск митигировать. Карта интерактивная: можно выбирать риски, чтобы визуально все это себе представлять. В дополнение к ней идет AI Development Primer (достаточно подробная статья для не-ML-щиков о том, как делает машинлернинг) и Risk Self Assessment (тест на то, на какие риски стоит обратить внимание в организации).

Этот фреймворк далеко не идеальный: например, мне непонятно, зачем вообще выделять зону «модель», в которую входит «модель», а также некоторая алгоритмическая (не связанная с моделью) составляющая по обработке входов-выводов; компонент агентов-плагинов слегка тенденциозный и в целом скорее про вводы-выводы, т.к. сами плагины обычно имплементируют детерминированную логику, а агенты с ними объединены вообще непонятно за какие заслуги; evaluation и тем более fine-tuning в моем сознании больше про «модель», чем про инфраструктуру и так далее. Тем не менее, есть причины, по которым захотелось про него рассказать. Во-первых, он в равной мере нацелен и службы ИБ, и на разработчиков систем (вроде меня). Во-вторых, он ориентирован на риски, а не уязвимости (строго говоря, хотя на OWASP написано черным по белому a list of the most critical vulnerabilities, model theft это тоже риск, а не уязвимость). В-третьих, он включает дополнительные материалы, которые должны помочь всем акторам (менеджерам, ИБ-шникам и ML-щикам) говорить на одном языке, в отличие от того же ATLAS, и визуальное представление процесса, которое, если общий язык не найден, дает возможность тыкать в это представление пальцем. Последнее, на мой взгляд, очень важно, поэтому если бы я делал свой идеальный фреймворк, который бы потом объяснял разработчикам я бы основывал его скорее на карте SAIF, а не на ATLAS. Возможно, я не знаю про какие-то еще более удачные фреймворки, но если узнаю – обязательно поделюсь 🔪

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6

1.04K views20:13

PWN AI

Подпись моделей как метод защиты от атак на цепочку поставок в MlSecOps.

Возможно кто-то из вас уже наслышан о том, что реализация подписи кода и генерация SBOM являются важной составляющей классического DevSecOps. Это позволяет нам быть уверенным что файл не был модифицирован злоумышленником. Для моделей также эта проблема является актуальной. Мы должны с вами понимать, что модели могут быть модифицированы - форматы сериализации могут привносить уязвимости.

Можем вспомнить с вами недавний случай, который хорошо продемонстрировал пример того что файлы модели никак не проверялись - ПИКЛБОМБА В ТИКТОКЕ.

Что-же делать ? Ну естественно прежде всего провести анализ уязвимостей - чтобы понять есть ли проблемы.

- Уязвимости были найдены и исправлены.
- Теперь приступим к подписи.

⬇️

Чтобы нам подписать модель мы можем воспользоваться замечательной утилитой, которая вышла совсем недавно в свет.

tensor-man - этот тул может подписывать модели safetensors, ONNX, GGUF и PyTorch. Придётся немножко помочить рукава в "компиляции бинаря на RUST". Я этот процесс описывать не буду, это ~~база~~ можно почитать в доке тулзы.

tman create-key --private-key priv_super_key.key --public-key public_not_super_key.key

и вот мы уже с вами создаём ключики, приватный и публичный. Нам это необходимо для того чтобы мы могли их использовать для создания

tman sign /my/wonderwall.onnx -K /keys/priv_super_key.key

и верификации подписанной модели

tman verify /my/wonderwall.onnx -K /keys/public_not_super_key.key

Несомненно, можно подписать и все модели в проекте. Для этого просто в пути указываем только название директории. Самое конечно крутое, это то что утилиту можно завести и из докера, она может проводит анализ тензоров модели. А файлы с полученными сигнатурами будут иметь расширение .signature

У Sigstore также есть похожий тул для подписи. Подпись проходит через сам sigstore. Но он может работать с keras моделями. Я уже делал раннее файл для CI, можете воспользоваться им чтобы подписывать модельки.

Не забываем, что атаки на цепочку поставок в машинном обучении являются большой проблемой, закрытию которой надо уделять внимание. Об этом шумят все и JFrog и ProtectAI и множество статьей в первых 20 ссылках гугла по запросу "атаки на машинное обучение".

ai_sec_folder

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7🔥5❤1

1.34K viewsArtyom Semenov, edited 22:39

PWN AI

Основные ресурсы по вопросам безопасности ИИ

#иб_в_ml

Если вы задавались вопросом, как найти полезную информацию о некоторой узкой теме в ML Security, или только собираетесь знакомится с этой областью, этот список ресурсов для вас.

Просто ML

🟢

Гит со ссылками про MLOps

🟢

Introduction to Machine Learning - статья (649 страниц) на arxiv про все машинное обучение до самых основ, вышла 4 сентября 2024 года.

🟢

Введение в практический ML с тетрадками jupyter

🟢

Курс по NLP на HuggingFace

🟢

Основы MLOps

Безопасность ML

🔵

Карта навыков от PWNAI

🔵

глоссарий терминов

🔵

Статья от Microsoft про концепции в AI Secuirty

🔵

Adversarial AI Attacks, Mitigations, and Defense Strategies: A cybersecurity professional's guide to AI attacks, threat modeling, and securing AI with MLSecOps - Книга, написанная для безопасников по безопасности ИИ

🔵

Periodic Table of AI Security by OWASP - фреймворк от OWASP, где рассмотрены меры защиты

🔵

Generative AI Security: теория и практики - Достаточно много инфы по LLM, включая регуляторику.

🔵Еще про регуляторику писали тут (в самом конце).

🔵

Список ресурсов около llm-security тематики от PWNAI

🔵Еще один список: ML+OPS+security

🔵

MlSecurity Playbook по offensive security

🔵

Объяснимость ИИ

🔵

Конференции, где есть безопасность ИИ
— Зарубежные: DEFCON (AI Villiage), BlackHat (трэки AI,Datascience),
Conference on Applied Machine Learning in Information Security. + Обзор докладов на тему AI с этих конференций.
— Российские: PHDAYS (названия треков меняются, но есть с AI), OFFZONE (AI.ZONE), Форум "Технологии Доверенного ИИ", и скоро будет анонсирована еще одна, пока секретная...

🔵Интересные исследователи по MLSec: Николас Карлини, wunderwuzzi

🔵Классические фреймворки по MLSecOps: Huawei, Databricks, Snowflake, CyberOrda (RU).

🔵Коллекция ссылок и немного теории - гит от jiep

🔵Таксономии атак на ml - карта от MRL, от института BIML

🔵

ИИ для кибербезопасности: тренды и востребованность - статья от ВШЭ

🔵

Коллекция вредоносных промптов для LLM

🔵

И еще один такой сборник

🔵

Большая статья с кучей кода как проводить атаки на ml

🔵Доклад Adversa на Conf 42 - Introducing MLSecOps

🔵

Пара статей с Хабра про атаки на мл

🔵

Paper stack от dreadnode

🔵

CTF и подобные площадки, где можно попробовать собственные силы в промпт-атаках LLM (спасибо Коле)
1. crucible.dreadnode.io
2. https://huggingface.co/spaces/invariantlabs/ctf-summer-24/tree/main
3. https://promptairlines.com/
4. burp labs: https://portswigger.net/web-security/llm-attacks
5. в обычных ctf тоже появляются куски с ml/llm, например, в http://poll-vault.chal.hackthe.vote/
6. https://myllmdoc.com/
7. https://gandalf.lakera.ai/
8. AI CTF с PHDFest2 2024: https://aictf.phdays.fun/

И немного от меня лично:

🔵Обзор компетенций для работы с данными в ИБ в трех частях (один, два, три)

🔵

Статья про инциденты ML Security

🔵Введение в NLP в ИБ (один, два)

🔵

Большой гайд по взлому приложений с LLM: от а до я погружаемся в тестирование.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7❤1👍1

2.39K viewsБорис_ь с ml, edited 10:15

PWN AI

Forwarded from ML&|Sec Feed (Борис_ь с ml)

Recent advancements in LLM Red-Teaming: Techniques, Defenses, and Ethical Considerations

https://arxiv.org/html/2410.09097v1

977 viewsArtyom Semenov, 16:17

PWN AI

Я всё-таки не очень люблю писать сюда не по тематике канала. Но этот момент я не мог не рассказать вам. Я думаю что он вам может быть полезен.

Недавно Stanford выпустил крутой opensource инструмент STORM и задеплоил его у себя на домене. И он позволяет нам сократить время на анализ огромного количества источников информации, ссылок и возможно PDF. Вы буквально можете вбить туда свой запрос на английском(другие языки пока что никак) + небольшое доп.описание, которое поможет улучшить процесс поиска информации.

(20 слов, множество промпт инъекций не работают(не все потестил) - поэтому если пишете слово "attack" - он может заругаться, вместо этого используйте синонимы).

И что вы получаете ... А вы получаете крутую выжимку информации из огромного количества источников - не первые 10 ссылок, как это есть у некоторых поисковиков с ИИ, а гораздо больше.

Этот инструмент изначально разработан как "личный академик" - он круто бегает по arxiv и другим источникам академ инфы, но также хорошо пробегается по сайтам типа медиума* или форумам ... После чего он даёт вам "статью", которую вы можете скачать в PDF.

Есть 2 режима работы. 1ый это когда инструмент автоматически делает сборку инфы, и 2ой когда вы делаете уточнения на разных этапах(пытался этот режим попробовать - но было потрачено достаточно много времени, чтобы этот режим запустить 😔😔😔 и всё в пустую).

Для регистрации можно использовать аккаунт Google, пока это возможно для нас. А кстати сам инструмент ищет всё через BING. Но есть и библиотека, я думаю рано или поздно её докрутят и сделают поддержку того же гугла.

А в дополнение вы получаете возможность просматривать статьи, которые были созданы кем-то (вкладка Discover) и также смотреть "brainSTORMing" - функция в которой при разных ролях для openai вы получаете разное саммари результатов.

ai_sec_folder

👍8🔥2🦄2👏1

1.47K viewsArtyom Semenov, 23:46

PWN AI

Forwarded from Евгений Кокуйкин - Raft

В ближайшие недели выходит релиз OWASP Top 10 for LLM Applications 2025. Часть старых уязвимостей исключается из гайда, и их заменят новые.

Model Denial of Service. DOS-атака на LLM больше не считается уязвимостью моделей как таковых, и этот пункт заменит Unbounded Consumption.

Overreliance — недоверие к результатам работы LLM будет переименовано в Misinformation. Это не о дипфейках и дезинформации, а о фактической неточности генерации и, как ни странно, качестве работы кодовых моделей. Остаются вопросы к этой "уязвимости", но хотя бы неудачное название Overreliance уйдет в прошлое :)

Insecure Plugin Design больше не будет в списке критичных уязвимостей. GPT-плагины так и не получили массового распространения, и даже GPT Store остается нишевым маркетплейсом. Вместо этого в новом гайде добавлена глава про уязвимости RAG-систем, которые стали стандартом в реализации корпоративных ИИ-ассистентов.

Кража модели также перестает быть уязвимостью, вынесенной на первый уровень фреймворка.

Выделена новая уязвимость System Prompt Leakage, на которую OWASP рекомендует обратить внимание разработчикам прикладных решений на GenAI. Дискуссия о том, стоит ли включать ее отдельным пунктом или оставить в рамках Prompt Injection, длилась долго, но в результате голосования утечка системного промпта вошла в новую версию фреймворка.

Также доработаны существующие разделы списка уязвимостей, добавлены свежие инциденты и ссылки на таксономии MITRE ATLAS и штатовский NIST AI Risk Management Framework.

К новой версии, безусловно, остаются вопросы, но это движение вперед и актуализация видов угроз для GenAI-приложений. OWASP — это открытое сообщество, и сейчас решения о включении тех или иных пунктов принимаются на основе обсуждений и голосования, а не статистики инцидентов.

❤5✍2

1.26K viewsArtyom Semenov, 11:21

PWN AI

AI Security: Раскрываем природу небезопасности машинного обучения

Соскучились по глубоким дискуссиям об искусственном интеллекте и безопасности? У нас отличные новости! 24 ноября в Музее Криптографии состоится экспертная встреча, посвященная одной из самых горячих тем в сфере ИИ – безопасности машинного обучения.

О чём поговорим?

- Уязвимости в ML: от теории к практике
- Современные атаки на ML-системы: особенности и отличия от классических киберугроз
- Защита ML-моделей: эффективные стратегии и реальные кейсы
- Prompt-инъекции в LLM: хайп или реальная угроза?
- Будущее профессий на стыке ИИ и кибербезопасности
- Риски использования ML для российских организаций

Наши эксперты:

Модератор дискуссии:
- Борис Захир — автор канала "Борис_ь с ml", аспирант МГТУ им. Н. Э. Баумана

Приглашенные эксперты:
- Владислав Тушканов — руководитель команды ML-разработки в кибербезопасности, компьютерный лингвист, создатель канала "llm_security и каланы"
- Илья Запорожец — специалист по доверенному ИИ, эксперт в области интерпретируемости и безопасности больших языковых моделей (LLM)

Детали мероприятия:

📍 Место: Музей Криптографии, Москва
📅 Дата: 24 ноября (воскресенье)
🕐 Время: 12:00 - 14:00
💰 Стоимость: Бесплатно

Важно: Количество мест ограничено! Не забудьте заранее зарегистрироваться на мероприятие.

❤5🔥2👍1

3.34K viewsArtyom Semenov, 18:12

PWN AI

Уже 140 компаний 🤔🤔🤔

https://www.dtisrael.com/_files/ugd/dcc62e_cb3be5aa09364f48ae5b656a977cb886.pdf

🔥5

1.46K viewsArtyom Semenov, 16:22

PWN AI

Множество уязвимостей недавно обнаружили Jfrog в разных MLOps сервисах.

коротко о тех самых уязвимостях

CVE-2024-7340 (8.8) - Уязвимость навигации между каталогами в Weave ML, позволяющая читать файлы, включая "api_keys.ibd" (исправлено в 0.50.8).

Уязвимость контроля доступа в ZenML, позволяющая повышать привилегии с просмотра до администратора.

CVE-2024-6507 (8.1) - Command Injection в Deep Lake при загрузке данных Kaggle (исправлено в 3.9.11).

CVE-2024-5565 (8.1) - Уязвимость внедрения приглашения в Vanna.AI, позволяющая реализовать удаленное выполнение кода.

CVE-2024-45187 (7.1) - Уязвимость назначения привилегий в Mage AI, позволяющая гостям выполнять код удаленно.

CVE-2024-45188/45189/45190 (6.5) - Уязвимости навигации по пути в Mage AI, позволяющие читать файлы через различные API.

Уверен, что скоро база пополнится эксплоитами для этих уязвимостей

❤3🔥2👍1

1.33K viewsArtyom Semenov, edited 12:37

PWN AI

Forwarded from Healing the world with comedy

Список чатов и каналов про AI Safety в telegram.

Каналы:

https://www.tg-me.com/neuralpurgatory - оперативные новости в мире пугающего ускорения технологий

https://www.tg-me.com/MrsWallbreaker - отличные технические объяснения современных методов алаймента (и их проблем!)

https://www.tg-me.com/makikoty - переводы постов про AI safety с LW и не только

www.tg-me.com/mishasamin - канал Миши Самина, организатор печати ГПиМРМ, сейчас организатор https://aigsi.org/

https://www.tg-me.com/andrey_kiselnikov Психофизиолог, заинтересован в AGI, AI safety и внутренней психологии моделек, ожидает, что AGI будет скоро

https://www.tg-me.com/hardbits канал про Agent Foundations

https://www.tg-me.com/pwnai про LLM security, не совсем AI Safety, но тоже важно и методы из областей часто пересекаются

https://www.tg-me.com/poxek про кибербезопасность в целом, но и про ЛЛМки тоже иногда речь заходит, как например в коллабе с вот https://www.tg-me.com/borismlsec этим каналом

Чаты:

https://www.tg-me.com/miniclippy - мероприятия про AI safety и рациональность на русском

https://www.tg-me.com/+4OvUAl0HxnoyODFi - англоязычный чат по AI safety

https://www.tg-me.com/+H8uD0kNQU2A3NzY6 - Байесов Сад, есть топик с AI safety

https://www.tg-me.com/lesswrong_ru_translation - чат для обсуждения переводов материалов LW

Распространение разрешается и поощряется. Если что-то забыл, то напишите в комментах и я добавлю.

yolo singularity

сингулярность, AI x-risk & alignment problems

p(doom) 203[?] ~75%

контакт @inkpaper

🔥2❤1

1.34K viewsArtyom Semenov, 16:34

PWN AI

Думаю это вам точно будет интересно. Хоть это и драфт, однако уже много интересного можно из него вынести для себя. Это "GAI Red Teaming Methodologies, Guidelines & Best Practices" - сейчас версия 0.0.3, сообщество OWASP активно пилит этот документ с июля этого года. Сейчас там много интересного - например вы можете уже для себя найти информацию о фазах тестирования, ключевые этапы тестирования для каждой фазы и лучшие практики ....

Драфт тут

1👍3🔥2❤1

2.22K viewsArtyom Semenov, 16:37

2025/07/14 04:30:08
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>