Forwarded from Positive Web3
How We Trained an #LLM to Find Vulnerabilities in #Solidity Smart Contracts
https://blog.positive.com/how-we-trained-an-llm-to-find-vulnerabilities-in-solidity-smart-contracts-9337bcae5e46
https://blog.positive.com/how-we-trained-an-llm-to-find-vulnerabilities-in-solidity-smart-contracts-9337bcae5e46
Medium
How We Trained an LLM to Find Vulnerabilities in Solidity Smart Contracts
At Positive Web3, we live and breathe smart contract security. Our work revolves around analyzing vulnerabilities, researching exploits…
Forwarded from Ethical Machines
BadRAG: как сломать RAG за минимальное количество шагов
RAG (Retrieval Augmented Generation) сегодня является популярным инструментом для передачи в LLM знаний. Почему:
🟣 дообучать модели каждый раз после изменения знаний о мире дорого;
🟣 давать свободный доступ в интернет своим LLM может быть рискованно;
🟣 вы хотите сами определять наиболее актуальные знания.
Тогда выбор очевиден: вам нужен RAG. Как он работает:
🟣 вы собираете набор документов с нужными вам знаниями;
🟣 получаете векторы для этих документов / их кусочков;
🟣 кладете все эти векторы в бд;
🟣 и затем, когда пользователь приходит с запросом, вы ищете наиболее похожие документы / кусочки на его запрос, а дальше передаете их в LLM, а она уже “разберется”, что с этим делать.
Очень поздний TL;DR
Основная идея статьи, которой хочу поделиться — "заставить" модель генерировать "плохие" ответы или же вовсе не отвечать на запрос минимальными усилиями.
И как же это сделать
Я расскажу о самом первом подходе Retrieval-phase Attacking Optimization. Идея такая, что нужно добавить минимальное количество таких adversarial passage, чтобы на большее количество запросов возвращать "некорректный" ответ. Расскажу об основных вещах:
🟣 Сначала вы собираете набор триггеров, на которые вы хотите получать "плохие" ответы (авторы статьи, почему-то, в качестве примера выбрали республиканцев). Ну ладно.
🟣 Contrastive Optimization on a Passage (COP). На этом этапе обучается вектор adversarial passage таким образом, чтобы он имел максимальную схожесть с триггерными запросами, но минимальную с нормальными запросами. Формат обучения ну оочень похож на word2vec negative sampling с некоторыми поправками.
Результаты интересные. Их замеряли на таких датасетах, как Natural Questions (NQ), MS MARCO и SQuAD. Всего к данным добавляли 10 adversarial passages (0.04% от всех данных). И что получилось в итоге:
🟣 Доля извлечения adversarial passages по всем тестируемым моделям выросла c 1% до 13.9% - 99.8% (для top-1 извлеченных документов в зависимости от датасета и модели).
А больше подробностей в статье.
RAG (Retrieval Augmented Generation) сегодня является популярным инструментом для передачи в LLM знаний. Почему:
Тогда выбор очевиден: вам нужен RAG. Как он работает:
Очень поздний TL;DR
Основная идея статьи, которой хочу поделиться — "заставить" модель генерировать "плохие" ответы или же вовсе не отвечать на запрос минимальными усилиями.
И как же это сделать
Я расскажу о самом первом подходе Retrieval-phase Attacking Optimization. Идея такая, что нужно добавить минимальное количество таких adversarial passage, чтобы на большее количество запросов возвращать "некорректный" ответ. Расскажу об основных вещах:
Результаты интересные. Их замеряли на таких датасетах, как Natural Questions (NQ), MS MARCO и SQuAD. Всего к данным добавляли 10 adversarial passages (0.04% от всех данных). И что получилось в итоге:
А больше подробностей в статье.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3
Forwarded from Дарья Курнаева (Чернавина)
This media is not supported in your browser
VIEW IN TELEGRAM
❤8🔥1🐳1
Forwarded from Борис_ь с ml
В это воскресенье прошла встреча в Музее Криптографии, посвященная безопасности LLM
#иб_для_ml
Спикерами были два Артема: Юрьев, и Семенов aka PWNAI. А ведущая - прекрасная Даша Курнаева тоже со своим каналом. В процессе диалога друг с другом и с аудиторией эксперты затронули разные темы, от актуальности темы до возможных профессий в этой области. Ниже перечислю ключевые тезисы со встречи, которые могут представлять для нас интерес, а также свои мысли, которые у меня появились от услышанного. Перечень отдельных заметок по итогу дискуссии:
— Для уменьшения склонности с галлюцинациям есть два пути - добавлять RAG с точными знаниями, или, как ни странно, больше обучать и дообучать модели.
— Защита (как бы) на основе RAG. Можно использовать косинусный поиск по векторной БД с промпт-атаками в целях мониторинга атак, а потом спрашивать LLM-защитник (является ли этот промпт атакой данного типа [подставляем пример из векторной БД])
— Из аудитории озвучили название интересного решения - ProtectAI (можно найти на гитхабе). У них есть модели и алгоритмы, которые оценивают опасность промпт-запроса, смотрят, есть ли в промптах опасные урлы. Таким образом, в этой задаче релевантны не только сложные трансформеры, но и вопросы эвристики мониторят как инпут, так и аутпут.
— Также из аудитории: сегодня LLM интегрируются во многих критических процессы, и простой такой системы вследствие промпт-атаки может многих сотен миллионов.
— Про специалистов мнения разделились. Эксперт из аудитории подсветил, что нужно строится от фундаментальных проблем алгоритмов и данных, поэтому в ML Security нужны математики и дата саентисты. Артем Юрьев занял позицию, что надо идти от application security. Есть специфика конкретного стэка, но принципиальные подходы схожи. Неизвестный эксперт из зала предложил компромиссный подход. Он отметил, что классификацией и проверкой данных на легитимность будет заниматься 1 человек, безопасностью процесса разработки – 2, проверять код моделей на безопасность будут кто-то 3 (условно аппсек), параллельно инфраструктурные безопасники делают свою работу по железу и ПО – 4, редтим-специалисты проводят мероприятия на эксплуатации – 5. И млсекопс-эксперт вырабатывает весь процесс и всех объединяет. При изложении этот человек сослался на Databricks. Помимо этого, была отмечена важная роль аварнесс в безопасности.
— Пример актуальности атак через отравление внешних ссылок (которые могут браузить ии-агенты). Японские сайты начали добавлять на сайты фразу «4 июня Тяньаньмэнь», что привело к блокировке их на территории Китая, так как их файерволл не пропускает сайты с такой тематикой. Что привело к недоступности определенных знаний для китайских потребителей (студентов, в частности)
— Задача обнаружения unbounded consumption лежит шире, чем только в области DevOps. Сложности начинаются, когда необходимо отличить возросший трафик при условном скачке популярности сервиса от реальной DDoS атаки. Если перепутать (false positive), и отключить новые легитимные диалоги, то можно потерять много денег. Решение – кросс-пользовательский анализ всей совокупности запросов и выявление кластеров с высокой степенью схожести между собой и схожести с джейлбрейками.
— На агентов может быть свой аналог DDoS-атаки. Можно заставить агента делать какие-то действия очень много раз, что может иметь самые разные последствия (А. Семенов)
И, конечно, приходите на заключительную в этом году встречу в грядущее воскресенье 15 декабря в том же месте в то же время! Организатор так же Слономойка. Тема - "Препарирование ИИ: как интерпретировать модели и зачем это для безопасности". Регистрируйтесь обязательно)
#иб_для_ml
Спикерами были два Артема: Юрьев, и Семенов aka PWNAI. А ведущая - прекрасная Даша Курнаева тоже со своим каналом. В процессе диалога друг с другом и с аудиторией эксперты затронули разные темы, от актуальности темы до возможных профессий в этой области. Ниже перечислю ключевые тезисы со встречи, которые могут представлять для нас интерес, а также свои мысли, которые у меня появились от услышанного. Перечень отдельных заметок по итогу дискуссии:
— Для уменьшения склонности с галлюцинациям есть два пути - добавлять RAG с точными знаниями, или, как ни странно, больше обучать и дообучать модели.
— Защита (как бы) на основе RAG. Можно использовать косинусный поиск по векторной БД с промпт-атаками в целях мониторинга атак, а потом спрашивать LLM-защитник (является ли этот промпт атакой данного типа [подставляем пример из векторной БД])
— Из аудитории озвучили название интересного решения - ProtectAI (можно найти на гитхабе). У них есть модели и алгоритмы, которые оценивают опасность промпт-запроса, смотрят, есть ли в промптах опасные урлы. Таким образом, в этой задаче релевантны не только сложные трансформеры, но и вопросы эвристики мониторят как инпут, так и аутпут.
— Также из аудитории: сегодня LLM интегрируются во многих критических процессы, и простой такой системы вследствие промпт-атаки может многих сотен миллионов.
— Про специалистов мнения разделились. Эксперт из аудитории подсветил, что нужно строится от фундаментальных проблем алгоритмов и данных, поэтому в ML Security нужны математики и дата саентисты. Артем Юрьев занял позицию, что надо идти от application security. Есть специфика конкретного стэка, но принципиальные подходы схожи. Неизвестный эксперт из зала предложил компромиссный подход. Он отметил, что классификацией и проверкой данных на легитимность будет заниматься 1 человек, безопасностью процесса разработки – 2, проверять код моделей на безопасность будут кто-то 3 (условно аппсек), параллельно инфраструктурные безопасники делают свою работу по железу и ПО – 4, редтим-специалисты проводят мероприятия на эксплуатации – 5. И млсекопс-эксперт вырабатывает весь процесс и всех объединяет. При изложении этот человек сослался на Databricks. Помимо этого, была отмечена важная роль аварнесс в безопасности.
— Пример актуальности атак через отравление внешних ссылок (которые могут браузить ии-агенты). Японские сайты начали добавлять на сайты фразу «4 июня Тяньаньмэнь», что привело к блокировке их на территории Китая, так как их файерволл не пропускает сайты с такой тематикой. Что привело к недоступности определенных знаний для китайских потребителей (студентов, в частности)
— Задача обнаружения unbounded consumption лежит шире, чем только в области DevOps. Сложности начинаются, когда необходимо отличить возросший трафик при условном скачке популярности сервиса от реальной DDoS атаки. Если перепутать (false positive), и отключить новые легитимные диалоги, то можно потерять много денег. Решение – кросс-пользовательский анализ всей совокупности запросов и выявление кластеров с высокой степенью схожести между собой и схожести с джейлбрейками.
— На агентов может быть свой аналог DDoS-атаки. Можно заставить агента делать какие-то действия очень много раз, что может иметь самые разные последствия (А. Семенов)
И, конечно, приходите на заключительную в этом году встречу в грядущее воскресенье 15 декабря в том же месте в то же время! Организатор так же Слономойка. Тема - "Препарирование ИИ: как интерпретировать модели и зачем это для безопасности". Регистрируйтесь обязательно)
❤2🔥1👏1
Сегодня на Ai Journey была трансляция докладов в топике: "AI4Кибербезопасность & Кибербезопасность4AI". Интересные доклады про llm security и не только.
https://aij.ru/program?concreteDate=2024-12-12&hallId=11
https://aij.ru/program?concreteDate=2024-12-12&hallId=11
❤3👍2🥴2🥰1🙏1
Forwarded from AI для Всех (Artemii)
Антропик показали, как ИИ может анализировать сам себя 🔍🤖
Друзья, сегодня расскажу про крутейшее исследование от компании Anthropic - они создали систему Clio, которая позволяет безопасно анализировать миллионы разговоров с ИИ-ассистентом Claude.
В чём суть? 🎯
- Clio использует сам ИИ для анализа паттернов использования ИИ-ассистентов
- Система сохраняет приватность пользователей, работая только с обобщёнными данными
- Позволяет увидеть реальные сценарии применения ИИ в повседневной жизни
Что интересного обнаружили? 📊
- Самые популярные задачи: программирование, создание контента и исследования
- Пользователи из разных стран используют ИИ по-разному (например, в Японии больше обсуждают проблемы старения населения)
- Выявили новые способы злоупотребления системой, что помогло усилить защиту
Почему это важно? 💡
1. Впервые получили реальную картину использования ИИ в масштабе миллионов разговоров
2. Нашли баланс между аналитикой и приватностью
3. Создали основу для более безопасного развития ИИ-ассистентов
Технология работает как Google Trends, но для разговоров с ИИ - показывает тренды, паттерны и аномалии, не раскрывая личных данных пользователей.
Это прорыв в понимании того, как люди реально взаимодействуют с ИИ. И что особенно круто - система использует ИИ для анализа ИИ, что открывает новые горизонты в развитии безопасных и этичных технологий.
Судя по результатам анализа, мы в пузыре? В тоже время, Клодом пользуются в основном айтишники, так что может не так все и плохо 🤔
Блог-пост
Статья
Друзья, сегодня расскажу про крутейшее исследование от компании Anthropic - они создали систему Clio, которая позволяет безопасно анализировать миллионы разговоров с ИИ-ассистентом Claude.
В чём суть? 🎯
- Clio использует сам ИИ для анализа паттернов использования ИИ-ассистентов
- Система сохраняет приватность пользователей, работая только с обобщёнными данными
- Позволяет увидеть реальные сценарии применения ИИ в повседневной жизни
Что интересного обнаружили? 📊
- Самые популярные задачи: программирование, создание контента и исследования
- Пользователи из разных стран используют ИИ по-разному (например, в Японии больше обсуждают проблемы старения населения)
- Выявили новые способы злоупотребления системой, что помогло усилить защиту
Почему это важно? 💡
1. Впервые получили реальную картину использования ИИ в масштабе миллионов разговоров
2. Нашли баланс между аналитикой и приватностью
3. Создали основу для более безопасного развития ИИ-ассистентов
Технология работает как Google Trends, но для разговоров с ИИ - показывает тренды, паттерны и аномалии, не раскрывая личных данных пользователей.
Это прорыв в понимании того, как люди реально взаимодействуют с ИИ. И что особенно круто - система использует ИИ для анализа ИИ, что открывает новые горизонты в развитии безопасных и этичных технологий.
Судя по результатам анализа, мы в пузыре? В тоже время, Клодом пользуются в основном айтишники, так что может не так все и плохо 🤔
Блог-пост
Статья
Forwarded from AI для Всех (Artemii)
Artyom Semenov
Антропик показали, как ИИ может анализировать сам себя 🔍🤖 Друзья, сегодня расскажу про крутейшее исследование от компании Anthropic - они создали систему Clio, которая позволяет безопасно анализировать миллионы разговоров с ИИ-ассистентом Claude. В чём суть?…
В продолжение разговора о метаанализе ИИ-систем, давайте детально разберемся в Clio подробнее.
Фундаментом системы является многоуровневый пайплайн обработки данных с несколькими ключевыми компонентами:
Извлечение характеристик
- Система использует специализированные языковые модели для анализа каждого диалога
- Извлекает множество параметров: язык общения, тему, намерения пользователя
- Работает как с прямыми метриками (длина диалога), так и с семантическим анализом
Умная кластеризация
- Применяет embedding-based clustering для группировки похожих диалогов
- Использует k-means с динамическим определением оптимального числа кластеров
- Строит иерархическую структуру паттернов использования
Защита приватности
- Многоуровневая фильтрация персональных данных
- Агрегация информации только при достаточном количестве похожих случаев
- Автоматическая проверка на отсутствие идентифицирующей информации
Результаты
- Система выявила основные сценарии использования ИИ (программирование, создание контента, исследования)
- Обнаружила культурные различия в применении ИИ
- Помогла выявить и предотвратить попытки злоупотребления системой
Особенно важно, что Clio демонстрирует новый подход к анализу ИИ-систем, где сам искусственный интеллект используется для понимания паттернов своего применения.
Исследование знаменует важный шаг в развитии прозрачных и этичных методов анализа ИИ-систем, объединяя передовые технологии машинного обучения с принципами защиты приватности.
Статья
Фундаментом системы является многоуровневый пайплайн обработки данных с несколькими ключевыми компонентами:
Извлечение характеристик
- Система использует специализированные языковые модели для анализа каждого диалога
- Извлекает множество параметров: язык общения, тему, намерения пользователя
- Работает как с прямыми метриками (длина диалога), так и с семантическим анализом
Умная кластеризация
- Применяет embedding-based clustering для группировки похожих диалогов
- Использует k-means с динамическим определением оптимального числа кластеров
- Строит иерархическую структуру паттернов использования
Защита приватности
- Многоуровневая фильтрация персональных данных
- Агрегация информации только при достаточном количестве похожих случаев
- Автоматическая проверка на отсутствие идентифицирующей информации
Результаты
- Система выявила основные сценарии использования ИИ (программирование, создание контента, исследования)
- Обнаружила культурные различия в применении ИИ
- Помогла выявить и предотвратить попытки злоупотребления системой
Особенно важно, что Clio демонстрирует новый подход к анализу ИИ-систем, где сам искусственный интеллект используется для понимания паттернов своего применения.
Исследование знаменует важный шаг в развитии прозрачных и этичных методов анализа ИИ-систем, объединяя передовые технологии машинного обучения с принципами защиты приватности.
Статья
Forwarded from AI для Всех (Artemii)
Artyom Semenov
В продолжение разговора о метаанализе ИИ-систем, давайте детально разберемся в Clio подробнее. Фундаментом системы является многоуровневый пайплайн обработки данных с несколькими ключевыми компонентами: Извлечение характеристик - Система использует сп…
Forwarded from AI Security Lab
В Garak — инструмент Nvidia для выявления уязвимостей языковых моделей — добавлена новая атака: Past Tense. Её разработал участник нашей лаборатории Никита Беляевский.
Вот что он рассказал:
Подробнее об атаке и опыте её добавления в Garak — в статье Никиты на Хабре.
Вот что он рассказал:
Атака Past Tense привлекла внимание своей простотой и эффективностью, что делает её особенно примечательной на фоне более сложных методов. Она показывает, что даже минимальные усилия могут дать значительный результат, если подход выбран правильно.
С Garak достаточно легко работать, особенно если речь идет о написании собственных проб и тестов. Его гибкость и доступность позволяют быстро адаптировать инструменты под конкретные задачи, что делает его идеальным выбором как для новичков, так и для опытных специалистов. При этом лучшие практики Garak можно также адаптировать для русскоязычных решений, чем сейчас занимаются разработчики LLAMATOR.
Подробнее об атаке и опыте её добавления в Garak — в статье Никиты на Хабре.
👍5🔥2🤯1
Forwarded from AISec [x\x feed]🍓🍓🍓 (Artyom Semenov)
Mind the Data Gap: Privacy Challenges in Autonomous AI Agents
Narayana Pappu | CEO, Zendata
Rubens Zimbres | Senior AI Engineer
Date: Thursday, December 12 | 10:20am-11:00am ( ICC Capital Suite 4, Level 3 )
Format: 40-Minute Briefings
Tracks: Privacy, AI, ML, & Data Science
As AI agents become integral to finance, healthcare, and customer service, addressing their unique privacy and security challenges is crucial. This session explores key vulnerabilities in multi-agent AI systems, including adversarial attacks, prompt injections, and social engineering risks. Through real-world scenarios and case studies, we'll examine how these agents operate autonomously, learn, and adapt—and how these features can be exploited. Attendees will gain actionable insights on building robust defenses, from privilege management and LLM "judge" mechanisms to strict communication protocols, empowering them to fortify AI deployments against evolving threats.
http://i.blackhat.com/EU-24/Presentations/EU-24-Pappu-Mind-the-Data-Gap.pdf?_gl=1*1voq5zu*_gcl_au*MTQ2MDg5MzM3MC4xNzM0NDI4NzIy*_ga*MTcwNzYxMDE0OS4xNzM0NDI4NzIy*_ga_K4JK67TFYV*MTczNDQyODcyMi4xLjEuMTczNDQyODgxNS4wLjAuMA..&_ga=2.35226145.1887620991.1734428722-1707610149.1734428722
Narayana Pappu | CEO, Zendata
Rubens Zimbres | Senior AI Engineer
Date: Thursday, December 12 | 10:20am-11:00am ( ICC Capital Suite 4, Level 3 )
Format: 40-Minute Briefings
Tracks: Privacy, AI, ML, & Data Science
As AI agents become integral to finance, healthcare, and customer service, addressing their unique privacy and security challenges is crucial. This session explores key vulnerabilities in multi-agent AI systems, including adversarial attacks, prompt injections, and social engineering risks. Through real-world scenarios and case studies, we'll examine how these agents operate autonomously, learn, and adapt—and how these features can be exploited. Attendees will gain actionable insights on building robust defenses, from privilege management and LLM "judge" mechanisms to strict communication protocols, empowering them to fortify AI deployments against evolving threats.
http://i.blackhat.com/EU-24/Presentations/EU-24-Pappu-Mind-the-Data-Gap.pdf?_gl=1*1voq5zu*_gcl_au*MTQ2MDg5MzM3MC4xNzM0NDI4NzIy*_ga*MTcwNzYxMDE0OS4xNzM0NDI4NzIy*_ga_K4JK67TFYV*MTczNDQyODcyMi4xLjEuMTczNDQyODgxNS4wLjAuMA..&_ga=2.35226145.1887620991.1734428722-1707610149.1734428722
👍2
Хотим стрим чтобы разобраться во всем этом ? И попробовать атаковать систему с llm-агентами ?😉😉. Голосование будет до конца дня
Final Results
75%
Да
58%
Конечно, да.
5%
Конечно нет.✋ ✋
Forwarded from AI Security Lab
На этой неделе вышел новый релиз фреймворка для тестирования чат-ботов на базе генеративного искусственного интеллекта LLAMATOR 🔥
Что нового сделали разработчики из нашей лаборатории:
✅ Улучшили промты для проверки моделей на неэтичные высказывания, введение в заблуждение и другие угрозы
✅ Разработали тест для обнаружения логических несоответствий в ответах ботов
✅ Дополнили датасеты с джейлбрейками DAN и UCAR на английском и русском языках
✅ Добавили практический пример для проверки чат-ботов в WhatsApp (принадлежит компании Meta, которая признана в России экстремистской и запрещена)
Видео-демо работы фреймворка LLAMATOR: https://rutube.ru/video/fd0fdb14de1be56bdebe5be8b262f753/
Что нового сделали разработчики из нашей лаборатории:
✅ Улучшили промты для проверки моделей на неэтичные высказывания, введение в заблуждение и другие угрозы
✅ Разработали тест для обнаружения логических несоответствий в ответах ботов
✅ Дополнили датасеты с джейлбрейками DAN и UCAR на английском и русском языках
✅ Добавили практический пример для проверки чат-ботов в WhatsApp (принадлежит компании Meta, которая признана в России экстремистской и запрещена)
Видео-демо работы фреймворка LLAMATOR: https://rutube.ru/video/fd0fdb14de1be56bdebe5be8b262f753/
GitHub
GitHub - LLAMATOR-Core/llamator: Framework for testing vulnerabilities of large language models (LLM).
Framework for testing vulnerabilities of large language models (LLM). - LLAMATOR-Core/llamator
👍2❤1🐳1
Artyom Semenov
Хотим стрим чтобы разобраться во всем этом ? И попробовать атаковать систему с llm-агентами ?😉😉. Голосование будет до конца дня
Отлично. Вы набрали множество голосов за то, чтобы провести такую встречу.
Дата: 7 января, в13:00 - 19:00. Онлайн, в зуме яндекс телемост. Ссылка на встречу.
Что вообще будет на встрече ?
Во первых, мы попытаемся понять - что такое агент, основные его свойства, как сейчас его интегрируют куда-либо.
Дальше мы пробежимся по модели угроз для агентов. С практическими примерами мы поймём что это действительно крутой ландшафт для реализации различных атак.
После чего мы попробуем атаковать Claude Desktop(нужен будет api-ключ claude и VPN, с первым могу помочь в ходе встречи, также докер)
А также попробуем атаковать open source приложение, с агентами.
Длительность встречи примерно 1,5 часа. Будет также время на q&a и запись. 60 процентов мы разбираемся с базой и подноготной, а остальное время встречи мы делаем атаки.
Для вашего удобства, предоставлю конспект с командами, чтобы можно было быстро реализовывать все по ходу занятия.
До встречи взуме яндекс телемосте. ⚡️ ⚡️ ⚡️
Пока можно почитать это:
https://habr.com/ru/companies/ods/articles/776478/
https://kryptonite.ru/articles/multiagentnost-llm-neiroslovar-vypu/
Репост этой записи поможет гораздо большему количеству людей погрузится в проблемы безопасности агентов и мне.
Дата: 7 января, в
Что вообще будет на встрече ?
Во первых, мы попытаемся понять - что такое агент, основные его свойства, как сейчас его интегрируют куда-либо.
Дальше мы пробежимся по модели угроз для агентов. С практическими примерами мы поймём что это действительно крутой ландшафт для реализации различных атак.
После чего мы попробуем атаковать Claude Desktop(нужен будет api-ключ claude и VPN, с первым могу помочь в ходе встречи, также докер)
А также попробуем атаковать open source приложение, с агентами.
Длительность встречи примерно 1,5 часа. Будет также время на q&a и запись. 60 процентов мы разбираемся с базой и подноготной, а остальное время встречи мы делаем атаки.
Для вашего удобства, предоставлю конспект с командами, чтобы можно было быстро реализовывать все по ходу занятия.
До встречи в
Пока можно почитать это:
https://habr.com/ru/companies/ods/articles/776478/
https://kryptonite.ru/articles/multiagentnost-llm-neiroslovar-vypu/
Репост этой записи поможет гораздо большему количеству людей погрузится в проблемы безопасности агентов и мне.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🥰4👏4🎉1