Что такое агентские системы и как меняется подход к их применению — рассказали в статье Generation AI
AI-агенты выходят за пределы лабораторий: они планируют, действуют, запоминают и адаптируются. Но остаётся проблема — бизнес по-разному воспринимает технологию и её возможности.
Вместе с Алексеем Ждановым, CPO в NDT by red_mad_robot, разбираемся, что такое агентские системы, как устроены и почему сейчас — подходящий момент, чтобы начать с ними работать.
#AI_moment
@Redmadnews
AI-агенты выходят за пределы лабораторий: они планируют, действуют, запоминают и адаптируются. Но остаётся проблема — бизнес по-разному воспринимает технологию и её возможности.
Вместе с Алексеем Ждановым, CPO в NDT by red_mad_robot, разбираемся, что такое агентские системы, как устроены и почему сейчас — подходящий момент, чтобы начать с ними работать.
#AI_moment
@Redmadnews
AI-рынок взрослеет: LLM снижают порог входа, расширяют контексты и подталкивают к этическим дебатам
Аналитический центр red_mad_robot комментирует главные события индустрии за неделю с 28 апреля по 2 мая.
🟥 Baidu показала ERNIE 4.5 Turbo и X1 Turbo: модели стали быстрее и логичнее. Одна — на уровне GPT‑4.1, другая — в четыре раза дешевле аналогов. Параллельно Baidu развивает AI-агента Xinxiang и реалистичных «цифровых людей».
Почему это важно: Baidu переходит от абстрактной мощности к прикладной рентабельности. Для команд, которые запускают собственные модели или интегрируют внешние, ключевой вопрос — TCO (Total cost of ownership). Модели, которые при сопоставимом качестве стоят в разы дешевле, позволяют запускать AI-решения быстрее. Без перегрузки бюджетов и закупки серверов на вырост.
🟥 Writer выпустила Palmyra X5: LLM обрабатывает запрос за 22 секунды и стоит $0.60 за млн входных токенов.
Почему это важно: модель работает быстро и дёшево, но пока показывает нестабильное качество в задачах, где важен точный анализ. Это компромисс, с которым можно работать на этапе первичной обработки данных и в сценариях, где критична скорость, но не требуется максимальная глубина. Важно заранее понимать ограничения модели — и учитывать их при внедрении.
🟥 Anthropic изучает «благополучие» моделей: новая программа исследует, могут ли AI-системы обрести сознание и требовать этического отношения.
Почему это важно: это сигнал, что дискуссия об этике AI движется от инженерных команд к корпоративным политикам. Как когда-то случилось с ESG, тема «ответственного отношения к моделям» может быстро стать новой нормой. Особенно для компаний, строящих пользовательские AI-продукты.
Также на неделе:
• Alibaba показала новые мультиязычные LLM с гибридным мышлением
• Moonshot AI представила открытую SOTA-модель для аудиоконтента
• Xiaomi анонсировала reasoning-модель, которая обходит o1-mini и Qwen и может работать локально
• Mastercard запустил программу платежей, позволяющую AI-агентам совершать покупки от имени пользователя
• Яндекс Маркет добавил чат-ассистента для покупок на базе YandexGPT 5 Pro
• OpenAI внедрила онлайн-шопинг в ChatGPT
#AI_moment #трендвотчинг
@Redmadnews
Аналитический центр red_mad_robot комментирует главные события индустрии за неделю с 28 апреля по 2 мая.
Почему это важно: Baidu переходит от абстрактной мощности к прикладной рентабельности. Для команд, которые запускают собственные модели или интегрируют внешние, ключевой вопрос — TCO (Total cost of ownership). Модели, которые при сопоставимом качестве стоят в разы дешевле, позволяют запускать AI-решения быстрее. Без перегрузки бюджетов и закупки серверов на вырост.
Почему это важно: модель работает быстро и дёшево, но пока показывает нестабильное качество в задачах, где важен точный анализ. Это компромисс, с которым можно работать на этапе первичной обработки данных и в сценариях, где критична скорость, но не требуется максимальная глубина. Важно заранее понимать ограничения модели — и учитывать их при внедрении.
Почему это важно: это сигнал, что дискуссия об этике AI движется от инженерных команд к корпоративным политикам. Как когда-то случилось с ESG, тема «ответственного отношения к моделям» может быстро стать новой нормой. Особенно для компаний, строящих пользовательские AI-продукты.
Также на неделе:
• Alibaba показала новые мультиязычные LLM с гибридным мышлением
• Moonshot AI представила открытую SOTA-модель для аудиоконтента
• Xiaomi анонсировала reasoning-модель, которая обходит o1-mini и Qwen и может работать локально
• Mastercard запустил программу платежей, позволяющую AI-агентам совершать покупки от имени пользователя
• Яндекс Маркет добавил чат-ассистента для покупок на базе YandexGPT 5 Pro
• OpenAI внедрила онлайн-шопинг в ChatGPT
#AI_moment #трендвотчинг
@Redmadnews
Please open Telegram to view this post
VIEW IN TELEGRAM
Подборка сервисов для быстрой оценки и сравнения LLM
Открытых моделей становится всё больше, а универсального ответа, какую ставить в продукт — нет. Одним важна точность, другим — стоимость, масштабируемость или устойчивость на длинных запросах.
Сравнительные сервисы упрощают этот выбор: они фиксируют поведение в реальных сценариях, агрегируют пользовательские оценки и показывают, какие решения уже в продакшене. Собрали подборку таких платформ.
1️⃣ OpenRouter: рейтинг LLM по реальному использованию
OpenRouter публикует открытый рейтинг моделей, основанный на частоте их использования в реальных продуктах. Это не лабораторные тесты, а фактические данные из прикладных сценариев: кодинг, маркетинг, финтех, технологии.
Рейтинг можно фильтровать по задачам и периоду: за день, неделю, месяц или по росту популярности. Это рыночный барометр: если модель стабильно удерживает лидерство в вашей категории — её используют в продакшене.
2️⃣ Chatbot Arena (LMSYS): парные сравнения моделей
Платформа предлагает формат арены: пользователь задаёт вопрос, а две модели отвечают параллельно. После этого выбирается лучший ответ. По итогам сравнений формируется рейтинг по системе Elo — как в шахматах, только для LLM.
Для моделей на русском языке есть аналог — LLM Arena. Сервис также поддерживает сравнения, голосование за лучший ответ и динамический рейтинг. Включены YandexGPT, GigaChat, MTS AI и другие модели.
3️⃣ Hugging Face: рейтинг по независимым бенчмаркам
В отличие от рейтингов популярности или пользовательских голосов, Hugging Face оценивает модели по результатам стандартных тестов: MMLU (общие знания), BBH (логика), IFEval (следование инструкциям), кодингу, математике и другим. Каждая модель получает баллы по ряду метрик, по которым можно отсортировать модели.
4️⃣ MERA: открытый бенчмарк для русскоязычных LLM
Лидерборд ранжирует модели по результатам фиксированного набора задач: логика, код, знания, этика. Оценка проходит в равных условиях: стандартизированные промпты, единые параметры, открытая методика.
Подходит, если вы работаете с русскоязычными моделями, и вам важна применимость и эффективность в конкретной области.
Какие выводы?
Выбор LLM — это управленческое решение с последствиями для качества, стоимости и скорости продукта. Сравнительные платформы не заменяют пилоты, но позволяют действовать быстрее и точнее:
📍 Отсекать слабые решения до интеграции
📍 Фокусироваться на моделях, которые уже работают в продакшене
📍 Оценивать зрелость open-source вариантов без риска потерь в качестве
Если вы внедряете LLM в продукт, рейтинги помогают действовать не по наитию, а по обоснованным критериям. Но важно не полагаться на один источник — первичную кросс-оценку стоит строить на данных из разных сервисов.
#AI_moment
@Redmadnews
Открытых моделей становится всё больше, а универсального ответа, какую ставить в продукт — нет. Одним важна точность, другим — стоимость, масштабируемость или устойчивость на длинных запросах.
Сравнительные сервисы упрощают этот выбор: они фиксируют поведение в реальных сценариях, агрегируют пользовательские оценки и показывают, какие решения уже в продакшене. Собрали подборку таких платформ.
OpenRouter публикует открытый рейтинг моделей, основанный на частоте их использования в реальных продуктах. Это не лабораторные тесты, а фактические данные из прикладных сценариев: кодинг, маркетинг, финтех, технологии.
Рейтинг можно фильтровать по задачам и периоду: за день, неделю, месяц или по росту популярности. Это рыночный барометр: если модель стабильно удерживает лидерство в вашей категории — её используют в продакшене.
Платформа предлагает формат арены: пользователь задаёт вопрос, а две модели отвечают параллельно. После этого выбирается лучший ответ. По итогам сравнений формируется рейтинг по системе Elo — как в шахматах, только для LLM.
Для моделей на русском языке есть аналог — LLM Arena. Сервис также поддерживает сравнения, голосование за лучший ответ и динамический рейтинг. Включены YandexGPT, GigaChat, MTS AI и другие модели.
В отличие от рейтингов популярности или пользовательских голосов, Hugging Face оценивает модели по результатам стандартных тестов: MMLU (общие знания), BBH (логика), IFEval (следование инструкциям), кодингу, математике и другим. Каждая модель получает баллы по ряду метрик, по которым можно отсортировать модели.
Лидерборд ранжирует модели по результатам фиксированного набора задач: логика, код, знания, этика. Оценка проходит в равных условиях: стандартизированные промпты, единые параметры, открытая методика.
Подходит, если вы работаете с русскоязычными моделями, и вам важна применимость и эффективность в конкретной области.
Какие выводы?
Выбор LLM — это управленческое решение с последствиями для качества, стоимости и скорости продукта. Сравнительные платформы не заменяют пилоты, но позволяют действовать быстрее и точнее:
Если вы внедряете LLM в продукт, рейтинги помогают действовать не по наитию, а по обоснованным критериям. Но важно не полагаться на один источник — первичную кросс-оценку стоит строить на данных из разных сервисов.
#AI_moment
@Redmadnews
Please open Telegram to view this post
VIEW IN TELEGRAM
AI подстраивается под бизнес: меньше абстракций, больше пользы, точнее сценарии
Аналитический центр red_mad_robot рассказывают и комментируют главные новости индустрии за неделю с 5 по 9 мая.
🟥 Google обновила Gemini 2.5 Pro: модель получила новые функции для разработки — генерацию интерактивных приложений из видео и упрощённое внедрение фич в существующие проекты. По итогам бенчмарка WebDev Arena Gemini обошла Claude 3.7 Sonnet и заняла первое место.
Почему это важно: бизнес получает ещё один практический инструмент до крупных AI-анонсов компании на I/O. Потенциально он может помочь снизить нагрузку на разработку, особенно на этапе прототипирования и A/B-тестов.
🟥 Microsoft представила линейку маленьких reasoning-моделей: Phi-4-reasoning, reasoning-plus и mini-reasoning показывают лучшие результаты в ряде задач по сравнению с более крупными конкурентами, включая DeepSeek-R1 и o1-mini. Самая лёгкая версия оптимизирована для смартфонов.
Почему это важно: запуск таких моделей — важный шаг к расширению применения AI в условиях ограниченных ресурсов. Они позволяют решать задачи, где требуется сложное рассуждение — от клиентской поддержки до внутренних ассистентов.
🟥 Anthropic добавила две ключевые функции в Claude: интеграцию с корпоративными системами через MCP и расширенные инструменты для исследований. Claude теперь может подключаться к бизнес-инфраструктуре и обрабатывать внутренние данные.
Почему это важно: обновления показывают, что Anthropic хочет развивать Claude как полезный инструмент для профессиональной среды. Подключение к корпоративным инструментам и возможность запускать исследования открывают путь к безопасной автоматизации — что особенно важно для компаний в регулируемых отраслях.
Также на неделе:
• Google представила функцию Simplify для упрощения сложных текстов
• Microsoft предложила фреймворк для устойчивых и соцзначимых AI-сценариев
• Hugging Face выпустила открытого AI-агента с базовыми навыками
• Apple сотрудничает с Anthropic в проекте по разработке платформы для работы с кодом
• Amazon анонсировала Nova Premier — самую мощную модель в линейке
• Microsoft представила агента для настройки Windows 11 в Copilot+
#AI_moment #трендвотчинг
@Redmadnews
Аналитический центр red_mad_robot рассказывают и комментируют главные новости индустрии за неделю с 5 по 9 мая.
Почему это важно: бизнес получает ещё один практический инструмент до крупных AI-анонсов компании на I/O. Потенциально он может помочь снизить нагрузку на разработку, особенно на этапе прототипирования и A/B-тестов.
Почему это важно: запуск таких моделей — важный шаг к расширению применения AI в условиях ограниченных ресурсов. Они позволяют решать задачи, где требуется сложное рассуждение — от клиентской поддержки до внутренних ассистентов.
Почему это важно: обновления показывают, что Anthropic хочет развивать Claude как полезный инструмент для профессиональной среды. Подключение к корпоративным инструментам и возможность запускать исследования открывают путь к безопасной автоматизации — что особенно важно для компаний в регулируемых отраслях.
Также на неделе:
• Google представила функцию Simplify для упрощения сложных текстов
• Microsoft предложила фреймворк для устойчивых и соцзначимых AI-сценариев
• Hugging Face выпустила открытого AI-агента с базовыми навыками
• Apple сотрудничает с Anthropic в проекте по разработке платформы для работы с кодом
• Amazon анонсировала Nova Premier — самую мощную модель в линейке
• Microsoft представила агента для настройки Windows 11 в Copilot+
#AI_moment #трендвотчинг
@Redmadnews
Please open Telegram to view this post
VIEW IN TELEGRAM
Вам well-done или raw? South HUB и X5 Tech устроят «Прожарку AI»
22 мая в Москве пройдёт встреча для тех, кто системно работает с технологиями в продуктах и бизнесс-процессах. В центре обсуждения — подходы из ритейла, финтеха и телекома:
📍 AI-трансформация организаций
📍 Практики и сценарии применения
📍 Влияние на рынок труда и взаимодействие с клиентом
Формат — дискуссионный батл с кейсами из практик бизнеса и кулинарным интерактивом с бренд-шефом Novikov Group.
Участие бесплатное, но действует система валидации. Прочитать все подробности и оставить заявку можно здесь.
#AI_moment
@Redmadnews
22 мая в Москве пройдёт встреча для тех, кто системно работает с технологиями в продуктах и бизнесс-процессах. В центре обсуждения — подходы из ритейла, финтеха и телекома:
Формат — дискуссионный батл с кейсами из практик бизнеса и кулинарным интерактивом с бренд-шефом Novikov Group.
Участие бесплатное, но действует система валидации. Прочитать все подробности и оставить заявку можно здесь.
#AI_moment
@Redmadnews
Please open Telegram to view this post
VIEW IN TELEGRAM
Модели отличаются не только по качеству генерации, но и по тому, как ведут себя в разных задачах — от аналитики и кода до шаблонных ответов и рассуждений.
В этом посте мы уже рассказали о сервисах, которые помогают сравнивать LLM без лишнего тестирования. А сегодня разберём конкретный пример — лидерборд от OpenRouter. И да, практически все эти модели можно попробовать в нашем AI-помощнике — Daisy.
#AI_moment
@Redmadnews
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
ICLR_red_mad_robot_2025.pdf
6.2 MB
В этом году на International Conference on Learning Representations — одной из ключевых конференций по ML и AI — представили более трёх тысяч работ. Команды исследователей предложили прорывные подходы к безопасности LLM, точечному редактированию знаний и оптимизации обучения.
Вместе с аналитическим центром red_mad_robot собрали перспективные проекты, получившие высокие оценки от ревьюеров. Всё — в одной подборке с кратким описанием сути: чтобы сразу увидеть, что работает, куда движется индустрия и какие решения могут лечь в основу новых продуктов.
#AI_moment #трендвотчинг
@Redmadnews
Please open Telegram to view this post
VIEW IN TELEGRAM