Telegram Web Link
Что такое агентские системы и как меняется подход к их применению — рассказали в статье Generation AI

AI-агенты выходят за пределы лабораторий: они планируют, действуют, запоминают и адаптируются. Но остаётся проблема — бизнес по-разному воспринимает технологию и её возможности.

Вместе с Алексеем Ждановым, CPO в NDT by red_mad_robot, разбираемся, что такое агентские системы, как устроены и почему сейчас — подходящий момент, чтобы начать с ними работать.

#AI_moment 

@Redmadnews
AI-рынок взрослеет: LLM снижают порог входа, расширяют контексты и подталкивают к этическим дебатам

Аналитический центр red_mad_robot комментирует главные события индустрии за неделю с 28 апреля по 2 мая.

🟥Baidu показала ERNIE 4.5 Turbo и X1 Turbo: модели стали быстрее и логичнее. Одна — на уровне GPT‑4.1, другая — в четыре раза дешевле аналогов. Параллельно Baidu развивает AI-агента Xinxiang и реалистичных «цифровых людей».

Почему это важно: Baidu переходит от абстрактной мощности к прикладной рентабельности. Для команд, которые запускают собственные модели или интегрируют внешние, ключевой вопрос — TCO (Total cost of ownership). Модели, которые при сопоставимом качестве стоят в разы дешевле, позволяют запускать AI-решения быстрее. Без перегрузки бюджетов и закупки серверов на вырост. 

🟥Writer выпустила Palmyra X5: LLM обрабатывает запрос за 22 секунды и стоит $0.60 за млн входных токенов. 

Почему это важно: модель работает быстро и дёшево, но пока показывает нестабильное качество в задачах, где важен точный анализ. Это компромисс, с которым можно работать на этапе первичной обработки данных и в сценариях, где критична скорость, но не требуется максимальная глубина. Важно заранее понимать ограничения модели — и учитывать их при внедрении.

🟥Anthropic изучает «благополучие» моделей: новая программа исследует, могут ли AI-системы обрести сознание и требовать этического отношения.

Почему это важно: это сигнал, что дискуссия об этике AI движется от инженерных команд к корпоративным политикам. Как когда-то случилось с ESG, тема «ответственного отношения к моделям» может быстро стать новой нормой. Особенно для компаний, строящих пользовательские AI-продукты.

Также на неделе:
• Alibaba показала новые мультиязычные LLM с гибридным мышлением
• Moonshot AI представила открытую SOTA-модель для аудиоконтента
• Xiaomi анонсировала reasoning-модель, которая обходит o1-mini и Qwen и может работать локально
• Mastercard запустил программу платежей, позволяющую AI-агентам совершать покупки от имени пользователя
• Яндекс Маркет добавил чат-ассистента для покупок на базе YandexGPT 5 Pro
• OpenAI внедрила онлайн-шопинг в ChatGPT

#AI_moment #трендвотчинг

@Redmadnews
Please open Telegram to view this post
VIEW IN TELEGRAM
Подборка сервисов для быстрой оценки и сравнения LLM

Открытых моделей становится всё больше, а универсального ответа, какую ставить в продукт — нет. Одним важна точность, другим — стоимость, масштабируемость или устойчивость на длинных запросах.

Сравнительные сервисы упрощают этот выбор: они фиксируют поведение в реальных сценариях, агрегируют пользовательские оценки и показывают, какие решения уже в продакшене. Собрали подборку таких платформ.

1️⃣ OpenRouter: рейтинг LLM по реальному использованию

OpenRouter публикует открытый рейтинг моделей, основанный на частоте их использования в реальных продуктах. Это не лабораторные тесты, а фактические данные из прикладных сценариев: кодинг, маркетинг, финтех, технологии. 

Рейтинг можно фильтровать по задачам и периоду: за день, неделю, месяц или по росту популярности. Это рыночный барометр: если модель стабильно удерживает лидерство в вашей категории — её используют в продакшене.

2️⃣ Chatbot Arena (LMSYS): парные сравнения моделей 

Платформа предлагает формат арены: пользователь задаёт вопрос, а две модели отвечают параллельно. После этого выбирается лучший ответ. По итогам сравнений формируется рейтинг по системе Elo — как в шахматах, только для LLM.

Для моделей на русском языке есть аналог — LLM Arena. Сервис также поддерживает сравнения, голосование за лучший ответ и динамический рейтинг. Включены YandexGPT, GigaChat, MTS AI и другие модели.

3️⃣ Hugging Face: рейтинг по независимым бенчмаркам

В отличие от рейтингов популярности или пользовательских голосов, Hugging Face оценивает модели по результатам стандартных тестов: MMLU (общие знания),  BBH (логика), IFEval (следование инструкциям), кодингу, математике и другим. Каждая модель получает баллы по ряду метрик, по которым можно отсортировать модели.

4️⃣ MERA: открытый бенчмарк для русскоязычных LLM

Лидерборд ранжирует модели по результатам фиксированного набора задач: логика, код, знания, этика. Оценка проходит в равных условиях: стандартизированные промпты, единые параметры, открытая методика.

Подходит, если вы работаете с русскоязычными моделями, и вам важна применимость и эффективность в конкретной области.

Какие выводы? 
Выбор LLM — это управленческое решение с последствиями для качества, стоимости и скорости продукта. Сравнительные платформы не заменяют пилоты, но позволяют действовать быстрее и точнее:

📍 Отсекать слабые решения до интеграции
📍 Фокусироваться на моделях, которые уже работают в продакшене
📍 Оценивать зрелость open-source вариантов без риска потерь в качестве

Если вы внедряете LLM в продукт, рейтинги помогают действовать не по наитию, а по обоснованным критериям. Но важно не полагаться на один источник — первичную кросс-оценку стоит строить на данных из разных сервисов. 

#AI_moment

@Redmadnews
Please open Telegram to view this post
VIEW IN TELEGRAM
AI подстраивается под бизнес: меньше абстракций, больше пользы, точнее сценарии 

Аналитический центр red_mad_robot рассказывают и комментируют главные новости индустрии за неделю с 5 по 9 мая.

🟥 Google обновила Gemini 2.5 Pro: модель получила новые функции для разработки — генерацию интерактивных приложений из видео и упрощённое внедрение фич в существующие проекты. По итогам бенчмарка WebDev Arena Gemini обошла Claude 3.7 Sonnet и заняла первое место.

Почему это важно: бизнес получает ещё один практический инструмент до крупных AI-анонсов компании на I/O. Потенциально он может помочь снизить нагрузку на разработку, особенно на этапе прототипирования и A/B-тестов.

🟥 Microsoft представила линейку маленьких reasoning-моделей: Phi-4-reasoning, reasoning-plus и mini-reasoning показывают лучшие результаты в ряде задач по сравнению с более крупными конкурентами, включая DeepSeek-R1 и o1-mini. Самая лёгкая версия оптимизирована для смартфонов.

Почему это важно: запуск таких моделей — важный шаг к расширению применения AI в условиях ограниченных ресурсов. Они позволяют решать задачи, где требуется сложное рассуждение — от клиентской поддержки до внутренних ассистентов. 

🟥 Anthropic добавила две ключевые функции в Claude: интеграцию с корпоративными системами через MCP и расширенные инструменты для исследований. Claude теперь может подключаться к бизнес-инфраструктуре и обрабатывать внутренние данные.

Почему это важно: обновления показывают, что Anthropic хочет развивать Claude как полезный инструмент для профессиональной среды. Подключение к корпоративным инструментам и возможность запускать исследования открывают путь к безопасной автоматизации — что особенно важно для компаний в регулируемых отраслях. 

Также на неделе:
• Google представила функцию Simplify для упрощения сложных текстов
• Microsoft предложила фреймворк для устойчивых и соцзначимых AI-сценариев
• Hugging Face выпустила открытого AI-агента с базовыми навыками
• Apple сотрудничает с Anthropic в проекте по разработке платформы для работы с кодом
• Amazon анонсировала Nova Premier — самую мощную модель в линейке
• Microsoft представила агента для настройки Windows 11 в Copilot+

#AI_moment #трендвотчинг

@Redmadnews
Please open Telegram to view this post
VIEW IN TELEGRAM
Вам well-done или raw? South HUB и X5 Tech устроят «Прожарку AI»

22 мая в Москве пройдёт встреча для тех, кто системно работает с технологиями в продуктах и бизнесс-процессах. В центре обсуждения — подходы из ритейла, финтеха и телекома:

📍 AI-трансформация организаций
📍 Практики и сценарии применения
📍 Влияние на рынок труда и взаимодействие с клиентом

Формат — дискуссионный батл с кейсами из практик бизнеса и кулинарным интерактивом с бренд-шефом Novikov Group.

Участие бесплатное, но действует система валидации. Прочитать все подробности и оставить заявку можно здесь.

#AI_moment

@Redmadnews
Please open Telegram to view this post
VIEW IN TELEGRAM
↗️ AI для цифр: подборка популярных LLM в финтехе

Модели отличаются не только по качеству генерации, но и по тому, как ведут себя в разных задачах — от аналитики и кода до шаблонных ответов и рассуждений.

В этом посте мы уже рассказали о сервисах, которые помогают сравнивать LLM без лишнего тестирования. А сегодня разберём конкретный пример — лидерборд от OpenRouter. И да, практически все эти модели можно попробовать в нашем AI-помощнике — Daisy.

#AI_moment

@Redmadnews
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
ICLR_red_mad_robot_2025.pdf
6.2 MB
↗️Итоги ICLR: проекты, за которыми стоит следить

В этом году на International Conference on Learning Representations — одной из ключевых конференций по ML и AI — представили более трёх тысяч работ. Команды исследователей предложили прорывные подходы к безопасности LLM, точечному редактированию знаний и оптимизации обучения. 

Вместе с аналитическим центром red_mad_robot собрали перспективные проекты, получившие высокие оценки от ревьюеров. Всё — в одной подборке с кратким описанием сути: чтобы сразу увидеть, что работает, куда движется индустрия и какие решения могут лечь в основу новых продуктов.

#AI_moment #трендвотчинг

@Redmadnews
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/06/29 19:07:02
Back to Top
HTML Embed Code: