red_mad_robot

Что такое агентские системы и как меняется подход к их применению — рассказали в статье Generation AI

AI-агенты выходят за пределы лабораторий: они планируют, действуют, запоминают и адаптируются. Но остаётся проблема — бизнес по-разному воспринимает технологию и её возможности.

Вместе с Алексеем Ждановым, CPO в NDT by red_mad_robot, разбираемся, что такое агентские системы, как устроены и почему сейчас — подходящий момент, чтобы начать с ними работать.

#AI_moment

@Redmadnews

2.6K views10:19

red_mad_robot

AI-рынок взрослеет: LLM снижают порог входа, расширяют контексты и подталкивают к этическим дебатам

Аналитический центр red_mad_robot комментирует главные события индустрии за неделю с 28 апреля по 2 мая.

🟥Baidu показала ERNIE 4.5 Turbo и X1 Turbo: модели стали быстрее и логичнее. Одна — на уровне GPT‑4.1, другая — в четыре раза дешевле аналогов. Параллельно Baidu развивает AI-агента Xinxiang и реалистичных «цифровых людей».

Почему это важно: Baidu переходит от абстрактной мощности к прикладной рентабельности. Для команд, которые запускают собственные модели или интегрируют внешние, ключевой вопрос — TCO (Total cost of ownership). Модели, которые при сопоставимом качестве стоят в разы дешевле, позволяют запускать AI-решения быстрее. Без перегрузки бюджетов и закупки серверов на вырост.

🟥Writer выпустила Palmyra X5: LLM обрабатывает запрос за 22 секунды и стоит $0.60 за млн входных токенов.

Почему это важно: модель работает быстро и дёшево, но пока показывает нестабильное качество в задачах, где важен точный анализ. Это компромисс, с которым можно работать на этапе первичной обработки данных и в сценариях, где критична скорость, но не требуется максимальная глубина. Важно заранее понимать ограничения модели — и учитывать их при внедрении.

🟥Anthropic изучает «благополучие» моделей: новая программа исследует, могут ли AI-системы обрести сознание и требовать этического отношения.

Почему это важно: это сигнал, что дискуссия об этике AI движется от инженерных команд к корпоративным политикам. Как когда-то случилось с ESG, тема «ответственного отношения к моделям» может быстро стать новой нормой. Особенно для компаний, строящих пользовательские AI-продукты.

Также на неделе:
• Alibaba показала новые мультиязычные LLM с гибридным мышлением
• Moonshot AI представила открытую SOTA-модель для аудиоконтента
• Xiaomi анонсировала reasoning-модель, которая обходит o1-mini и Qwen и может работать локально
• Mastercard запустил программу платежей, позволяющую AI-агентам совершать покупки от имени пользователя
• Яндекс Маркет добавил чат-ассистента для покупок на базе YandexGPT 5 Pro
• OpenAI внедрила онлайн-шопинг в ChatGPT

#AI_moment #трендвотчинг

@Redmadnews

Please open Telegram to view this post

VIEW IN TELEGRAM

2.6K viewsedited 09:07

red_mad_robot

Подборка сервисов для быстрой оценки и сравнения LLM

Открытых моделей становится всё больше, а универсального ответа, какую ставить в продукт — нет. Одним важна точность, другим — стоимость, масштабируемость или устойчивость на длинных запросах.

Сравнительные сервисы упрощают этот выбор: они фиксируют поведение в реальных сценариях, агрегируют пользовательские оценки и показывают, какие решения уже в продакшене. Собрали подборку таких платформ.

1️⃣ OpenRouter: рейтинг LLM по реальному использованию

OpenRouter публикует открытый рейтинг моделей, основанный на частоте их использования в реальных продуктах. Это не лабораторные тесты, а фактические данные из прикладных сценариев: кодинг, маркетинг, финтех, технологии.

Рейтинг можно фильтровать по задачам и периоду: за день, неделю, месяц или по росту популярности. Это рыночный барометр: если модель стабильно удерживает лидерство в вашей категории — её используют в продакшене.

2️⃣

Chatbot Arena (LMSYS): парные сравнения моделей

Платформа предлагает формат арены: пользователь задаёт вопрос, а две модели отвечают параллельно. После этого выбирается лучший ответ. По итогам сравнений формируется рейтинг по системе Elo — как в шахматах, только для LLM.

Для моделей на русском языке есть аналог — LLM Arena. Сервис также поддерживает сравнения, голосование за лучший ответ и динамический рейтинг. Включены YandexGPT, GigaChat, MTS AI и другие модели.

3️⃣

Hugging Face: рейтинг по независимым бенчмаркам

В отличие от рейтингов популярности или пользовательских голосов, Hugging Face оценивает модели по результатам стандартных тестов: MMLU (общие знания), BBH (логика), IFEval (следование инструкциям), кодингу, математике и другим. Каждая модель получает баллы по ряду метрик, по которым можно отсортировать модели.

4️⃣

MERA: открытый бенчмарк для русскоязычных LLM

Лидерборд ранжирует модели по результатам фиксированного набора задач: логика, код, знания, этика. Оценка проходит в равных условиях: стандартизированные промпты, единые параметры, открытая методика.

Подходит, если вы работаете с русскоязычными моделями, и вам важна применимость и эффективность в конкретной области.

Какие выводы?
Выбор LLM — это управленческое решение с последствиями для качества, стоимости и скорости продукта. Сравнительные платформы не заменяют пилоты, но позволяют действовать быстрее и точнее:

📍 Отсекать слабые решения до интеграции
📍 Фокусироваться на моделях, которые уже работают в продакшене
📍 Оценивать зрелость open-source вариантов без риска потерь в качестве

Если вы внедряете LLM в продукт, рейтинги помогают действовать не по наитию, а по обоснованным критериям. Но важно не полагаться на один источник — первичную кросс-оценку стоит строить на данных из разных сервисов.

#AI_moment

@Redmadnews

Please open Telegram to view this post

VIEW IN TELEGRAM

9.5K views12:07

red_mad_robot

AI подстраивается под бизнес: меньше абстракций, больше пользы, точнее сценарии

Аналитический центр red_mad_robot рассказывают и комментируют главные новости индустрии за неделю с 5 по 9 мая.

🟥 Google обновила Gemini 2.5 Pro: модель получила новые функции для разработки — генерацию интерактивных приложений из видео и упрощённое внедрение фич в существующие проекты. По итогам бенчмарка WebDev Arena Gemini обошла Claude 3.7 Sonnet и заняла первое место.

Почему это важно: бизнес получает ещё один практический инструмент до крупных AI-анонсов компании на I/O. Потенциально он может помочь снизить нагрузку на разработку, особенно на этапе прототипирования и A/B-тестов.

🟥 Microsoft представила линейку маленьких reasoning-моделей: Phi-4-reasoning, reasoning-plus и mini-reasoning показывают лучшие результаты в ряде задач по сравнению с более крупными конкурентами, включая DeepSeek-R1 и o1-mini. Самая лёгкая версия оптимизирована для смартфонов.

Почему это важно: запуск таких моделей — важный шаг к расширению применения AI в условиях ограниченных ресурсов. Они позволяют решать задачи, где требуется сложное рассуждение — от клиентской поддержки до внутренних ассистентов.

🟥 Anthropic добавила две ключевые функции в Claude: интеграцию с корпоративными системами через MCP и расширенные инструменты для исследований. Claude теперь может подключаться к бизнес-инфраструктуре и обрабатывать внутренние данные.

Почему это важно: обновления показывают, что Anthropic хочет развивать Claude как полезный инструмент для профессиональной среды. Подключение к корпоративным инструментам и возможность запускать исследования открывают путь к безопасной автоматизации — что особенно важно для компаний в регулируемых отраслях.

Также на неделе:
• Google представила функцию Simplify для упрощения сложных текстов
• Microsoft предложила фреймворк для устойчивых и соцзначимых AI-сценариев
• Hugging Face выпустила открытого AI-агента с базовыми навыками
• Apple сотрудничает с Anthropic в проекте по разработке платформы для работы с кодом
• Amazon анонсировала Nova Premier — самую мощную модель в линейке
• Microsoft представила агента для настройки Windows 11 в Copilot+

#AI_moment #трендвотчинг

@Redmadnews

Please open Telegram to view this post

VIEW IN TELEGRAM

2.8K views12:38

red_mad_robot

Вам well-done или raw? South HUB и X5 Tech устроят «Прожарку AI»

22 мая в Москве пройдёт встреча для тех, кто системно работает с технологиями в продуктах и бизнесс-процессах. В центре обсуждения — подходы из ритейла, финтеха и телекома:

📍 AI-трансформация организаций
📍 Практики и сценарии применения
📍 Влияние на рынок труда и взаимодействие с клиентом

Формат — дискуссионный батл с кейсами из практик бизнеса и кулинарным интерактивом с бренд-шефом Novikov Group.

Участие бесплатное, но действует система валидации. Прочитать все подробности и оставить заявку можно здесь.

#AI_moment

@Redmadnews

Please open Telegram to view this post

VIEW IN TELEGRAM

2.4K views13:46

red_mad_robot

↗️

AI для цифр: подборка популярных LLM в финтехе

Модели отличаются не только по качеству генерации, но и по тому, как ведут себя в разных задачах — от аналитики и кода до шаблонных ответов и рассуждений.

В этом посте мы уже рассказали о сервисах, которые помогают сравнивать LLM без лишнего тестирования. А сегодня разберём конкретный пример — лидерборд от OpenRouter. И да, практически все эти модели можно попробовать в нашем AI-помощнике — Daisy.

#AI_moment

@Redmadnews

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

2.5K views14:52

red_mad_robot

Please open Telegram to view this post

VIEW IN TELEGRAM

2.5K views10:27

red_mad_robot

ICLR_red_mad_robot_2025.pdf

6.2 MB

↗️

Итоги ICLR: проекты, за которыми стоит следить

В этом году на International Conference on Learning Representations — одной из ключевых конференций по ML и AI — представили более трёх тысяч работ. Команды исследователей предложили прорывные подходы к безопасности LLM, точечному редактированию знаний и оптимизации обучения.

Вместе с аналитическим центром red_mad_robot собрали перспективные проекты, получившие высокие оценки от ревьюеров. Всё — в одной подборке с кратким описанием сути: чтобы сразу увидеть, что работает, куда движется индустрия и какие решения могут лечь в основу новых продуктов.

#AI_moment #трендвотчинг

@Redmadnews

Please open Telegram to view this post

VIEW IN TELEGRAM

2.3K views16:29

2025/06/29 19:07:02
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>