Telegram Web Link
GPT-5 проваливает 47% реальных задач.

Флагманская модель GPT-5-medium справляется с задачами только в 52,56% случаев. После 4 попыток — всего 33,86%.

Новое исследование MCPMark протестировало топовые AI-модели на 127 реальных задачах (GitHub, Notion, PostgreSQL, Playwright).

Ключевые находки:
→ Задачи требуют в среднем 16 шагов и 17 вызовов инструментов
→ Claude-Sonnet-4 и o3: менее 30% успеха с первой попытки
→ Удалённые API (GitHub, Notion) в 2 раза сложнее локальных
→ 50-80% провалов — implicit: модель завершает работу, но результат не соответствует требованиям

Главный инсайт:
Проблема не в технике, а в понимании контекста и планировании. Красиво говорить ≠ безошибочно выполнять сложные задачи.

Подробнее можно почитать у меня в блоге
Forwarded from Data Nature 🕊 (Alexandr Barakov)
"Агенты еще минимум десятилетие не смогут никого заменить полноценно.
Индустрия в погоне за инвестициями выдает "кашу" за работающие решения и завышает ожидания рынка, когда технологии еще не готовы для реальных задач.
А главный риск - из-за ИИ автоматизации снизить нашу способность понимать мир"

После этого интервью Андрея Карпатого (сооснователя OpenAI) - агрессивная подача tableau на Dreamforce 2025 звучит особенно забавно.
15 лет назад всем продавали чудо селфсервиса, сейчас в таком же стиле - «явление Agentforce народу».
Давит погоня конкурентов и инвесторы - в итоге сырой эксперимент с недоказанной ценностью выдают за новое поколение BI, в своем стиле заметая под ковер все подводные камни.

И многие из нас тоже в этой гонке веры. Смесь интереса и страха отстать - пилим своих агентов или планируем.

Понятно стало, что не нужно ждать отдачи в ближайшие годы. Это будет стоить компаниям кучу денег и никто не знает, где эта экономика сойдется.
Это выбило большинство в роль наблюдателей - заниматься в своих компаниях спокойной (и тоже недешевой) подготовкой условий для AI агентов - внедрять семантические слои, слои метрик, голден/кор витрин и прочую годноту. Тестить более локальные юзкейсы ИИ чем дата-ассистент.

Я попробовал обобщить, что такое Пререквизиты AI Аналитика - предшествующие компоненты, без которых можно даже "не лезть".
Получился такой документ с тремя скоупами:
① Подготовка
② MVP дата-агента
③ Продуктивная агентская среда

Выглядит монструозно. По моей оценке:
Подготовка - будет скромно стоить от 100 млн в год.
С MVP уже уверенно от 150 млн руб в год.
Но кажется ничего не притянуто. Дополните?
Перплексити выкатили неплохой гайд по прикладному использованию ИИ (реальные кейсы - моя главная любовь). NotebookLM написал список основных:

I. Продвинутый исследовательский анализ (Scaling Yourself)

Эти кейсы трансформируют способ сбора, анализа и синтеза информации. По сути, они дают одному человеку исследовательскую глубину целой команды.

Комплексная оценка рынка - полноценный workflow для анализа всего рынка, идентификации ключевых игроков и определения стратегии
Адаптация решений из других индустрий - решение проблем через поиск проверенных методологий из совершенно несвязанных областей
Сложная финансовая оценка - используется перед крупными инвестиционными решениями или поглощениями
Анализ данных и рекомендации - анализ внутренних данных и синтез стратегических рекомендаций для будущего планирования
Исследование перехода на freemium-модель - практический пример использования исследований для управления крупными стратегическими бизнес-изменениями

II. Генерация важных документов (Scaling Yourself & Getting Results)

Здесь Perplexity Labs идет дальше черновиков - генерирует полноценные, профессионально отформатированные документы, которые обычно требуют специализированной экспертизы или значительного времени на производство.

Презентация для совета директоров - генерация формальной презентации из неформальных заметок
Профессиональная стратегическая документация - трансформация аналитических заметок в комплексный, профессионально структурированный документ
Интерактивный дашборд win-loss анализа - создание детального дашборда для идентификации изменений и ключевых драйверов, влияющих на результаты продаж

III. Автоматизация и личный менеджмент (Blocking Distractions)

Эти кейсы показывают, как AI-агенты управляют сложными многошаговыми задачами, снижая переключение контекста и освобождая время для фокусной работы.

Интегрированный исследовательский workflow (Comet Agent) - объединение исследования, организации и синтеза в одну команду
Проактивное управление email (Comet Agent) - классический пример делегирования повторяющейся административной нагрузки
Автоматическая подготовка к встречам (Comet Shortcut) - подготовка к предстоящей встрече через интеграцию данных из календарей, коммуникаций и публичных новостей
Отчеты о личной эффективности - использование AI для анализа личных рабочих паттернов через различные инструменты (project management, календарь, email) для выявления эффективности и пробелов в навыках
Запланированный конкурентный анализ (Perplexity Task) - настройка повторяющейся задачи для мониторинга изменений на рынке без ручного вмешательства

IV. Развитие бизнеса и продажи

Эти кейсы фокусируются на использовании Perplexity для роста выручки через быструю генерацию кастомизированной аналитики и персонализированных материалов для outreach.

Дашборд полного цикла генерации лидов - высокоуровневый промпт, использующий Labs для таргетированной идентификации лидов, создания дашборда и автоматической генерации шаблонов для outreach
Гиперперсонализированный outreach - генерация коммуникации, отражающей глубокое понимание недавней активности потенциального клиента и вызовов его индустрии
Комплексное исследование потенциальных клиентов - сбор детальной фоновой информации перед первым контактом

Гайд в комменты выложу.

Сергей Булаев AI 🤖 - об AI и не только
2025/10/22 21:59:49
Back to Top
HTML Embed Code: