Forwarded from Пристанище Дата Сайентиста (TelepostBot)
GPT-5 проваливает 47% реальных задач.
Флагманская модель GPT-5-medium справляется с задачами только в 52,56% случаев. После 4 попыток — всего 33,86%.
Новое исследование MCPMark протестировало топовые AI-модели на 127 реальных задачах (GitHub, Notion, PostgreSQL, Playwright).
Ключевые находки:
→ Задачи требуют в среднем 16 шагов и 17 вызовов инструментов
→ Claude-Sonnet-4 и o3: менее 30% успеха с первой попытки
→ Удалённые API (GitHub, Notion) в 2 раза сложнее локальных
→ 50-80% провалов — implicit: модель завершает работу, но результат не соответствует требованиям
Главный инсайт:
Проблема не в технике, а в понимании контекста и планировании. Красиво говорить ≠ безошибочно выполнять сложные задачи.
Подробнее можно почитать у меня в блоге
Флагманская модель GPT-5-medium справляется с задачами только в 52,56% случаев. После 4 попыток — всего 33,86%.
Новое исследование MCPMark протестировало топовые AI-модели на 127 реальных задачах (GitHub, Notion, PostgreSQL, Playwright).
Ключевые находки:
→ Задачи требуют в среднем 16 шагов и 17 вызовов инструментов
→ Claude-Sonnet-4 и o3: менее 30% успеха с первой попытки
→ Удалённые API (GitHub, Notion) в 2 раза сложнее локальных
→ 50-80% провалов — implicit: модель завершает работу, но результат не соответствует требованиям
Главный инсайт:
Проблема не в технике, а в понимании контекста и планировании. Красиво говорить ≠ безошибочно выполнять сложные задачи.
Подробнее можно почитать у меня в блоге
Forwarded from Data Nature 🕊 (Alexandr Barakov)
"Агенты еще минимум десятилетие не смогут никого заменить полноценно.
Индустрия в погоне за инвестициями выдает "кашу" за работающие решения и завышает ожидания рынка, когда технологии еще не готовы для реальных задач.
А главный риск - из-за ИИ автоматизации снизить нашу способность понимать мир"
После этого интервью Андрея Карпатого (сооснователя OpenAI) - агрессивная подача tableau на Dreamforce 2025 звучит особенно забавно.
15 лет назад всем продавали чудо селфсервиса, сейчас в таком же стиле - «явление Agentforce народу».
Давит погоня конкурентов и инвесторы - в итоге сырой эксперимент с недоказанной ценностью выдают за новое поколение BI, в своем стиле заметая под ковер все подводные камни.
И многие из нас тоже в этой гонке веры. Смесь интереса и страха отстать - пилим своих агентов или планируем.
Понятно стало, что не нужно ждать отдачи в ближайшие годы. Это будет стоить компаниям кучу денег и никто не знает, где эта экономика сойдется.
Это выбило большинство в роль наблюдателей - заниматься в своих компаниях спокойной (и тоже недешевой) подготовкой условий для AI агентов - внедрять семантические слои, слои метрик, голден/кор витрин и прочую годноту. Тестить более локальные юзкейсы ИИ чем дата-ассистент.
Я попробовал обобщить, что такое Пререквизиты AI Аналитика - предшествующие компоненты, без которых можно даже "не лезть".
Получился такой документ с тремя скоупами:
① Подготовка
② MVP дата-агента
③ Продуктивная агентская среда
Выглядит монструозно. По моей оценке:
Подготовка - будет скромно стоить от 100 млн в год.
С MVP уже уверенно от 150 млн руб в год.
Но кажется ничего не притянуто. Дополните?
Forwarded from Сергей Булаев AI 🤖
Перплексити выкатили неплохой гайд по прикладному использованию ИИ (реальные кейсы - моя главная любовь). NotebookLM написал список основных:
I. Продвинутый исследовательский анализ (Scaling Yourself)
Эти кейсы трансформируют способ сбора, анализа и синтеза информации. По сути, они дают одному человеку исследовательскую глубину целой команды.
• Комплексная оценка рынка - полноценный workflow для анализа всего рынка, идентификации ключевых игроков и определения стратегии
• Адаптация решений из других индустрий - решение проблем через поиск проверенных методологий из совершенно несвязанных областей
• Сложная финансовая оценка - используется перед крупными инвестиционными решениями или поглощениями
• Анализ данных и рекомендации - анализ внутренних данных и синтез стратегических рекомендаций для будущего планирования
• Исследование перехода на freemium-модель - практический пример использования исследований для управления крупными стратегическими бизнес-изменениями
II. Генерация важных документов (Scaling Yourself & Getting Results)
Здесь Perplexity Labs идет дальше черновиков - генерирует полноценные, профессионально отформатированные документы, которые обычно требуют специализированной экспертизы или значительного времени на производство.
• Презентация для совета директоров - генерация формальной презентации из неформальных заметок
• Профессиональная стратегическая документация - трансформация аналитических заметок в комплексный, профессионально структурированный документ
• Интерактивный дашборд win-loss анализа - создание детального дашборда для идентификации изменений и ключевых драйверов, влияющих на результаты продаж
III. Автоматизация и личный менеджмент (Blocking Distractions)
Эти кейсы показывают, как AI-агенты управляют сложными многошаговыми задачами, снижая переключение контекста и освобождая время для фокусной работы.
• Интегрированный исследовательский workflow (Comet Agent) - объединение исследования, организации и синтеза в одну команду
• Проактивное управление email (Comet Agent) - классический пример делегирования повторяющейся административной нагрузки
• Автоматическая подготовка к встречам (Comet Shortcut) - подготовка к предстоящей встрече через интеграцию данных из календарей, коммуникаций и публичных новостей
• Отчеты о личной эффективности - использование AI для анализа личных рабочих паттернов через различные инструменты (project management, календарь, email) для выявления эффективности и пробелов в навыках
• Запланированный конкурентный анализ (Perplexity Task) - настройка повторяющейся задачи для мониторинга изменений на рынке без ручного вмешательства
IV. Развитие бизнеса и продажи
Эти кейсы фокусируются на использовании Perplexity для роста выручки через быструю генерацию кастомизированной аналитики и персонализированных материалов для outreach.
• Дашборд полного цикла генерации лидов - высокоуровневый промпт, использующий Labs для таргетированной идентификации лидов, создания дашборда и автоматической генерации шаблонов для outreach
• Гиперперсонализированный outreach - генерация коммуникации, отражающей глубокое понимание недавней активности потенциального клиента и вызовов его индустрии
• Комплексное исследование потенциальных клиентов - сбор детальной фоновой информации перед первым контактом
Гайд в комменты выложу.
Сергей Булаев AI 🤖 - об AI и не только
I. Продвинутый исследовательский анализ (Scaling Yourself)
Эти кейсы трансформируют способ сбора, анализа и синтеза информации. По сути, они дают одному человеку исследовательскую глубину целой команды.
• Комплексная оценка рынка - полноценный workflow для анализа всего рынка, идентификации ключевых игроков и определения стратегии
• Адаптация решений из других индустрий - решение проблем через поиск проверенных методологий из совершенно несвязанных областей
• Сложная финансовая оценка - используется перед крупными инвестиционными решениями или поглощениями
• Анализ данных и рекомендации - анализ внутренних данных и синтез стратегических рекомендаций для будущего планирования
• Исследование перехода на freemium-модель - практический пример использования исследований для управления крупными стратегическими бизнес-изменениями
II. Генерация важных документов (Scaling Yourself & Getting Results)
Здесь Perplexity Labs идет дальше черновиков - генерирует полноценные, профессионально отформатированные документы, которые обычно требуют специализированной экспертизы или значительного времени на производство.
• Презентация для совета директоров - генерация формальной презентации из неформальных заметок
• Профессиональная стратегическая документация - трансформация аналитических заметок в комплексный, профессионально структурированный документ
• Интерактивный дашборд win-loss анализа - создание детального дашборда для идентификации изменений и ключевых драйверов, влияющих на результаты продаж
III. Автоматизация и личный менеджмент (Blocking Distractions)
Эти кейсы показывают, как AI-агенты управляют сложными многошаговыми задачами, снижая переключение контекста и освобождая время для фокусной работы.
• Интегрированный исследовательский workflow (Comet Agent) - объединение исследования, организации и синтеза в одну команду
• Проактивное управление email (Comet Agent) - классический пример делегирования повторяющейся административной нагрузки
• Автоматическая подготовка к встречам (Comet Shortcut) - подготовка к предстоящей встрече через интеграцию данных из календарей, коммуникаций и публичных новостей
• Отчеты о личной эффективности - использование AI для анализа личных рабочих паттернов через различные инструменты (project management, календарь, email) для выявления эффективности и пробелов в навыках
• Запланированный конкурентный анализ (Perplexity Task) - настройка повторяющейся задачи для мониторинга изменений на рынке без ручного вмешательства
IV. Развитие бизнеса и продажи
Эти кейсы фокусируются на использовании Perplexity для роста выручки через быструю генерацию кастомизированной аналитики и персонализированных материалов для outreach.
• Дашборд полного цикла генерации лидов - высокоуровневый промпт, использующий Labs для таргетированной идентификации лидов, создания дашборда и автоматической генерации шаблонов для outreach
• Гиперперсонализированный outreach - генерация коммуникации, отражающей глубокое понимание недавней активности потенциального клиента и вызовов его индустрии
• Комплексное исследование потенциальных клиентов - сбор детальной фоновой информации перед первым контактом
Гайд в комменты выложу.
Сергей Булаев AI 🤖 - об AI и не только