RTD: Ссылки и репосты 5142

Forwarded from Пристанище Дата Сайентиста (TelepostBot)

GPT-5 проваливает 47% реальных задач.

Флагманская модель GPT-5-medium справляется с задачами только в 52,56% случаев. После 4 попыток — всего 33,86%.

Новое исследование MCPMark протестировало топовые AI-модели на 127 реальных задачах (GitHub, Notion, PostgreSQL, Playwright).

Ключевые находки:
→ Задачи требуют в среднем 16 шагов и 17 вызовов инструментов
→ Claude-Sonnet-4 и o3: менее 30% успеха с первой попытки
→ Удалённые API (GitHub, Notion) в 2 раза сложнее локальных
→ 50-80% провалов — implicit: модель завершает работу, но результат не соответствует требованиям

Главный инсайт:
Проблема не в технике, а в понимании контекста и планировании. Красиво говорить ≠ безошибочно выполнять сложные задачи.

Подробнее можно почитать у меня в блоге

79 views07:39

RTD: Ссылки и репосты

Forwarded from Data Memes

😁4

69 views19:19

RTD: Ссылки и репосты

Forwarded from Data Nature 🕊 (Alexandr Barakov)

"Агенты еще минимум десятилетие не смогут никого заменить полноценно.
Индустрия в погоне за инвестициями выдает "кашу" за работающие решения и завышает ожидания рынка, когда технологии еще не готовы для реальных задач.
А главный риск - из-за ИИ автоматизации снизить нашу способность понимать мир"

После этого интервью Андрея Карпатого (сооснователя OpenAI) - агрессивная подача tableau на Dreamforce 2025 звучит особенно забавно.
15 лет назад всем продавали чудо селфсервиса, сейчас в таком же стиле - «явление Agentforce народу».
Давит погоня конкурентов и инвесторы - в итоге сырой эксперимент с недоказанной ценностью выдают за новое поколение BI, в своем стиле заметая под ковер все подводные камни.

И многие из нас тоже в этой гонке веры. Смесь интереса и страха отстать - пилим своих агентов или планируем.

Понятно стало, что не нужно ждать отдачи в ближайшие годы. Это будет стоить компаниям кучу денег и никто не знает, где эта экономика сойдется.
Это выбило большинство в роль наблюдателей - заниматься в своих компаниях спокойной (и тоже недешевой) подготовкой условий для AI агентов - внедрять семантические слои, слои метрик, голден/кор витрин и прочую годноту. Тестить более локальные юзкейсы ИИ чем дата-ассистент.

Я попробовал обобщить, что такое Пререквизиты AI Аналитика - предшествующие компоненты, без которых можно даже "не лезть".
Получился такой документ с тремя скоупами:
① Подготовка
② MVP дата-агента
③ Продуктивная агентская среда

Выглядит монструозно. По моей оценке:
Подготовка - будет скромно стоить от 100 млн в год.
С MVP уже уверенно от 150 млн руб в год.
Но кажется ничего не притянуто. Дополните?

49 views07:36

RTD: Ссылки и репосты

Forwarded from Сергей Булаев AI 🤖

Перплексити выкатили неплохой гайд по прикладному использованию ИИ (реальные кейсы - моя главная любовь). NotebookLM написал список основных:

I. Продвинутый исследовательский анализ (Scaling Yourself)

Эти кейсы трансформируют способ сбора, анализа и синтеза информации. По сути, они дают одному человеку исследовательскую глубину целой команды.

• Комплексная оценка рынка - полноценный workflow для анализа всего рынка, идентификации ключевых игроков и определения стратегии
• Адаптация решений из других индустрий - решение проблем через поиск проверенных методологий из совершенно несвязанных областей
• Сложная финансовая оценка - используется перед крупными инвестиционными решениями или поглощениями
• Анализ данных и рекомендации - анализ внутренних данных и синтез стратегических рекомендаций для будущего планирования
• Исследование перехода на freemium-модель - практический пример использования исследований для управления крупными стратегическими бизнес-изменениями

II. Генерация важных документов (Scaling Yourself & Getting Results)

Здесь Perplexity Labs идет дальше черновиков - генерирует полноценные, профессионально отформатированные документы, которые обычно требуют специализированной экспертизы или значительного времени на производство.

• Презентация для совета директоров - генерация формальной презентации из неформальных заметок
• Профессиональная стратегическая документация - трансформация аналитических заметок в комплексный, профессионально структурированный документ
• Интерактивный дашборд win-loss анализа - создание детального дашборда для идентификации изменений и ключевых драйверов, влияющих на результаты продаж

III. Автоматизация и личный менеджмент (Blocking Distractions)

Эти кейсы показывают, как AI-агенты управляют сложными многошаговыми задачами, снижая переключение контекста и освобождая время для фокусной работы.

• Интегрированный исследовательский workflow (Comet Agent) - объединение исследования, организации и синтеза в одну команду
• Проактивное управление email (Comet Agent) - классический пример делегирования повторяющейся административной нагрузки
• Автоматическая подготовка к встречам (Comet Shortcut) - подготовка к предстоящей встрече через интеграцию данных из календарей, коммуникаций и публичных новостей
• Отчеты о личной эффективности - использование AI для анализа личных рабочих паттернов через различные инструменты (project management, календарь, email) для выявления эффективности и пробелов в навыках
• Запланированный конкурентный анализ (Perplexity Task) - настройка повторяющейся задачи для мониторинга изменений на рынке без ручного вмешательства

IV. Развитие бизнеса и продажи

Эти кейсы фокусируются на использовании Perplexity для роста выручки через быструю генерацию кастомизированной аналитики и персонализированных материалов для outreach.

• Дашборд полного цикла генерации лидов - высокоуровневый промпт, использующий Labs для таргетированной идентификации лидов, создания дашборда и автоматической генерации шаблонов для outreach
• Гиперперсонализированный outreach - генерация коммуникации, отражающей глубокое понимание недавней активности потенциального клиента и вызовов его индустрии
• Комплексное исследование потенциальных клиентов - сбор детальной фоновой информации перед первым контактом

Гайд в комменты выложу.

Сергей Булаев AI 🤖 - об AI и не только

42 views14:05

RTD: Ссылки и репосты

Forwarded from Сергей Булаев AI 🤖

pplx-at-work.pdf

34.4 MB

57 views14:05

2025/10/22 21:59:49
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>