Data Lineage is Strategy: Beyond Observability and Debugging
Очень интересная статья про Data Lineage. А то что то все про LLM и прочую малонаучную чепуху последнее время 🙂
Вот нормальные, серьезные темы и кейсы.
Поскольку доступ к статье может быть не у всех, оставлю печатную версию в комментарии.
https://moderndata101.substack.com/p/data-lineage-is-strategy-beyond-observability
Очень интересная статья про Data Lineage. А то что то все про LLM и прочую малонаучную чепуху последнее время 🙂
Вот нормальные, серьезные темы и кейсы.
Поскольку доступ к статье может быть не у всех, оставлю печатную версию в комментарии.
https://moderndata101.substack.com/p/data-lineage-is-strategy-beyond-observability
Substack
Data Lineage is Strategy: Beyond Observability and Debugging
Gaps in passive lineage, how and why Data Products change and uplift lineage, and notes on stepping up to the AI-native era.
Интервью с Марком Ривкиным, руководителем продукта Postgres Pro
Рекомендую почитать в выходные, очень хорошое имхо интервью про реальные вещи.
Поправилось сравнение open-source и проприетарных продуктов. Действительно, open-source, как развиваемый сообществом продукт, является одним большим компромиссов и усреднением всех идей всех участников. В то время как компания-владелец продукта может рисковать, вкладывать в него свое видение без компромисов.
https://habr.com/ru/articles/900840/
Рекомендую почитать в выходные, очень хорошое имхо интервью про реальные вещи.
Поправилось сравнение open-source и проприетарных продуктов. Действительно, open-source, как развиваемый сообществом продукт, является одним большим компромиссов и усреднением всех идей всех участников. В то время как компания-владелец продукта может рисковать, вкладывать в него свое видение без компромисов.
https://habr.com/ru/articles/900840/
Хабр
Переход из Oracle в Postgres Pro: не просто смена СУБД, а сдвиг подхода. Интервью с Марком Ривкиным
Давно не было обстоятельных интервью, тем более с таким корифеем отечественной СУБД‑разработки. В 2022 году в Postgres Professional перешла команда специалистов по Oracle,...
Дайджест статей
How Meta understands data at scale
https://engineering.fb.com/2025/04/28/security/how-meta-understands-data-at-scale/?utm_source=tldrai
База для аналитики данных. Как получать данные?
https://habr.com/ru/articles/908230/
DBT: трансформация данных без боли
https://habr.com/ru/articles/907540/
LLM пайплайны укрощают сложность баз данных, или как мы подружили ИИ с БД без ИБД
https://habr.com/ru/companies/postgrespro/articles/907614/
Гид по AI-инструментам для разработки в 2025
https://habr.com/ru/articles/907122/
Сравниваем быстродействие новой функциональности ClickHouse по поиску ближайших векторов с другими решениями
https://habr.com/ru/companies/infowatch/articles/905916/
How Meta understands data at scale
https://engineering.fb.com/2025/04/28/security/how-meta-understands-data-at-scale/?utm_source=tldrai
База для аналитики данных. Как получать данные?
https://habr.com/ru/articles/908230/
DBT: трансформация данных без боли
https://habr.com/ru/articles/907540/
LLM пайплайны укрощают сложность баз данных, или как мы подружили ИИ с БД без ИБД
https://habr.com/ru/companies/postgrespro/articles/907614/
Гид по AI-инструментам для разработки в 2025
https://habr.com/ru/articles/907122/
Сравниваем быстродействие новой функциональности ClickHouse по поиску ближайших векторов с другими решениями
https://habr.com/ru/companies/infowatch/articles/905916/
Engineering at Meta
How Meta understands data at scale
Managing and understanding large-scale data ecosystems is a significant challenge for many organizations, requiring innovative solutions to efficiently safeguard user data. Meta’s vast and di…
Для любителей футбола и данных - послушал в выходные довольно интересный подкаст Liverpool FC's Data Revolution - Dr Ian Graham on Mo Salah, Virgil van Dijk & Transfer Secrets
Dr Ian Graham отвечает за данные в FC Liverpool и является автором книги "How to Win the Premier League".
Лично я не большой любитель футбола, поэтому вся часть подкаста, которая была посвящена борьбе с Челси для меня осталась не самой востребованной информацией, но для тем, что "в теме" думаю это будет очень интересно :)
Ну и конечно очень интересно было послушать, как плотно тема аналитики данных вошла в мир современных спортивных дисциплин. Я, в силу личных предпочтений, больше интересуюсь темой Formula 1, там то с данными все намного проще - огромное количество датчиков шлют информацию в реальном времени. А вот в футболе со сбором raw data сложнее.
https://shows.acast.com/the-high-performance-podcast/episodes/liverpool-fcs-data-revolution-dr-ian-graham-on-salah-transfe
https://www.penguin.co.uk/books/462193/how-to-win-the-premier-league-by-graham-ian/9781804950302
Dr Ian Graham отвечает за данные в FC Liverpool и является автором книги "How to Win the Premier League".
Лично я не большой любитель футбола, поэтому вся часть подкаста, которая была посвящена борьбе с Челси для меня осталась не самой востребованной информацией, но для тем, что "в теме" думаю это будет очень интересно :)
Ну и конечно очень интересно было послушать, как плотно тема аналитики данных вошла в мир современных спортивных дисциплин. Я, в силу личных предпочтений, больше интересуюсь темой Formula 1, там то с данными все намного проще - огромное количество датчиков шлют информацию в реальном времени. А вот в футболе со сбором raw data сложнее.
https://shows.acast.com/the-high-performance-podcast/episodes/liverpool-fcs-data-revolution-dr-ian-graham-on-salah-transfe
https://www.penguin.co.uk/books/462193/how-to-win-the-premier-league-by-graham-ian/9781804950302
Acast
Liverpool FC's Data Revolution - Dr Ian Graham on Mo Salah, Virgil van Dijk & Transfer Secrets (E350) | The High Performance Podcast
The High Performance Podcast brings you an intimate glimpse into the lives of high-achieving, world-class performers who have all excelled in their field with first-hand experiences and lessons to share. Find out what non-negotiable behaviours they emp...
Federated Learning и конфиденциальный анализ данных
На прошлой неделе при поддержке канала @noml_community поговорили с коллегами о Federated Learning. Получилось неожиданно интересно и полезно. Много говорили о кейсах, чуть меньше - о практических аспектах реализации, особенностях работы с данными и о специфике конфиденциальных вычислений. С большим удовольствием пообщались с коллегами по цеху и основными экспертами этой отрасли.
Мой вывод - FL как технология и как предмет сделали большой шаг вперед к тому, что бы технологии и потребности рынка “пересеклись” в точки эффективности и кажется что такой момент уже близко.
Основные кейсы, которым уделили наибольшее внимание
1. Медицина
⁃ Совместное обучение моделей на медицинских снимках
⁃ Разработка препаратов и клинические испытания
⁃ Изоляция разработчика от данных пациента
2. Финтех
⁃ Обучение скоринговых моделей между банками, телекомами, платёжными системами
⁃ Антифрод-модели
⁃ Кросс-валидация чужих моделей без передачи данных
3. Интернет вещей / Промышленность
⁃ Данные с буровых установок, автопилоты, летательные аппараты
⁃ Нестабильный интернет, вычисления на месте
4. Маркетинг / Реклама
⁃ Совместный анализ долей рынка без раскрытия конкретных данных
⁃ Объединение разрозненных источников без утраты приватности
5. Кибербезопасность
Основные подводные камни о которых говорили
⁃ Градиенты утечки: по ним можно восстановить разметку или данные.
⁃ Label-flipping атаки: подмена меток со стороны участников.
⁃ Атаки отравления: изменение качества глобальной модели.
⁃ Сложная настройка open-source фреймворков (Flower, NVFlare)
⁃ Высокий входной порог: требуется команда DevOps + ML + Infosec
⁃ Нет стандартов сертификации (в России — запросы на сертификацию ФСТЭК)
⁃ Трудности с безопасниками и юридическим отделом (непонимание угроз, отсутствие моделей угроз)
⁃ Без продуманного feature engineering и понимания структуры данных объединение малоэффективно.
⁃ Конкатенация признаков из разных доменов (банк + телеком) часто не даёт прироста без доменно-специфичного анализа.
⁃ Нестабильные метрики при увеличении количества источников.
Конечно, поговорили об экономике и монетизации. Они для участников являются одними из ключевых факторов, ограничивающих внедрение федеративного обучения. В типичных сценариях наибольшую выгоду от совместного обучения получает участник с ограниченным объёмом данных, в то время как крупные компании с богатыми датасетами рискуют утратить своё конкурентное преимущество, делясь знаниями, пусть и опосредованно. Это приводит к асимметрии интересов и снижает готовность к сотрудничеству. Дополнительно затрудняет ситуацию отсутствие прозрачных механизмов оценки вклада каждого участника: стоимость самих данных абстрактна и сильно зависит от конкретного бизнес-кейса, в то время как ценность создаётся на этапе инференса. Более реалистичной моделью считается монетизация не данных, а результатов — когда доступ к улучшенному предсказанию оплачивается, а вклад в обучение соотносится с его качеством. Однако даже в такой модели остаётся сложной задача расчёта справедливой доли между участниками. Поэтому для широкого распространения FL необходимо не только снижение технического порога, но и появление устойчивых экономических моделей, учитывающих мотивацию всех сторон.
На прошлой неделе при поддержке канала @noml_community поговорили с коллегами о Federated Learning. Получилось неожиданно интересно и полезно. Много говорили о кейсах, чуть меньше - о практических аспектах реализации, особенностях работы с данными и о специфике конфиденциальных вычислений. С большим удовольствием пообщались с коллегами по цеху и основными экспертами этой отрасли.
Мой вывод - FL как технология и как предмет сделали большой шаг вперед к тому, что бы технологии и потребности рынка “пересеклись” в точки эффективности и кажется что такой момент уже близко.
Основные кейсы, которым уделили наибольшее внимание
1. Медицина
⁃ Совместное обучение моделей на медицинских снимках
⁃ Разработка препаратов и клинические испытания
⁃ Изоляция разработчика от данных пациента
2. Финтех
⁃ Обучение скоринговых моделей между банками, телекомами, платёжными системами
⁃ Антифрод-модели
⁃ Кросс-валидация чужих моделей без передачи данных
3. Интернет вещей / Промышленность
⁃ Данные с буровых установок, автопилоты, летательные аппараты
⁃ Нестабильный интернет, вычисления на месте
4. Маркетинг / Реклама
⁃ Совместный анализ долей рынка без раскрытия конкретных данных
⁃ Объединение разрозненных источников без утраты приватности
5. Кибербезопасность
Основные подводные камни о которых говорили
⁃ Градиенты утечки: по ним можно восстановить разметку или данные.
⁃ Label-flipping атаки: подмена меток со стороны участников.
⁃ Атаки отравления: изменение качества глобальной модели.
⁃ Сложная настройка open-source фреймворков (Flower, NVFlare)
⁃ Высокий входной порог: требуется команда DevOps + ML + Infosec
⁃ Нет стандартов сертификации (в России — запросы на сертификацию ФСТЭК)
⁃ Трудности с безопасниками и юридическим отделом (непонимание угроз, отсутствие моделей угроз)
⁃ Без продуманного feature engineering и понимания структуры данных объединение малоэффективно.
⁃ Конкатенация признаков из разных доменов (банк + телеком) часто не даёт прироста без доменно-специфичного анализа.
⁃ Нестабильные метрики при увеличении количества источников.
Конечно, поговорили об экономике и монетизации. Они для участников являются одними из ключевых факторов, ограничивающих внедрение федеративного обучения. В типичных сценариях наибольшую выгоду от совместного обучения получает участник с ограниченным объёмом данных, в то время как крупные компании с богатыми датасетами рискуют утратить своё конкурентное преимущество, делясь знаниями, пусть и опосредованно. Это приводит к асимметрии интересов и снижает готовность к сотрудничеству. Дополнительно затрудняет ситуацию отсутствие прозрачных механизмов оценки вклада каждого участника: стоимость самих данных абстрактна и сильно зависит от конкретного бизнес-кейса, в то время как ценность создаётся на этапе инференса. Более реалистичной моделью считается монетизация не данных, а результатов — когда доступ к улучшенному предсказанию оплачивается, а вклад в обучение соотносится с его качеством. Однако даже в такой модели остаётся сложной задача расчёта справедливой доли между участниками. Поэтому для широкого распространения FL необходимо не только снижение технического порога, но и появление устойчивых экономических моделей, учитывающих мотивацию всех сторон.
Федеративное обучение (Federated Learning, FL) представляет собой перспективный подход к обучению моделей на распределённых данных без их передачи, что делает его особенно актуальным в условиях ужесточающихся требований к приватности и безопасности. Однако, несмотря на активное академическое и прикладное развитие, широкое внедрение FL в индустрии сталкивается с рядом серьёзных барьеров. Ключевые из них — высокий порог входа, необходимость сложной технической настройки, отсутствие устоявшихся стандартов сертификации и слабая интеграция в существующие процессы информационной безопасности. Дополнительные сложности возникают при взаимодействии между участниками: крупные игроки не заинтересованы делиться данными с меньшими, отсутствуют прозрачные механизмы монетизации вклада, а эффект от объединения данных не всегда оправдывает затраты. При этом FL находит успешное применение в тех случаях, где ценность данных высока, но их невозможно централизовать: в медицине, кибербезопасности, промышленности и финтехе. Эффективность технологии на практике сильно зависит от качества feature engineering и глубины понимания доменных данных.
Как итог: FL — это не универсальное решение, а инструмент, который приносит ощутимую пользу в условиях высокой регуляторной нагрузки и потребности в технической изоляции, при условии аккуратного проектирования и реалистичных ожиданий. И кажется что мы это начинаем хорошо понимать, а значит настала пора определить место этой технологии в нашем бизнесе.
https://www.youtube.com/watch?v=JpApLfde38I&list=WL&index=1&t=12s
Как итог: FL — это не универсальное решение, а инструмент, который приносит ощутимую пользу в условиях высокой регуляторной нагрузки и потребности в технической изоляции, при условии аккуратного проектирования и реалистичных ожиданий. И кажется что мы это начинаем хорошо понимать, а значит настала пора определить место этой технологии в нашем бизнесе.
https://www.youtube.com/watch?v=JpApLfde38I&list=WL&index=1&t=12s
YouTube
Созвон: Федеративное обучение (Federated Learning)
И если кому то интересно/полезно, так же оформил этот материал в виде небольшой обзорной статьи
На прошлой неделе при поддержке канала @noml_community поговорили с коллегами о Federated Learning. Получилось неожиданно интересно и полезно. Много говорили о кейсах, чуть меньше - о практических аспектах реализации, особенностях работы с данными и о специфике конфиденциальных вычислений. С большим удовольствием пообщались с коллегами по цеху и основными экспертами этой отрасли.
Мой вывод - FL как технология и как предмет сделали большой шаг вперед к тому, что бы технологии и потребности рынка “пересеклись” в точки эффективности и кажется что такой момент уже близко.
https://habr.com/ru/articles/909014/
На прошлой неделе при поддержке канала @noml_community поговорили с коллегами о Federated Learning. Получилось неожиданно интересно и полезно. Много говорили о кейсах, чуть меньше - о практических аспектах реализации, особенностях работы с данными и о специфике конфиденциальных вычислений. С большим удовольствием пообщались с коллегами по цеху и основными экспертами этой отрасли.
Мой вывод - FL как технология и как предмет сделали большой шаг вперед к тому, что бы технологии и потребности рынка “пересеклись” в точки эффективности и кажется что такой момент уже близко.
https://habr.com/ru/articles/909014/
Хабр
Федеративное обучение: потенциал, ограничения и экономические реалии внедрения
Федеративное обучение (Federated Learning, FL) становится всё более заметным элементом технологической повестки в условиях ужесточающихся требований к конфиденциальности данных и законодательных...
Data Governance in Lakehouse Using Open Source Tools
Статья Джунаида Эффенди «Data Governance in Lakehouse Using Open Source Tools» посвящена созданию полноценной системы управления данными (data governance) в архитектуре Lakehouse с использованием ведущих open-source инструментов.
В условиях, когда Lakehouse объединяет гибкость data lake и надежность data warehouse, эффективное управление данными становится критически важным. посмотрите на состав open-source инструментов для обеспечения контроля доступа, отслеживания происхождения данных, управления метаданными, обеспечения качества данных, версионирования и классификации:
• Apache Ranger — централизованное управление политиками доступа на уровне базы данных, таблиц, колонок и строк.
• Keycloak — управление доступом к пользовательским интерфейсам и API через SSO и ролевую модель.
• Open Policy Agent (OPA) — универсальный движок для реализации политик доступа, особенно в сочетании с платформами метаданных.
• Apache Atlas — отслеживание потоков данных и их преобразований в системах, включая Hive, HDFS и Kafka.
• OpenLineage + Marquez — определение и визуализация метаданных о происхождении данных в пайплайнах.
• Spline — сбор информации о происхождении данных в приложениях Apache Spark.
Amundsen — поиск и визуализация метаданных с акцентом на удобство пользователя.
• DataHub — мощная платформа для управления метаданными с поддержкой версионирования схем, анализа воздействия и управления владельцами данных.
• Metacat — каталог метаданных от Netflix, поддерживающий интеграцию с Hive и Presto.
• Great Expectations — определение и проверка ожиданий относительно данных, таких как отсутствие пропущенных значений или уникальность ключей.
• Soda Core — инструмент командной строки для профилирования данных и мониторинга качества.
• Deequ — библиотека для определения ограничений на наборы данных, работающая на основе Spark.
• DQX — фреймворк для организации проверок качества данных в экосистеме Lakehouse.
https://www.junaideffendi.com/p/data-governance-in-lakehouse-using
Статья Джунаида Эффенди «Data Governance in Lakehouse Using Open Source Tools» посвящена созданию полноценной системы управления данными (data governance) в архитектуре Lakehouse с использованием ведущих open-source инструментов.
В условиях, когда Lakehouse объединяет гибкость data lake и надежность data warehouse, эффективное управление данными становится критически важным. посмотрите на состав open-source инструментов для обеспечения контроля доступа, отслеживания происхождения данных, управления метаданными, обеспечения качества данных, версионирования и классификации:
• Apache Ranger — централизованное управление политиками доступа на уровне базы данных, таблиц, колонок и строк.
• Keycloak — управление доступом к пользовательским интерфейсам и API через SSO и ролевую модель.
• Open Policy Agent (OPA) — универсальный движок для реализации политик доступа, особенно в сочетании с платформами метаданных.
• Apache Atlas — отслеживание потоков данных и их преобразований в системах, включая Hive, HDFS и Kafka.
• OpenLineage + Marquez — определение и визуализация метаданных о происхождении данных в пайплайнах.
• Spline — сбор информации о происхождении данных в приложениях Apache Spark.
Amundsen — поиск и визуализация метаданных с акцентом на удобство пользователя.
• DataHub — мощная платформа для управления метаданными с поддержкой версионирования схем, анализа воздействия и управления владельцами данных.
• Metacat — каталог метаданных от Netflix, поддерживающий интеграцию с Hive и Presto.
• Great Expectations — определение и проверка ожиданий относительно данных, таких как отсутствие пропущенных значений или уникальность ключей.
• Soda Core — инструмент командной строки для профилирования данных и мониторинга качества.
• Deequ — библиотека для определения ограничений на наборы данных, работающая на основе Spark.
• DQX — фреймворк для организации проверок качества данных в экосистеме Lakehouse.
https://www.junaideffendi.com/p/data-governance-in-lakehouse-using
Junaideffendi
Data Governance in Lakehouse Using Open Source Tools
Discover how to build a complete data governance ecosystem in a Lakehouse architecture using leading open-source tools. Explore access control, metadata management, lineage, quality and more.
Коллеги, 29 и 30 мая в Москве пройдет Aha!25 — техническая конференция о product science, продуктовой аналитике, машинном обучении и эффективности бизнеса. В этом году мы впервые расширяем программу до двух дней: 16 тематических потоков и более 1200 участников на одной площадке. Будем еще больше обсуждать деньги и бизнес-эффективность, а также способы повышения первого и второго через ML/AI-инструменты и продуктовые подходы.
На мероприятии выступят топ-эксперты из Т-Банка, Яндекса, Авито, OZON, Альфа-Банка и других компаний России и СНГ: Виктор Кантор (MLinside), Кевин Ханда (Uzum), Сергей Веренцов (EORA), а также представители научного сообщества из ИТМО, РЭШ, Центрального университета.
Ключевые темы:
- Интеграция LLM, ML и AI в цифровые сервисы
- Современные подходы к A/B-тестированию
- Оцифровка пользовательского опыта
- Применение машинного обучения в управлении продуктом
- Математическое мышление и поведенческая экономика
Приглашаем продуктовых менеджеров и аналитиков, владельцев продуктов, CPO, CDO, ML-разработчиков. Программа будет полезна как новичкам, так и экспертам.
Где: МГУ, кластер «Ломоносов» (Раменский бульвар, 1).
Программа: http://ahaconf.ru/program
Билеты — на сайте!
На мероприятии выступят топ-эксперты из Т-Банка, Яндекса, Авито, OZON, Альфа-Банка и других компаний России и СНГ: Виктор Кантор (MLinside), Кевин Ханда (Uzum), Сергей Веренцов (EORA), а также представители научного сообщества из ИТМО, РЭШ, Центрального университета.
Ключевые темы:
- Интеграция LLM, ML и AI в цифровые сервисы
- Современные подходы к A/B-тестированию
- Оцифровка пользовательского опыта
- Применение машинного обучения в управлении продуктом
- Математическое мышление и поведенческая экономика
Приглашаем продуктовых менеджеров и аналитиков, владельцев продуктов, CPO, CDO, ML-разработчиков. Программа будет полезна как новичкам, так и экспертам.
Где: МГУ, кластер «Ломоносов» (Раменский бульвар, 1).
Программа: http://ahaconf.ru/program
Билеты — на сайте!
Дайджест статей
From ETL to AI Agents: How AI Is Transforming Data Engineering
https://blog.det.life/from-etl-to-ai-agents-how-ai-is-transforming-data-engineering-1e9d0f54c187
Переходим от legacy к построению Feature Store
https://habr.com/ru/companies/oleg-bunin/articles/908970/
OLAP-системы: многомерная модель данных и её применение. Правила Кодда: библия для разработчиков реляционных баз данных
https://habr.com/ru/articles/909618/
Скрытая стоимость BI: что не учитывают 8 из 10 компаний при внедрении аналитических систем
https://habr.com/ru/companies/glowbyte/articles/909656/
ИИ в Data Governance: как мы ускорили маркировку персональных данных
https://habr.com/ru/companies/rostelecom/articles/909976/
Как LLM могут помочь аналитикам баз данных в работе с SQL-запросами
https://habr.com/ru/companies/sberbank/articles/909730/
From ETL to AI Agents: How AI Is Transforming Data Engineering
https://blog.det.life/from-etl-to-ai-agents-how-ai-is-transforming-data-engineering-1e9d0f54c187
Переходим от legacy к построению Feature Store
https://habr.com/ru/companies/oleg-bunin/articles/908970/
OLAP-системы: многомерная модель данных и её применение. Правила Кодда: библия для разработчиков реляционных баз данных
https://habr.com/ru/articles/909618/
Скрытая стоимость BI: что не учитывают 8 из 10 компаний при внедрении аналитических систем
https://habr.com/ru/companies/glowbyte/articles/909656/
ИИ в Data Governance: как мы ускорили маркировку персональных данных
https://habr.com/ru/companies/rostelecom/articles/909976/
Как LLM могут помочь аналитикам баз данных в работе с SQL-запросами
https://habr.com/ru/companies/sberbank/articles/909730/
Medium
From ETL to AI Agents: How AI Is Transforming Data Engineering
How AI Is Reshaping the Future of Data Engineering
Forwarded from Маргарита Репина: Disrupt & Scale
Возвращаюсь с вашей любимой рубрикой — #Data_driven.
Обещала вам продолжение 🔥.
В прошлый раз мы говорили, что цифра без контекста — просто шум.
Контекст делает её сигналом.
А сигнал — даёт точку опоры для решения.
🧠 Теперь разберёмся:
а как выстроить систему, чтобы это всё работало регулярно, а не от вдохновения?
Вот, что обычно помогает мне во всех проектах без тонны бюрократии:
1️⃣ У каждой метрики — свой “вопрос”.
Нет смысла просто «смотреть на цифры».
Смысл — в том, что ты через них пытаешься понять.
Например:
✸ Конверсия — это «где утекают деньги/внимание?»
✸ MAU — это «продукт вообще нужен?»
✸ Retention — это «остаются ли со мной те, кому я нужен?»
✸ Cost per hire — это «во сколько мне обходится масштаб?»
✸ % вовлечённости команды — это «не начинаю ли я терять людей на старте?»
Если метрика не отвечает на конкретный вопрос — она вам не нужна.
2️⃣ Цифры нужно сравнивать не в голове, а в рутине.
Кажется, что ты «и так чувствуешь».
Но когда нет ритма — всё превращается в интуицию и хаос.
Совет:
✸ Раз в неделю — смотришь динамику ключевых цифр
✸ Раз в месяц — обсуждение с командой: что поняли, что поменяли
✸ Раз в квартал — сверка с целями и рынком
И в идеале — автоматизируйте.
Сейчас куча сервисов, которые собирают дэшборды, интегрируются с Airtable, Notion, Google Sheets, BI-платформами.
Но даже если вы только начинаете
Excel-табличка с ручным апдейтом уже лучше, чем держать всё в голове.
3️⃣ У каждого фаундера — свои “опорные показатели”.
Не нужно трекать 50 метрик.
Но должны быть 3–5 цифр, которые вы знаете наизусть.
Как у зожников: шаги, HRV, калории.
✸ Шагов мало — пора выйти из операционки.
✸ HRV упал — команда выгорает.
✸ Калорий больше нормы — косты растут быстрее revenue.
💡 Именно эти метрики держат фаундера в контакте с реальностью.
Не по ощущениям, а по факту.
Цифры — это не Excel. Это зеркало мышления.
Если актуально — могу вам собрать короткий гайд:
✸ Что смотреть каждую неделю,
✸ Как выстроить логику,
✸ Как превратить данные в решения.
Пишите в комментариях 🚀
#Founder_mode #Data_driven
Обещала вам продолжение 🔥.
В прошлый раз мы говорили, что цифра без контекста — просто шум.
Контекст делает её сигналом.
А сигнал — даёт точку опоры для решения.
🧠 Теперь разберёмся:
а как выстроить систему, чтобы это всё работало регулярно, а не от вдохновения?
Вот, что обычно помогает мне во всех проектах без тонны бюрократии:
1️⃣ У каждой метрики — свой “вопрос”.
Нет смысла просто «смотреть на цифры».
Смысл — в том, что ты через них пытаешься понять.
Например:
✸ Конверсия — это «где утекают деньги/внимание?»
✸ MAU — это «продукт вообще нужен?»
✸ Retention — это «остаются ли со мной те, кому я нужен?»
✸ Cost per hire — это «во сколько мне обходится масштаб?»
✸ % вовлечённости команды — это «не начинаю ли я терять людей на старте?»
Если метрика не отвечает на конкретный вопрос — она вам не нужна.
2️⃣ Цифры нужно сравнивать не в голове, а в рутине.
Кажется, что ты «и так чувствуешь».
Но когда нет ритма — всё превращается в интуицию и хаос.
Совет:
✸ Раз в неделю — смотришь динамику ключевых цифр
✸ Раз в месяц — обсуждение с командой: что поняли, что поменяли
✸ Раз в квартал — сверка с целями и рынком
И в идеале — автоматизируйте.
Сейчас куча сервисов, которые собирают дэшборды, интегрируются с Airtable, Notion, Google Sheets, BI-платформами.
Но даже если вы только начинаете
Excel-табличка с ручным апдейтом уже лучше, чем держать всё в голове.
3️⃣ У каждого фаундера — свои “опорные показатели”.
Не нужно трекать 50 метрик.
Но должны быть 3–5 цифр, которые вы знаете наизусть.
Как у зожников: шаги, HRV, калории.
✸ Шагов мало — пора выйти из операционки.
✸ HRV упал — команда выгорает.
✸ Калорий больше нормы — косты растут быстрее revenue.
💡 Именно эти метрики держат фаундера в контакте с реальностью.
Не по ощущениям, а по факту.
Цифры — это не Excel. Это зеркало мышления.
Если актуально — могу вам собрать короткий гайд:
✸ Что смотреть каждую неделю,
✸ Как выстроить логику,
✸ Как превратить данные в решения.
Пишите в комментариях 🚀
#Founder_mode #Data_driven
Agentic AI in Financial Services
Недавно IBM опубликовала очень интересный и, на мой взгляд, один из самых сильных аналитических документов за последнее время —https://www.ibm.com/downloads/documents/gb-en/12f5a71117cdc329
В этом посте хочу поделиться краткими тезисами и обратить внимание на ключевые моменты, которые особенно актуальны для тех, кто разрабатывает стратегии внедрения ИИ в бизнес-процессы.
Это глубокий и структурированный анализ применения агентных ИИ-систем (Agentic AI) в финансовой отрасли. Он не просто объясняет, что такое агентный ИИ и чем он отличается от традиционного или генеративного ИИ, но делает акцент на рисках и механизмах их снижения. Раздел, посвящённый рискам, один из самых объемных и ценных, и заслуживает отдельного внимания.
IBM выделяет три ключевые области применения:
1. AI-Powered Customer Engagement & Personalisation - Гиперперсонализированные финансовые продукты, динамическое ценообразование, рекомендательные системы, KYC/AML-процессы.
2. AI-Driven Operational Excellence & Governance - Автоматизация операций в бек- и миддл-офисе, обнаружение аномалий, контроль исполнения, соблюдение регуляторных требований.
3. AI-Augmented Technology & Software Development - Генерация кода, автоматическое тестирование, управление ИТ-инфраструктурой и обеспечение кибербезопасности.
Эта классификация может служить отличной основой для проектирования корпоративной ИИ-стратегии.
Надо отметить, что Agentic AI выходит за рамки чат-ботов и RPA. Он характеризуется:
• способностью самостоятельно ставить цели, принимать решения и действовать;
• интеграцией с инструментами и API для взаимодействия с внешней средой;
• использованием многоагентных архитектур (Principal, Service и Task Agents), работающих совместно для достижения сложных целей.
Поэтому с появлением таким систем в информационном ландшафте предприятия, так же появляются и новые категории рисков, с которыми надо быть готовыми справляться, такие как:
• Несоответствие целей (Goal Misalignment)
• Независимые действия без контроля (Autonomous Action)
• Неправильное использование API и инструментов
• Расширение полномочий агентами
• Поведенческий дрейф и накопление “памяти”
• Динамический обман и предвзятость
• Уязвимости безопасности (включая prompt injection и коллаборацию агентов)
• Эффекты каскадных сбоев в системах
И надо отметить, что на рынке появляются практики и системы, реализующие эти практики, которые направлены на мотивацию и снижение этих рисков, такие как:
• Guardrails и точное задание целей
• Непрерывный мониторинг поведения
• Human-in-the-loop и контроль критических решений
• Adversarial training и red teaming
• Ролевая модель доступа и границы полномочий
• Политики управления памятью
• Аудит, логирование и объяснимость действий
Если вы планируете внедрять ИИ в корпоративные процессы — рекомендую прочитать этот отчет целиком. Он точно стоит вашего времени.
Недавно IBM опубликовала очень интересный и, на мой взгляд, один из самых сильных аналитических документов за последнее время —https://www.ibm.com/downloads/documents/gb-en/12f5a71117cdc329
В этом посте хочу поделиться краткими тезисами и обратить внимание на ключевые моменты, которые особенно актуальны для тех, кто разрабатывает стратегии внедрения ИИ в бизнес-процессы.
Это глубокий и структурированный анализ применения агентных ИИ-систем (Agentic AI) в финансовой отрасли. Он не просто объясняет, что такое агентный ИИ и чем он отличается от традиционного или генеративного ИИ, но делает акцент на рисках и механизмах их снижения. Раздел, посвящённый рискам, один из самых объемных и ценных, и заслуживает отдельного внимания.
IBM выделяет три ключевые области применения:
1. AI-Powered Customer Engagement & Personalisation - Гиперперсонализированные финансовые продукты, динамическое ценообразование, рекомендательные системы, KYC/AML-процессы.
2. AI-Driven Operational Excellence & Governance - Автоматизация операций в бек- и миддл-офисе, обнаружение аномалий, контроль исполнения, соблюдение регуляторных требований.
3. AI-Augmented Technology & Software Development - Генерация кода, автоматическое тестирование, управление ИТ-инфраструктурой и обеспечение кибербезопасности.
Эта классификация может служить отличной основой для проектирования корпоративной ИИ-стратегии.
Надо отметить, что Agentic AI выходит за рамки чат-ботов и RPA. Он характеризуется:
• способностью самостоятельно ставить цели, принимать решения и действовать;
• интеграцией с инструментами и API для взаимодействия с внешней средой;
• использованием многоагентных архитектур (Principal, Service и Task Agents), работающих совместно для достижения сложных целей.
Поэтому с появлением таким систем в информационном ландшафте предприятия, так же появляются и новые категории рисков, с которыми надо быть готовыми справляться, такие как:
• Несоответствие целей (Goal Misalignment)
• Независимые действия без контроля (Autonomous Action)
• Неправильное использование API и инструментов
• Расширение полномочий агентами
• Поведенческий дрейф и накопление “памяти”
• Динамический обман и предвзятость
• Уязвимости безопасности (включая prompt injection и коллаборацию агентов)
• Эффекты каскадных сбоев в системах
И надо отметить, что на рынке появляются практики и системы, реализующие эти практики, которые направлены на мотивацию и снижение этих рисков, такие как:
• Guardrails и точное задание целей
• Непрерывный мониторинг поведения
• Human-in-the-loop и контроль критических решений
• Adversarial training и red teaming
• Ролевая модель доступа и границы полномочий
• Политики управления памятью
• Аудит, логирование и объяснимость действий
Если вы планируете внедрять ИИ в корпоративные процессы — рекомендую прочитать этот отчет целиком. Он точно стоит вашего времени.
NotebookLM
На днях обратил внимание на то, что для мобилки вышло отдельное приложение NotebookLM и опять обратил внимание на это решение. Какое то время назад я с ним немного поигрался, загрузил туда какой то PDF и сгенерировал диалог на тему этого документа - получилось прикольно, но в ежедневное использование не вошло.
Но сейчас инструмент оброс функциями и на самом деле дает очень интересную возможность. Основная идея - вы можете в нем сделать “проект” который соответствует какой то предметной области вашего интереса (например, “управление данными”), загрузить в проект разные документ, ученики, книги, ссылки, ролики и тд, которые вы сами выбрали для себя как интересные и доверенные источники информации и дальше работать с ними как с ChatGPT, задавая вопросы, делая выводы, исследования, заметки - но использую не “общие” знания LLM обученные неизвестно на чем, а конкретные значения из выбранных вами источников.
Вот на хабре еще хорошая статья с описанием практик и методик: https://habr.com/ru/articles/910186/
На днях обратил внимание на то, что для мобилки вышло отдельное приложение NotebookLM и опять обратил внимание на это решение. Какое то время назад я с ним немного поигрался, загрузил туда какой то PDF и сгенерировал диалог на тему этого документа - получилось прикольно, но в ежедневное использование не вошло.
Но сейчас инструмент оброс функциями и на самом деле дает очень интересную возможность. Основная идея - вы можете в нем сделать “проект” который соответствует какой то предметной области вашего интереса (например, “управление данными”), загрузить в проект разные документ, ученики, книги, ссылки, ролики и тд, которые вы сами выбрали для себя как интересные и доверенные источники информации и дальше работать с ними как с ChatGPT, задавая вопросы, делая выводы, исследования, заметки - но использую не “общие” знания LLM обученные неизвестно на чем, а конкретные значения из выбранных вами источников.
Вот на хабре еще хорошая статья с описанием практик и методик: https://habr.com/ru/articles/910186/
Хабр
NotebookLM: Как освоить сложные темы в 10 раз быстрее
Всем привет! Меня зовут Александр, я COO в SaaS-платформе аналитики данных. Последний год активно изучаю внедрение AI-решений в кросс-функциональные процессы. Делюсь полезными материалами, которые...
Редакция грустит о закрытии сервиса Pocket, которым пользовалась много лет что бы готовить еженедельные дайджесты. Хотя еще в прошлом году перешел на raindrop.io, все равно жаль что хорошие сервисы закрываются.
Фишкой pocket была возможность скачивать контент в offline на устройство и читать в самолет и прочих метро. Ни в одном другом сервиса такого я так и не нашел :(
Фишкой pocket была возможность скачивать контент в offline на устройство и читать в самолет и прочих метро. Ни в одном другом сервиса такого я так и не нашел :(
Forwarded from Big Data AI
📊 Free LLM API Resources — бесплатные облачные модели для разработчиков. Для тех, кто хочет экспериментировать с LLM без затрат на API, появился исчерпывающий гайд по бесплатным ресурсам. В списке — десятки провайдеров с лимитами от 50 запросов в день до 1 млн токенов.
Из них можно выделить:
— Google AI Studio с Gemini 1.5 Flash (500 запросов/день)
— Mistral La Plateforme — доступ к Codestral и другим фирменным моделям
— Cloudflare Workers AI — 10k нейронов ежедневно для Llama 3 и Qwen
Есть и временные кредиты: $30 у Baseten, $10 у AI21 для Jamba. Главное правило не злоупотреблять, иначе бесплатные лимиты могут исчезнуть.
🤖 GitHub
@bigdatai
Из них можно выделить:
— Google AI Studio с Gemini 1.5 Flash (500 запросов/день)
— Mistral La Plateforme — доступ к Codestral и другим фирменным моделям
— Cloudflare Workers AI — 10k нейронов ежедневно для Llama 3 и Qwen
Есть и временные кредиты: $30 у Baseten, $10 у AI21 для Jamba. Главное правило не злоупотреблять, иначе бесплатные лимиты могут исчезнуть.
🤖 GitHub
@bigdatai
Дайджест статей
Uber Data Tech Stack
https://www.junaideffendi.com/p/uber-data-tech-stack?r=15862q&utm_medium=ios&triedRedirect=true&hide_intro_popup=true
The AI Wake-Up Call for Data Engineers: Why LLMs + MCP Matter Now
https://medium.com/data-engineering-space/the-ai-wake-up-call-for-data-engineers-why-llms-mcp-matter-now-af71faef36b8
Какую архитектуру данных мне выбрать? — Подход Data-инженера. Часть 1
https://habr.com/ru/companies/otus/articles/911874/
Let’s build a data platform like Spotify!
https://blog.det.life/lets-build-a-data-platform-like-spotify-f189288ad1ed
Enhancing Business Decision-Making Through Advanced Data Visualization Techniques
https://dzone.com/articles/advanced-data-visualization-techniques-for-business
Каталог данных: что за зверь и с чем его едят
https://habr.com/ru/companies/sportmaster_lab/articles/911880/
How to Build Real-Time BI Systems: Architecture, Code, and Best Practices
https://dzone.com/articles/how-to-build-real-time-bi-systems-architecture-cod
Повышаем эффективность хранения данных до 300 раз с помощью таблиц SCD-2
https://habr.com/ru/companies/X5Tech/articles/911716/
Китайская ИИ-революция и развитие BI: чему нам стоит поучиться
https://habr.com/ru/companies/glowbyte/articles/911310/
SRE в инженерии данных: профессия и ее перспективы
https://habr.com/ru/articles/911656/
10 советов для бизнеса о том, как пользоваться BI-инструментами
https://habr.com/ru/companies/bitrix/articles/910594/
Uber Data Tech Stack
https://www.junaideffendi.com/p/uber-data-tech-stack?r=15862q&utm_medium=ios&triedRedirect=true&hide_intro_popup=true
The AI Wake-Up Call for Data Engineers: Why LLMs + MCP Matter Now
https://medium.com/data-engineering-space/the-ai-wake-up-call-for-data-engineers-why-llms-mcp-matter-now-af71faef36b8
Какую архитектуру данных мне выбрать? — Подход Data-инженера. Часть 1
https://habr.com/ru/companies/otus/articles/911874/
Let’s build a data platform like Spotify!
https://blog.det.life/lets-build-a-data-platform-like-spotify-f189288ad1ed
Enhancing Business Decision-Making Through Advanced Data Visualization Techniques
https://dzone.com/articles/advanced-data-visualization-techniques-for-business
Каталог данных: что за зверь и с чем его едят
https://habr.com/ru/companies/sportmaster_lab/articles/911880/
How to Build Real-Time BI Systems: Architecture, Code, and Best Practices
https://dzone.com/articles/how-to-build-real-time-bi-systems-architecture-cod
Повышаем эффективность хранения данных до 300 раз с помощью таблиц SCD-2
https://habr.com/ru/companies/X5Tech/articles/911716/
Китайская ИИ-революция и развитие BI: чему нам стоит поучиться
https://habr.com/ru/companies/glowbyte/articles/911310/
SRE в инженерии данных: профессия и ее перспективы
https://habr.com/ru/articles/911656/
10 советов для бизнеса о том, как пользоваться BI-инструментами
https://habr.com/ru/companies/bitrix/articles/910594/
Junaideffendi
Uber Data Tech Stack
Learn about the Data Tech Stack used by Uber to process trillions of events every day.
Comparing Analytics Engines
Очень интересный материал и хорошим сравнением нескольких аналитических движков. Редакция активно использует ClickHouse, но интересно было почитать и о других решениях. Очевидно, что универсального подхода к выбору лучшего движка для аналитических задач не существует, поэтому всегда полезно расширить кругозор.
Авторы предлагаю следующую классификацию для OLAP DB: General Purpose Engines (Spark), Interactive SQL Engines (Presto, Trino), and Realtime OLAP Engines (ClickHouse, StarRocks)
Кстати, StarRocks имеет на удивление самый высокий metascore. Spark - самый старый и в целом уже с legacy концепцией работы поверх map reduce - раза в 3 меньше по рейтингу, хотя он наименее требовательный к дискам и у него самая лучшая поддержка различными библиотеками для работы и наиболее развитая экосистема. Presto - самый масштабируемый, а Concurrency лучше всех справляется с конкурентными запросами. Clickhouse, в свою очередь, имеет наилучшую коммерческую поддержку.
В статье содержится довольно подробное сравнение движком по каждому пункту выше и ссылки на хороше use cases.
https://www.onehouse.ai/blog/apache-spark-vs-clickhouse-vs-presto-vs-starrocks-vs-trino-comparing-analytics-engines
Очень интересный материал и хорошим сравнением нескольких аналитических движков. Редакция активно использует ClickHouse, но интересно было почитать и о других решениях. Очевидно, что универсального подхода к выбору лучшего движка для аналитических задач не существует, поэтому всегда полезно расширить кругозор.
Авторы предлагаю следующую классификацию для OLAP DB: General Purpose Engines (Spark), Interactive SQL Engines (Presto, Trino), and Realtime OLAP Engines (ClickHouse, StarRocks)
Кстати, StarRocks имеет на удивление самый высокий metascore. Spark - самый старый и в целом уже с legacy концепцией работы поверх map reduce - раза в 3 меньше по рейтингу, хотя он наименее требовательный к дискам и у него самая лучшая поддержка различными библиотеками для работы и наиболее развитая экосистема. Presto - самый масштабируемый, а Concurrency лучше всех справляется с конкурентными запросами. Clickhouse, в свою очередь, имеет наилучшую коммерческую поддержку.
В статье содержится довольно подробное сравнение движком по каждому пункту выше и ссылки на хороше use cases.
https://www.onehouse.ai/blog/apache-spark-vs-clickhouse-vs-presto-vs-starrocks-vs-trino-comparing-analytics-engines
www.onehouse.ai
ClickHouse vs StarRocks vs Presto vs Trino vs Apache Spark™ — Comparing Analytics Engines
Read about how Apache Spark, ClickHouse, StarRocks, Presto, and Trino stack up against each other in terms of scalability, concurrency, and more.
Простите за оффтоп, но идея свалить с этой планеты с каждым годом становится все более актуальной, так что приходится внимательно отслеживать прогресс в SpaceTech (как некотрые внимательные читатели нашего канала, наверное, успели заметить 🙂 )
https://www.wsj.com/science/space-astronomy/spacex-starship-mars-military-elon-musk-3240c18d
https://www.wsj.com/science/space-astronomy/spacex-starship-mars-military-elon-musk-3240c18d
WSJ
SpaceX Pushes to Get Starship Rocket Ready for Mars by Next Year
Elon Musk’s space company plans to test the huge experimental vehicle on Tuesday, in its first flight after two explosions this year.
Arc
Редакция грустит о планируемом закрытии проекта Arc. Я уже привык в целом к этому браузеру, у меня много удобных spaces, закладочки, страницы и удобная навигация по табам слева. Но команда, как видно из этой статьи, не удовлетворена результатов и охватом пользователей.
Arc остался узкоспециализированным, но не массовым, инструментов для гиков. Слишком сложный в освоении и переходе.
Пара фактов:
⁃ Only 5.52% of DAUs use more than one Space regularly - а я вот это как раз люблю
⁃ Only 4.17% use Live Folders (я хрен знает что это вообще 🙂 )
В общем они все переключатся на Dia - некое абсолютно новое переосмысление браузера. Вообще кажется что они тут опять “опередят рынок и умрут раньше чем пользователи будут готовы изменить своей мышление”. Ну поглядим.
https://browsercompany.substack.com/p/letter-to-arc-members-2025
Редакция грустит о планируемом закрытии проекта Arc. Я уже привык в целом к этому браузеру, у меня много удобных spaces, закладочки, страницы и удобная навигация по табам слева. Но команда, как видно из этой статьи, не удовлетворена результатов и охватом пользователей.
Arc остался узкоспециализированным, но не массовым, инструментов для гиков. Слишком сложный в освоении и переходе.
Пара фактов:
⁃ Only 5.52% of DAUs use more than one Space regularly - а я вот это как раз люблю
⁃ Only 4.17% use Live Folders (я хрен знает что это вообще 🙂 )
В общем они все переключатся на Dia - некое абсолютно новое переосмысление браузера. Вообще кажется что они тут опять “опередят рынок и умрут раньше чем пользователи будут готовы изменить своей мышление”. Ну поглядим.
https://browsercompany.substack.com/p/letter-to-arc-members-2025
Substack
Letter to Arc members 2025
On Arc, its future, and the arrival of AI browsers — a moment to answer the largest questions you've asked us this past year.