На этой неделе неожиданно поучаствовал в дискуссионной сессии и J. Doyne Farmer, автором книги “Making Sense of Chaos: A Better Economics for a Better World”. J. Doyne Farmer - физик и экономист, известный своей работой в области комплексных систем, хаотической динамики и искусственного интеллекта, а данная книга направленна на переосмысление экономики с научной и системной точки зрения.
В книге представлено исследование, как можно построить более устойчивую и справедливую экономику, используя инструменты из теории сложных систем, нелинейной динамики и искусственного интеллекта. J. Doyne Farmer утверждает, что традиционная экономика слишком упрощена и не справляется с вызовами современного мира — от климатического кризиса до нестабильности финансовых рынков. Он предлагает новый подход к экономике, который строится на реалистичном моделировании и данных, с использованием идей из физики, биологии и теории хаоса.
Не буду описывать книгу, рекомендую почитать (сам не читал еще), но отмечу, что идея заключается по сути в построение математической модели макроэкономической системы путем моделирования каждой ее микро-экономической составляющей.
J. Doyne Farmer поделился своим опытом построения такой модели для энергитического сектора, поговорили про проблематику работы с данным, сложностях их сбора и получения от различных организаций и про применение LLM к задачам подобного моделирования.
В книге представлено исследование, как можно построить более устойчивую и справедливую экономику, используя инструменты из теории сложных систем, нелинейной динамики и искусственного интеллекта. J. Doyne Farmer утверждает, что традиционная экономика слишком упрощена и не справляется с вызовами современного мира — от климатического кризиса до нестабильности финансовых рынков. Он предлагает новый подход к экономике, который строится на реалистичном моделировании и данных, с использованием идей из физики, биологии и теории хаоса.
Не буду описывать книгу, рекомендую почитать (сам не читал еще), но отмечу, что идея заключается по сути в построение математической модели макроэкономической системы путем моделирования каждой ее микро-экономической составляющей.
J. Doyne Farmer поделился своим опытом построения такой модели для энергитического сектора, поговорили про проблематику работы с данным, сложностях их сбора и получения от различных организаций и про применение LLM к задачам подобного моделирования.
Data Lineage is Strategy: Beyond Observability and Debugging
Очень интересная статья про Data Lineage. А то что то все про LLM и прочую малонаучную чепуху последнее время 🙂
Вот нормальные, серьезные темы и кейсы.
Поскольку доступ к статье может быть не у всех, оставлю печатную версию в комментарии.
https://moderndata101.substack.com/p/data-lineage-is-strategy-beyond-observability
Очень интересная статья про Data Lineage. А то что то все про LLM и прочую малонаучную чепуху последнее время 🙂
Вот нормальные, серьезные темы и кейсы.
Поскольку доступ к статье может быть не у всех, оставлю печатную версию в комментарии.
https://moderndata101.substack.com/p/data-lineage-is-strategy-beyond-observability
Substack
Data Lineage is Strategy: Beyond Observability and Debugging
Gaps in passive lineage, how and why Data Products change and uplift lineage, and notes on stepping up to the AI-native era.
Интервью с Марком Ривкиным, руководителем продукта Postgres Pro
Рекомендую почитать в выходные, очень хорошое имхо интервью про реальные вещи.
Поправилось сравнение open-source и проприетарных продуктов. Действительно, open-source, как развиваемый сообществом продукт, является одним большим компромиссов и усреднением всех идей всех участников. В то время как компания-владелец продукта может рисковать, вкладывать в него свое видение без компромисов.
https://habr.com/ru/articles/900840/
Рекомендую почитать в выходные, очень хорошое имхо интервью про реальные вещи.
Поправилось сравнение open-source и проприетарных продуктов. Действительно, open-source, как развиваемый сообществом продукт, является одним большим компромиссов и усреднением всех идей всех участников. В то время как компания-владелец продукта может рисковать, вкладывать в него свое видение без компромисов.
https://habr.com/ru/articles/900840/
Хабр
Переход из Oracle в Postgres Pro: не просто смена СУБД, а сдвиг подхода. Интервью с Марком Ривкиным
Давно не было обстоятельных интервью, тем более с таким корифеем отечественной СУБД‑разработки. В 2022 году в Postgres Professional перешла команда специалистов по Oracle,...
Дайджест статей
How Meta understands data at scale
https://engineering.fb.com/2025/04/28/security/how-meta-understands-data-at-scale/?utm_source=tldrai
База для аналитики данных. Как получать данные?
https://habr.com/ru/articles/908230/
DBT: трансформация данных без боли
https://habr.com/ru/articles/907540/
LLM пайплайны укрощают сложность баз данных, или как мы подружили ИИ с БД без ИБД
https://habr.com/ru/companies/postgrespro/articles/907614/
Гид по AI-инструментам для разработки в 2025
https://habr.com/ru/articles/907122/
Сравниваем быстродействие новой функциональности ClickHouse по поиску ближайших векторов с другими решениями
https://habr.com/ru/companies/infowatch/articles/905916/
How Meta understands data at scale
https://engineering.fb.com/2025/04/28/security/how-meta-understands-data-at-scale/?utm_source=tldrai
База для аналитики данных. Как получать данные?
https://habr.com/ru/articles/908230/
DBT: трансформация данных без боли
https://habr.com/ru/articles/907540/
LLM пайплайны укрощают сложность баз данных, или как мы подружили ИИ с БД без ИБД
https://habr.com/ru/companies/postgrespro/articles/907614/
Гид по AI-инструментам для разработки в 2025
https://habr.com/ru/articles/907122/
Сравниваем быстродействие новой функциональности ClickHouse по поиску ближайших векторов с другими решениями
https://habr.com/ru/companies/infowatch/articles/905916/
Engineering at Meta
How Meta understands data at scale
Managing and understanding large-scale data ecosystems is a significant challenge for many organizations, requiring innovative solutions to efficiently safeguard user data. Meta’s vast and di…
Для любителей футбола и данных - послушал в выходные довольно интересный подкаст Liverpool FC's Data Revolution - Dr Ian Graham on Mo Salah, Virgil van Dijk & Transfer Secrets
Dr Ian Graham отвечает за данные в FC Liverpool и является автором книги "How to Win the Premier League".
Лично я не большой любитель футбола, поэтому вся часть подкаста, которая была посвящена борьбе с Челси для меня осталась не самой востребованной информацией, но для тем, что "в теме" думаю это будет очень интересно :)
Ну и конечно очень интересно было послушать, как плотно тема аналитики данных вошла в мир современных спортивных дисциплин. Я, в силу личных предпочтений, больше интересуюсь темой Formula 1, там то с данными все намного проще - огромное количество датчиков шлют информацию в реальном времени. А вот в футболе со сбором raw data сложнее.
https://shows.acast.com/the-high-performance-podcast/episodes/liverpool-fcs-data-revolution-dr-ian-graham-on-salah-transfe
https://www.penguin.co.uk/books/462193/how-to-win-the-premier-league-by-graham-ian/9781804950302
Dr Ian Graham отвечает за данные в FC Liverpool и является автором книги "How to Win the Premier League".
Лично я не большой любитель футбола, поэтому вся часть подкаста, которая была посвящена борьбе с Челси для меня осталась не самой востребованной информацией, но для тем, что "в теме" думаю это будет очень интересно :)
Ну и конечно очень интересно было послушать, как плотно тема аналитики данных вошла в мир современных спортивных дисциплин. Я, в силу личных предпочтений, больше интересуюсь темой Formula 1, там то с данными все намного проще - огромное количество датчиков шлют информацию в реальном времени. А вот в футболе со сбором raw data сложнее.
https://shows.acast.com/the-high-performance-podcast/episodes/liverpool-fcs-data-revolution-dr-ian-graham-on-salah-transfe
https://www.penguin.co.uk/books/462193/how-to-win-the-premier-league-by-graham-ian/9781804950302
Acast
Liverpool FC's Data Revolution - Dr Ian Graham on Mo Salah, Virgil van Dijk & Transfer Secrets (E350) | The High Performance Podcast
The High Performance Podcast brings you an intimate glimpse into the lives of high-achieving, world-class performers who have all excelled in their field with first-hand experiences and lessons to share. Find out what non-negotiable behaviours they emp...
Federated Learning и конфиденциальный анализ данных
На прошлой неделе при поддержке канала @noml_community поговорили с коллегами о Federated Learning. Получилось неожиданно интересно и полезно. Много говорили о кейсах, чуть меньше - о практических аспектах реализации, особенностях работы с данными и о специфике конфиденциальных вычислений. С большим удовольствием пообщались с коллегами по цеху и основными экспертами этой отрасли.
Мой вывод - FL как технология и как предмет сделали большой шаг вперед к тому, что бы технологии и потребности рынка “пересеклись” в точки эффективности и кажется что такой момент уже близко.
Основные кейсы, которым уделили наибольшее внимание
1. Медицина
⁃ Совместное обучение моделей на медицинских снимках
⁃ Разработка препаратов и клинические испытания
⁃ Изоляция разработчика от данных пациента
2. Финтех
⁃ Обучение скоринговых моделей между банками, телекомами, платёжными системами
⁃ Антифрод-модели
⁃ Кросс-валидация чужих моделей без передачи данных
3. Интернет вещей / Промышленность
⁃ Данные с буровых установок, автопилоты, летательные аппараты
⁃ Нестабильный интернет, вычисления на месте
4. Маркетинг / Реклама
⁃ Совместный анализ долей рынка без раскрытия конкретных данных
⁃ Объединение разрозненных источников без утраты приватности
5. Кибербезопасность
Основные подводные камни о которых говорили
⁃ Градиенты утечки: по ним можно восстановить разметку или данные.
⁃ Label-flipping атаки: подмена меток со стороны участников.
⁃ Атаки отравления: изменение качества глобальной модели.
⁃ Сложная настройка open-source фреймворков (Flower, NVFlare)
⁃ Высокий входной порог: требуется команда DevOps + ML + Infosec
⁃ Нет стандартов сертификации (в России — запросы на сертификацию ФСТЭК)
⁃ Трудности с безопасниками и юридическим отделом (непонимание угроз, отсутствие моделей угроз)
⁃ Без продуманного feature engineering и понимания структуры данных объединение малоэффективно.
⁃ Конкатенация признаков из разных доменов (банк + телеком) часто не даёт прироста без доменно-специфичного анализа.
⁃ Нестабильные метрики при увеличении количества источников.
Конечно, поговорили об экономике и монетизации. Они для участников являются одними из ключевых факторов, ограничивающих внедрение федеративного обучения. В типичных сценариях наибольшую выгоду от совместного обучения получает участник с ограниченным объёмом данных, в то время как крупные компании с богатыми датасетами рискуют утратить своё конкурентное преимущество, делясь знаниями, пусть и опосредованно. Это приводит к асимметрии интересов и снижает готовность к сотрудничеству. Дополнительно затрудняет ситуацию отсутствие прозрачных механизмов оценки вклада каждого участника: стоимость самих данных абстрактна и сильно зависит от конкретного бизнес-кейса, в то время как ценность создаётся на этапе инференса. Более реалистичной моделью считается монетизация не данных, а результатов — когда доступ к улучшенному предсказанию оплачивается, а вклад в обучение соотносится с его качеством. Однако даже в такой модели остаётся сложной задача расчёта справедливой доли между участниками. Поэтому для широкого распространения FL необходимо не только снижение технического порога, но и появление устойчивых экономических моделей, учитывающих мотивацию всех сторон.
На прошлой неделе при поддержке канала @noml_community поговорили с коллегами о Federated Learning. Получилось неожиданно интересно и полезно. Много говорили о кейсах, чуть меньше - о практических аспектах реализации, особенностях работы с данными и о специфике конфиденциальных вычислений. С большим удовольствием пообщались с коллегами по цеху и основными экспертами этой отрасли.
Мой вывод - FL как технология и как предмет сделали большой шаг вперед к тому, что бы технологии и потребности рынка “пересеклись” в точки эффективности и кажется что такой момент уже близко.
Основные кейсы, которым уделили наибольшее внимание
1. Медицина
⁃ Совместное обучение моделей на медицинских снимках
⁃ Разработка препаратов и клинические испытания
⁃ Изоляция разработчика от данных пациента
2. Финтех
⁃ Обучение скоринговых моделей между банками, телекомами, платёжными системами
⁃ Антифрод-модели
⁃ Кросс-валидация чужих моделей без передачи данных
3. Интернет вещей / Промышленность
⁃ Данные с буровых установок, автопилоты, летательные аппараты
⁃ Нестабильный интернет, вычисления на месте
4. Маркетинг / Реклама
⁃ Совместный анализ долей рынка без раскрытия конкретных данных
⁃ Объединение разрозненных источников без утраты приватности
5. Кибербезопасность
Основные подводные камни о которых говорили
⁃ Градиенты утечки: по ним можно восстановить разметку или данные.
⁃ Label-flipping атаки: подмена меток со стороны участников.
⁃ Атаки отравления: изменение качества глобальной модели.
⁃ Сложная настройка open-source фреймворков (Flower, NVFlare)
⁃ Высокий входной порог: требуется команда DevOps + ML + Infosec
⁃ Нет стандартов сертификации (в России — запросы на сертификацию ФСТЭК)
⁃ Трудности с безопасниками и юридическим отделом (непонимание угроз, отсутствие моделей угроз)
⁃ Без продуманного feature engineering и понимания структуры данных объединение малоэффективно.
⁃ Конкатенация признаков из разных доменов (банк + телеком) часто не даёт прироста без доменно-специфичного анализа.
⁃ Нестабильные метрики при увеличении количества источников.
Конечно, поговорили об экономике и монетизации. Они для участников являются одними из ключевых факторов, ограничивающих внедрение федеративного обучения. В типичных сценариях наибольшую выгоду от совместного обучения получает участник с ограниченным объёмом данных, в то время как крупные компании с богатыми датасетами рискуют утратить своё конкурентное преимущество, делясь знаниями, пусть и опосредованно. Это приводит к асимметрии интересов и снижает готовность к сотрудничеству. Дополнительно затрудняет ситуацию отсутствие прозрачных механизмов оценки вклада каждого участника: стоимость самих данных абстрактна и сильно зависит от конкретного бизнес-кейса, в то время как ценность создаётся на этапе инференса. Более реалистичной моделью считается монетизация не данных, а результатов — когда доступ к улучшенному предсказанию оплачивается, а вклад в обучение соотносится с его качеством. Однако даже в такой модели остаётся сложной задача расчёта справедливой доли между участниками. Поэтому для широкого распространения FL необходимо не только снижение технического порога, но и появление устойчивых экономических моделей, учитывающих мотивацию всех сторон.
Федеративное обучение (Federated Learning, FL) представляет собой перспективный подход к обучению моделей на распределённых данных без их передачи, что делает его особенно актуальным в условиях ужесточающихся требований к приватности и безопасности. Однако, несмотря на активное академическое и прикладное развитие, широкое внедрение FL в индустрии сталкивается с рядом серьёзных барьеров. Ключевые из них — высокий порог входа, необходимость сложной технической настройки, отсутствие устоявшихся стандартов сертификации и слабая интеграция в существующие процессы информационной безопасности. Дополнительные сложности возникают при взаимодействии между участниками: крупные игроки не заинтересованы делиться данными с меньшими, отсутствуют прозрачные механизмы монетизации вклада, а эффект от объединения данных не всегда оправдывает затраты. При этом FL находит успешное применение в тех случаях, где ценность данных высока, но их невозможно централизовать: в медицине, кибербезопасности, промышленности и финтехе. Эффективность технологии на практике сильно зависит от качества feature engineering и глубины понимания доменных данных.
Как итог: FL — это не универсальное решение, а инструмент, который приносит ощутимую пользу в условиях высокой регуляторной нагрузки и потребности в технической изоляции, при условии аккуратного проектирования и реалистичных ожиданий. И кажется что мы это начинаем хорошо понимать, а значит настала пора определить место этой технологии в нашем бизнесе.
https://www.youtube.com/watch?v=JpApLfde38I&list=WL&index=1&t=12s
Как итог: FL — это не универсальное решение, а инструмент, который приносит ощутимую пользу в условиях высокой регуляторной нагрузки и потребности в технической изоляции, при условии аккуратного проектирования и реалистичных ожиданий. И кажется что мы это начинаем хорошо понимать, а значит настала пора определить место этой технологии в нашем бизнесе.
https://www.youtube.com/watch?v=JpApLfde38I&list=WL&index=1&t=12s
YouTube
Созвон: Федеративное обучение (Federated Learning)
И если кому то интересно/полезно, так же оформил этот материал в виде небольшой обзорной статьи
На прошлой неделе при поддержке канала @noml_community поговорили с коллегами о Federated Learning. Получилось неожиданно интересно и полезно. Много говорили о кейсах, чуть меньше - о практических аспектах реализации, особенностях работы с данными и о специфике конфиденциальных вычислений. С большим удовольствием пообщались с коллегами по цеху и основными экспертами этой отрасли.
Мой вывод - FL как технология и как предмет сделали большой шаг вперед к тому, что бы технологии и потребности рынка “пересеклись” в точки эффективности и кажется что такой момент уже близко.
https://habr.com/ru/articles/909014/
На прошлой неделе при поддержке канала @noml_community поговорили с коллегами о Federated Learning. Получилось неожиданно интересно и полезно. Много говорили о кейсах, чуть меньше - о практических аспектах реализации, особенностях работы с данными и о специфике конфиденциальных вычислений. С большим удовольствием пообщались с коллегами по цеху и основными экспертами этой отрасли.
Мой вывод - FL как технология и как предмет сделали большой шаг вперед к тому, что бы технологии и потребности рынка “пересеклись” в точки эффективности и кажется что такой момент уже близко.
https://habr.com/ru/articles/909014/
Хабр
Федеративное обучение: потенциал, ограничения и экономические реалии внедрения
Федеративное обучение (Federated Learning, FL) становится всё более заметным элементом технологической повестки в условиях ужесточающихся требований к конфиденциальности данных и законодательных...
Data Governance in Lakehouse Using Open Source Tools
Статья Джунаида Эффенди «Data Governance in Lakehouse Using Open Source Tools» посвящена созданию полноценной системы управления данными (data governance) в архитектуре Lakehouse с использованием ведущих open-source инструментов.
В условиях, когда Lakehouse объединяет гибкость data lake и надежность data warehouse, эффективное управление данными становится критически важным. посмотрите на состав open-source инструментов для обеспечения контроля доступа, отслеживания происхождения данных, управления метаданными, обеспечения качества данных, версионирования и классификации:
• Apache Ranger — централизованное управление политиками доступа на уровне базы данных, таблиц, колонок и строк.
• Keycloak — управление доступом к пользовательским интерфейсам и API через SSO и ролевую модель.
• Open Policy Agent (OPA) — универсальный движок для реализации политик доступа, особенно в сочетании с платформами метаданных.
• Apache Atlas — отслеживание потоков данных и их преобразований в системах, включая Hive, HDFS и Kafka.
• OpenLineage + Marquez — определение и визуализация метаданных о происхождении данных в пайплайнах.
• Spline — сбор информации о происхождении данных в приложениях Apache Spark.
Amundsen — поиск и визуализация метаданных с акцентом на удобство пользователя.
• DataHub — мощная платформа для управления метаданными с поддержкой версионирования схем, анализа воздействия и управления владельцами данных.
• Metacat — каталог метаданных от Netflix, поддерживающий интеграцию с Hive и Presto.
• Great Expectations — определение и проверка ожиданий относительно данных, таких как отсутствие пропущенных значений или уникальность ключей.
• Soda Core — инструмент командной строки для профилирования данных и мониторинга качества.
• Deequ — библиотека для определения ограничений на наборы данных, работающая на основе Spark.
• DQX — фреймворк для организации проверок качества данных в экосистеме Lakehouse.
https://www.junaideffendi.com/p/data-governance-in-lakehouse-using
Статья Джунаида Эффенди «Data Governance in Lakehouse Using Open Source Tools» посвящена созданию полноценной системы управления данными (data governance) в архитектуре Lakehouse с использованием ведущих open-source инструментов.
В условиях, когда Lakehouse объединяет гибкость data lake и надежность data warehouse, эффективное управление данными становится критически важным. посмотрите на состав open-source инструментов для обеспечения контроля доступа, отслеживания происхождения данных, управления метаданными, обеспечения качества данных, версионирования и классификации:
• Apache Ranger — централизованное управление политиками доступа на уровне базы данных, таблиц, колонок и строк.
• Keycloak — управление доступом к пользовательским интерфейсам и API через SSO и ролевую модель.
• Open Policy Agent (OPA) — универсальный движок для реализации политик доступа, особенно в сочетании с платформами метаданных.
• Apache Atlas — отслеживание потоков данных и их преобразований в системах, включая Hive, HDFS и Kafka.
• OpenLineage + Marquez — определение и визуализация метаданных о происхождении данных в пайплайнах.
• Spline — сбор информации о происхождении данных в приложениях Apache Spark.
Amundsen — поиск и визуализация метаданных с акцентом на удобство пользователя.
• DataHub — мощная платформа для управления метаданными с поддержкой версионирования схем, анализа воздействия и управления владельцами данных.
• Metacat — каталог метаданных от Netflix, поддерживающий интеграцию с Hive и Presto.
• Great Expectations — определение и проверка ожиданий относительно данных, таких как отсутствие пропущенных значений или уникальность ключей.
• Soda Core — инструмент командной строки для профилирования данных и мониторинга качества.
• Deequ — библиотека для определения ограничений на наборы данных, работающая на основе Spark.
• DQX — фреймворк для организации проверок качества данных в экосистеме Lakehouse.
https://www.junaideffendi.com/p/data-governance-in-lakehouse-using
Junaideffendi
Data Governance in Lakehouse Using Open Source Tools
Discover how to build a complete data governance ecosystem in a Lakehouse architecture using leading open-source tools. Explore access control, metadata management, lineage, quality and more.
Коллеги, 29 и 30 мая в Москве пройдет Aha!25 — техническая конференция о product science, продуктовой аналитике, машинном обучении и эффективности бизнеса. В этом году мы впервые расширяем программу до двух дней: 16 тематических потоков и более 1200 участников на одной площадке. Будем еще больше обсуждать деньги и бизнес-эффективность, а также способы повышения первого и второго через ML/AI-инструменты и продуктовые подходы.
На мероприятии выступят топ-эксперты из Т-Банка, Яндекса, Авито, OZON, Альфа-Банка и других компаний России и СНГ: Виктор Кантор (MLinside), Кевин Ханда (Uzum), Сергей Веренцов (EORA), а также представители научного сообщества из ИТМО, РЭШ, Центрального университета.
Ключевые темы:
- Интеграция LLM, ML и AI в цифровые сервисы
- Современные подходы к A/B-тестированию
- Оцифровка пользовательского опыта
- Применение машинного обучения в управлении продуктом
- Математическое мышление и поведенческая экономика
Приглашаем продуктовых менеджеров и аналитиков, владельцев продуктов, CPO, CDO, ML-разработчиков. Программа будет полезна как новичкам, так и экспертам.
Где: МГУ, кластер «Ломоносов» (Раменский бульвар, 1).
Программа: http://ahaconf.ru/program
Билеты — на сайте!
На мероприятии выступят топ-эксперты из Т-Банка, Яндекса, Авито, OZON, Альфа-Банка и других компаний России и СНГ: Виктор Кантор (MLinside), Кевин Ханда (Uzum), Сергей Веренцов (EORA), а также представители научного сообщества из ИТМО, РЭШ, Центрального университета.
Ключевые темы:
- Интеграция LLM, ML и AI в цифровые сервисы
- Современные подходы к A/B-тестированию
- Оцифровка пользовательского опыта
- Применение машинного обучения в управлении продуктом
- Математическое мышление и поведенческая экономика
Приглашаем продуктовых менеджеров и аналитиков, владельцев продуктов, CPO, CDO, ML-разработчиков. Программа будет полезна как новичкам, так и экспертам.
Где: МГУ, кластер «Ломоносов» (Раменский бульвар, 1).
Программа: http://ahaconf.ru/program
Билеты — на сайте!
Дайджест статей
From ETL to AI Agents: How AI Is Transforming Data Engineering
https://blog.det.life/from-etl-to-ai-agents-how-ai-is-transforming-data-engineering-1e9d0f54c187
Переходим от legacy к построению Feature Store
https://habr.com/ru/companies/oleg-bunin/articles/908970/
OLAP-системы: многомерная модель данных и её применение. Правила Кодда: библия для разработчиков реляционных баз данных
https://habr.com/ru/articles/909618/
Скрытая стоимость BI: что не учитывают 8 из 10 компаний при внедрении аналитических систем
https://habr.com/ru/companies/glowbyte/articles/909656/
ИИ в Data Governance: как мы ускорили маркировку персональных данных
https://habr.com/ru/companies/rostelecom/articles/909976/
Как LLM могут помочь аналитикам баз данных в работе с SQL-запросами
https://habr.com/ru/companies/sberbank/articles/909730/
From ETL to AI Agents: How AI Is Transforming Data Engineering
https://blog.det.life/from-etl-to-ai-agents-how-ai-is-transforming-data-engineering-1e9d0f54c187
Переходим от legacy к построению Feature Store
https://habr.com/ru/companies/oleg-bunin/articles/908970/
OLAP-системы: многомерная модель данных и её применение. Правила Кодда: библия для разработчиков реляционных баз данных
https://habr.com/ru/articles/909618/
Скрытая стоимость BI: что не учитывают 8 из 10 компаний при внедрении аналитических систем
https://habr.com/ru/companies/glowbyte/articles/909656/
ИИ в Data Governance: как мы ускорили маркировку персональных данных
https://habr.com/ru/companies/rostelecom/articles/909976/
Как LLM могут помочь аналитикам баз данных в работе с SQL-запросами
https://habr.com/ru/companies/sberbank/articles/909730/
Medium
From ETL to AI Agents: How AI Is Transforming Data Engineering
How AI Is Reshaping the Future of Data Engineering
Forwarded from Маргарита Репина: Disrupt & Scale
Возвращаюсь с вашей любимой рубрикой — #Data_driven.
Обещала вам продолжение 🔥.
В прошлый раз мы говорили, что цифра без контекста — просто шум.
Контекст делает её сигналом.
А сигнал — даёт точку опоры для решения.
🧠 Теперь разберёмся:
а как выстроить систему, чтобы это всё работало регулярно, а не от вдохновения?
Вот, что обычно помогает мне во всех проектах без тонны бюрократии:
1️⃣ У каждой метрики — свой “вопрос”.
Нет смысла просто «смотреть на цифры».
Смысл — в том, что ты через них пытаешься понять.
Например:
✸ Конверсия — это «где утекают деньги/внимание?»
✸ MAU — это «продукт вообще нужен?»
✸ Retention — это «остаются ли со мной те, кому я нужен?»
✸ Cost per hire — это «во сколько мне обходится масштаб?»
✸ % вовлечённости команды — это «не начинаю ли я терять людей на старте?»
Если метрика не отвечает на конкретный вопрос — она вам не нужна.
2️⃣ Цифры нужно сравнивать не в голове, а в рутине.
Кажется, что ты «и так чувствуешь».
Но когда нет ритма — всё превращается в интуицию и хаос.
Совет:
✸ Раз в неделю — смотришь динамику ключевых цифр
✸ Раз в месяц — обсуждение с командой: что поняли, что поменяли
✸ Раз в квартал — сверка с целями и рынком
И в идеале — автоматизируйте.
Сейчас куча сервисов, которые собирают дэшборды, интегрируются с Airtable, Notion, Google Sheets, BI-платформами.
Но даже если вы только начинаете
Excel-табличка с ручным апдейтом уже лучше, чем держать всё в голове.
3️⃣ У каждого фаундера — свои “опорные показатели”.
Не нужно трекать 50 метрик.
Но должны быть 3–5 цифр, которые вы знаете наизусть.
Как у зожников: шаги, HRV, калории.
✸ Шагов мало — пора выйти из операционки.
✸ HRV упал — команда выгорает.
✸ Калорий больше нормы — косты растут быстрее revenue.
💡 Именно эти метрики держат фаундера в контакте с реальностью.
Не по ощущениям, а по факту.
Цифры — это не Excel. Это зеркало мышления.
Если актуально — могу вам собрать короткий гайд:
✸ Что смотреть каждую неделю,
✸ Как выстроить логику,
✸ Как превратить данные в решения.
Пишите в комментариях 🚀
#Founder_mode #Data_driven
Обещала вам продолжение 🔥.
В прошлый раз мы говорили, что цифра без контекста — просто шум.
Контекст делает её сигналом.
А сигнал — даёт точку опоры для решения.
🧠 Теперь разберёмся:
а как выстроить систему, чтобы это всё работало регулярно, а не от вдохновения?
Вот, что обычно помогает мне во всех проектах без тонны бюрократии:
1️⃣ У каждой метрики — свой “вопрос”.
Нет смысла просто «смотреть на цифры».
Смысл — в том, что ты через них пытаешься понять.
Например:
✸ Конверсия — это «где утекают деньги/внимание?»
✸ MAU — это «продукт вообще нужен?»
✸ Retention — это «остаются ли со мной те, кому я нужен?»
✸ Cost per hire — это «во сколько мне обходится масштаб?»
✸ % вовлечённости команды — это «не начинаю ли я терять людей на старте?»
Если метрика не отвечает на конкретный вопрос — она вам не нужна.
2️⃣ Цифры нужно сравнивать не в голове, а в рутине.
Кажется, что ты «и так чувствуешь».
Но когда нет ритма — всё превращается в интуицию и хаос.
Совет:
✸ Раз в неделю — смотришь динамику ключевых цифр
✸ Раз в месяц — обсуждение с командой: что поняли, что поменяли
✸ Раз в квартал — сверка с целями и рынком
И в идеале — автоматизируйте.
Сейчас куча сервисов, которые собирают дэшборды, интегрируются с Airtable, Notion, Google Sheets, BI-платформами.
Но даже если вы только начинаете
Excel-табличка с ручным апдейтом уже лучше, чем держать всё в голове.
3️⃣ У каждого фаундера — свои “опорные показатели”.
Не нужно трекать 50 метрик.
Но должны быть 3–5 цифр, которые вы знаете наизусть.
Как у зожников: шаги, HRV, калории.
✸ Шагов мало — пора выйти из операционки.
✸ HRV упал — команда выгорает.
✸ Калорий больше нормы — косты растут быстрее revenue.
💡 Именно эти метрики держат фаундера в контакте с реальностью.
Не по ощущениям, а по факту.
Цифры — это не Excel. Это зеркало мышления.
Если актуально — могу вам собрать короткий гайд:
✸ Что смотреть каждую неделю,
✸ Как выстроить логику,
✸ Как превратить данные в решения.
Пишите в комментариях 🚀
#Founder_mode #Data_driven
Agentic AI in Financial Services
Недавно IBM опубликовала очень интересный и, на мой взгляд, один из самых сильных аналитических документов за последнее время —https://www.ibm.com/downloads/documents/gb-en/12f5a71117cdc329
В этом посте хочу поделиться краткими тезисами и обратить внимание на ключевые моменты, которые особенно актуальны для тех, кто разрабатывает стратегии внедрения ИИ в бизнес-процессы.
Это глубокий и структурированный анализ применения агентных ИИ-систем (Agentic AI) в финансовой отрасли. Он не просто объясняет, что такое агентный ИИ и чем он отличается от традиционного или генеративного ИИ, но делает акцент на рисках и механизмах их снижения. Раздел, посвящённый рискам, один из самых объемных и ценных, и заслуживает отдельного внимания.
IBM выделяет три ключевые области применения:
1. AI-Powered Customer Engagement & Personalisation - Гиперперсонализированные финансовые продукты, динамическое ценообразование, рекомендательные системы, KYC/AML-процессы.
2. AI-Driven Operational Excellence & Governance - Автоматизация операций в бек- и миддл-офисе, обнаружение аномалий, контроль исполнения, соблюдение регуляторных требований.
3. AI-Augmented Technology & Software Development - Генерация кода, автоматическое тестирование, управление ИТ-инфраструктурой и обеспечение кибербезопасности.
Эта классификация может служить отличной основой для проектирования корпоративной ИИ-стратегии.
Надо отметить, что Agentic AI выходит за рамки чат-ботов и RPA. Он характеризуется:
• способностью самостоятельно ставить цели, принимать решения и действовать;
• интеграцией с инструментами и API для взаимодействия с внешней средой;
• использованием многоагентных архитектур (Principal, Service и Task Agents), работающих совместно для достижения сложных целей.
Поэтому с появлением таким систем в информационном ландшафте предприятия, так же появляются и новые категории рисков, с которыми надо быть готовыми справляться, такие как:
• Несоответствие целей (Goal Misalignment)
• Независимые действия без контроля (Autonomous Action)
• Неправильное использование API и инструментов
• Расширение полномочий агентами
• Поведенческий дрейф и накопление “памяти”
• Динамический обман и предвзятость
• Уязвимости безопасности (включая prompt injection и коллаборацию агентов)
• Эффекты каскадных сбоев в системах
И надо отметить, что на рынке появляются практики и системы, реализующие эти практики, которые направлены на мотивацию и снижение этих рисков, такие как:
• Guardrails и точное задание целей
• Непрерывный мониторинг поведения
• Human-in-the-loop и контроль критических решений
• Adversarial training и red teaming
• Ролевая модель доступа и границы полномочий
• Политики управления памятью
• Аудит, логирование и объяснимость действий
Если вы планируете внедрять ИИ в корпоративные процессы — рекомендую прочитать этот отчет целиком. Он точно стоит вашего времени.
Недавно IBM опубликовала очень интересный и, на мой взгляд, один из самых сильных аналитических документов за последнее время —https://www.ibm.com/downloads/documents/gb-en/12f5a71117cdc329
В этом посте хочу поделиться краткими тезисами и обратить внимание на ключевые моменты, которые особенно актуальны для тех, кто разрабатывает стратегии внедрения ИИ в бизнес-процессы.
Это глубокий и структурированный анализ применения агентных ИИ-систем (Agentic AI) в финансовой отрасли. Он не просто объясняет, что такое агентный ИИ и чем он отличается от традиционного или генеративного ИИ, но делает акцент на рисках и механизмах их снижения. Раздел, посвящённый рискам, один из самых объемных и ценных, и заслуживает отдельного внимания.
IBM выделяет три ключевые области применения:
1. AI-Powered Customer Engagement & Personalisation - Гиперперсонализированные финансовые продукты, динамическое ценообразование, рекомендательные системы, KYC/AML-процессы.
2. AI-Driven Operational Excellence & Governance - Автоматизация операций в бек- и миддл-офисе, обнаружение аномалий, контроль исполнения, соблюдение регуляторных требований.
3. AI-Augmented Technology & Software Development - Генерация кода, автоматическое тестирование, управление ИТ-инфраструктурой и обеспечение кибербезопасности.
Эта классификация может служить отличной основой для проектирования корпоративной ИИ-стратегии.
Надо отметить, что Agentic AI выходит за рамки чат-ботов и RPA. Он характеризуется:
• способностью самостоятельно ставить цели, принимать решения и действовать;
• интеграцией с инструментами и API для взаимодействия с внешней средой;
• использованием многоагентных архитектур (Principal, Service и Task Agents), работающих совместно для достижения сложных целей.
Поэтому с появлением таким систем в информационном ландшафте предприятия, так же появляются и новые категории рисков, с которыми надо быть готовыми справляться, такие как:
• Несоответствие целей (Goal Misalignment)
• Независимые действия без контроля (Autonomous Action)
• Неправильное использование API и инструментов
• Расширение полномочий агентами
• Поведенческий дрейф и накопление “памяти”
• Динамический обман и предвзятость
• Уязвимости безопасности (включая prompt injection и коллаборацию агентов)
• Эффекты каскадных сбоев в системах
И надо отметить, что на рынке появляются практики и системы, реализующие эти практики, которые направлены на мотивацию и снижение этих рисков, такие как:
• Guardrails и точное задание целей
• Непрерывный мониторинг поведения
• Human-in-the-loop и контроль критических решений
• Adversarial training и red teaming
• Ролевая модель доступа и границы полномочий
• Политики управления памятью
• Аудит, логирование и объяснимость действий
Если вы планируете внедрять ИИ в корпоративные процессы — рекомендую прочитать этот отчет целиком. Он точно стоит вашего времени.
NotebookLM
На днях обратил внимание на то, что для мобилки вышло отдельное приложение NotebookLM и опять обратил внимание на это решение. Какое то время назад я с ним немного поигрался, загрузил туда какой то PDF и сгенерировал диалог на тему этого документа - получилось прикольно, но в ежедневное использование не вошло.
Но сейчас инструмент оброс функциями и на самом деле дает очень интересную возможность. Основная идея - вы можете в нем сделать “проект” который соответствует какой то предметной области вашего интереса (например, “управление данными”), загрузить в проект разные документ, ученики, книги, ссылки, ролики и тд, которые вы сами выбрали для себя как интересные и доверенные источники информации и дальше работать с ними как с ChatGPT, задавая вопросы, делая выводы, исследования, заметки - но использую не “общие” знания LLM обученные неизвестно на чем, а конкретные значения из выбранных вами источников.
Вот на хабре еще хорошая статья с описанием практик и методик: https://habr.com/ru/articles/910186/
На днях обратил внимание на то, что для мобилки вышло отдельное приложение NotebookLM и опять обратил внимание на это решение. Какое то время назад я с ним немного поигрался, загрузил туда какой то PDF и сгенерировал диалог на тему этого документа - получилось прикольно, но в ежедневное использование не вошло.
Но сейчас инструмент оброс функциями и на самом деле дает очень интересную возможность. Основная идея - вы можете в нем сделать “проект” который соответствует какой то предметной области вашего интереса (например, “управление данными”), загрузить в проект разные документ, ученики, книги, ссылки, ролики и тд, которые вы сами выбрали для себя как интересные и доверенные источники информации и дальше работать с ними как с ChatGPT, задавая вопросы, делая выводы, исследования, заметки - но использую не “общие” знания LLM обученные неизвестно на чем, а конкретные значения из выбранных вами источников.
Вот на хабре еще хорошая статья с описанием практик и методик: https://habr.com/ru/articles/910186/
Хабр
NotebookLM: Как освоить сложные темы в 10 раз быстрее
Всем привет! Меня зовут Александр, я COO в SaaS-платформе аналитики данных. Последний год активно изучаю внедрение AI-решений в кросс-функциональные процессы. Делюсь полезными материалами, которые...
Редакция грустит о закрытии сервиса Pocket, которым пользовалась много лет что бы готовить еженедельные дайджесты. Хотя еще в прошлом году перешел на raindrop.io, все равно жаль что хорошие сервисы закрываются.
Фишкой pocket была возможность скачивать контент в offline на устройство и читать в самолет и прочих метро. Ни в одном другом сервиса такого я так и не нашел :(
Фишкой pocket была возможность скачивать контент в offline на устройство и читать в самолет и прочих метро. Ни в одном другом сервиса такого я так и не нашел :(
Forwarded from Big Data AI
📊 Free LLM API Resources — бесплатные облачные модели для разработчиков. Для тех, кто хочет экспериментировать с LLM без затрат на API, появился исчерпывающий гайд по бесплатным ресурсам. В списке — десятки провайдеров с лимитами от 50 запросов в день до 1 млн токенов.
Из них можно выделить:
— Google AI Studio с Gemini 1.5 Flash (500 запросов/день)
— Mistral La Plateforme — доступ к Codestral и другим фирменным моделям
— Cloudflare Workers AI — 10k нейронов ежедневно для Llama 3 и Qwen
Есть и временные кредиты: $30 у Baseten, $10 у AI21 для Jamba. Главное правило не злоупотреблять, иначе бесплатные лимиты могут исчезнуть.
🤖 GitHub
@bigdatai
Из них можно выделить:
— Google AI Studio с Gemini 1.5 Flash (500 запросов/день)
— Mistral La Plateforme — доступ к Codestral и другим фирменным моделям
— Cloudflare Workers AI — 10k нейронов ежедневно для Llama 3 и Qwen
Есть и временные кредиты: $30 у Baseten, $10 у AI21 для Jamba. Главное правило не злоупотреблять, иначе бесплатные лимиты могут исчезнуть.
🤖 GitHub
@bigdatai