Telegram Web Link
На этой неделе неожиданно поучаствовал в дискуссионной сессии и J. Doyne Farmer, автором книги “Making Sense of Chaos: A Better Economics for a Better World”. J. Doyne Farmer - физик и экономист, известный своей работой в области комплексных систем, хаотической динамики и искусственного интеллекта, а данная книга направленна на переосмысление экономики с научной и системной точки зрения.

В книге представлено исследование, как можно построить более устойчивую и справедливую экономику, используя инструменты из теории сложных систем, нелинейной динамики и искусственного интеллекта. J. Doyne Farmer утверждает, что традиционная экономика слишком упрощена и не справляется с вызовами современного мира — от климатического кризиса до нестабильности финансовых рынков. Он предлагает новый подход к экономике, который строится на реалистичном моделировании и данных, с использованием идей из физики, биологии и теории хаоса.

Не буду описывать книгу, рекомендую почитать (сам не читал еще), но отмечу, что идея заключается по сути в построение математической модели макроэкономической системы путем моделирования каждой ее микро-экономической составляющей.

J. Doyne Farmer поделился своим опытом построения такой модели для энергитического сектора, поговорили про проблематику работы с данным, сложностях их сбора и получения от различных организаций и про применение LLM к задачам подобного моделирования.
Data Lineage is Strategy: Beyond Observability and Debugging

Очень интересная статья про Data Lineage. А то что то все про LLM и прочую малонаучную чепуху последнее время 🙂
Вот нормальные, серьезные темы и кейсы.

Поскольку доступ к статье может быть не у всех, оставлю печатную версию в комментарии.

https://moderndata101.substack.com/p/data-lineage-is-strategy-beyond-observability
Интервью с Марком Ривкиным, руководителем продукта Postgres Pro

Рекомендую почитать в выходные, очень хорошое имхо интервью про реальные вещи.

Поправилось сравнение open-source и проприетарных продуктов. Действительно, open-source, как развиваемый сообществом продукт, является одним большим компромиссов и усреднением всех идей всех участников. В то время как компания-владелец продукта может рисковать, вкладывать в него свое видение без компромисов.

https://habr.com/ru/articles/900840/
Дайджест статей

How Meta understands data at scale
https://engineering.fb.com/2025/04/28/security/how-meta-understands-data-at-scale/?utm_source=tldrai

База для аналитики данных. Как получать данные?
https://habr.com/ru/articles/908230/

DBT: трансформация данных без боли
https://habr.com/ru/articles/907540/

LLM пайплайны укрощают сложность баз данных, или как мы подружили ИИ с БД без ИБД
https://habr.com/ru/companies/postgrespro/articles/907614/

Гид по AI-инструментам для разработки в 2025
https://habr.com/ru/articles/907122/

Сравниваем быстродействие новой функциональности ClickHouse по поиску ближайших векторов с другими решениями
https://habr.com/ru/companies/infowatch/articles/905916/
Для любителей футбола и данных - послушал в выходные довольно интересный подкаст Liverpool FC's Data Revolution - Dr Ian Graham on Mo Salah, Virgil van Dijk & Transfer Secrets

Dr Ian Graham отвечает за данные в FC Liverpool и является автором книги "How to Win the Premier League".

Лично я не большой любитель футбола, поэтому вся часть подкаста, которая была посвящена борьбе с Челси для меня осталась не самой востребованной информацией, но для тем, что "в теме" думаю это будет очень интересно :)

Ну и конечно очень интересно было послушать, как плотно тема аналитики данных вошла в мир современных спортивных дисциплин. Я, в силу личных предпочтений, больше интересуюсь темой Formula 1, там то с данными все намного проще - огромное количество датчиков шлют информацию в реальном времени. А вот в футболе со сбором raw data сложнее.

https://shows.acast.com/the-high-performance-podcast/episodes/liverpool-fcs-data-revolution-dr-ian-graham-on-salah-transfe

https://www.penguin.co.uk/books/462193/how-to-win-the-premier-league-by-graham-ian/9781804950302
Federated Learning и конфиденциальный анализ данных

На прошлой неделе при поддержке канала @noml_community поговорили с коллегами о Federated Learning. Получилось неожиданно интересно и полезно. Много говорили о кейсах, чуть меньше - о практических аспектах реализации, особенностях работы с данными и о специфике конфиденциальных вычислений. С большим удовольствием пообщались с коллегами по цеху и основными экспертами этой отрасли.

Мой вывод - FL как технология и как предмет сделали большой шаг вперед к тому, что бы технологии и потребности рынка “пересеклись” в точки эффективности и кажется что такой момент уже близко.

Основные кейсы, которым уделили наибольшее внимание

1. Медицина
⁃ Совместное обучение моделей на медицинских снимках
⁃ Разработка препаратов и клинические испытания
⁃ Изоляция разработчика от данных пациента
2. Финтех
⁃ Обучение скоринговых моделей между банками, телекомами, платёжными системами
⁃ Антифрод-модели
⁃ Кросс-валидация чужих моделей без передачи данных
3. Интернет вещей / Промышленность
⁃ Данные с буровых установок, автопилоты, летательные аппараты
⁃ Нестабильный интернет, вычисления на месте
4. Маркетинг / Реклама
⁃ Совместный анализ долей рынка без раскрытия конкретных данных
⁃ Объединение разрозненных источников без утраты приватности
5. Кибербезопасность

Основные подводные камни о которых говорили

⁃ Градиенты утечки: по ним можно восстановить разметку или данные.
⁃ Label-flipping атаки: подмена меток со стороны участников.
⁃ Атаки отравления: изменение качества глобальной модели.
⁃ Сложная настройка open-source фреймворков (Flower, NVFlare)
⁃ Высокий входной порог: требуется команда DevOps + ML + Infosec
⁃ Нет стандартов сертификации (в России — запросы на сертификацию ФСТЭК)
⁃ Трудности с безопасниками и юридическим отделом (непонимание угроз, отсутствие моделей угроз)
⁃ Без продуманного feature engineering и понимания структуры данных объединение малоэффективно.
⁃ Конкатенация признаков из разных доменов (банк + телеком) часто не даёт прироста без доменно-специфичного анализа.
⁃ Нестабильные метрики при увеличении количества источников.

Конечно, поговорили об экономике и монетизации. Они для участников являются одними из ключевых факторов, ограничивающих внедрение федеративного обучения. В типичных сценариях наибольшую выгоду от совместного обучения получает участник с ограниченным объёмом данных, в то время как крупные компании с богатыми датасетами рискуют утратить своё конкурентное преимущество, делясь знаниями, пусть и опосредованно. Это приводит к асимметрии интересов и снижает готовность к сотрудничеству. Дополнительно затрудняет ситуацию отсутствие прозрачных механизмов оценки вклада каждого участника: стоимость самих данных абстрактна и сильно зависит от конкретного бизнес-кейса, в то время как ценность создаётся на этапе инференса. Более реалистичной моделью считается монетизация не данных, а результатов — когда доступ к улучшенному предсказанию оплачивается, а вклад в обучение соотносится с его качеством. Однако даже в такой модели остаётся сложной задача расчёта справедливой доли между участниками. Поэтому для широкого распространения FL необходимо не только снижение технического порога, но и появление устойчивых экономических моделей, учитывающих мотивацию всех сторон.
Федеративное обучение (Federated Learning, FL) представляет собой перспективный подход к обучению моделей на распределённых данных без их передачи, что делает его особенно актуальным в условиях ужесточающихся требований к приватности и безопасности. Однако, несмотря на активное академическое и прикладное развитие, широкое внедрение FL в индустрии сталкивается с рядом серьёзных барьеров. Ключевые из них — высокий порог входа, необходимость сложной технической настройки, отсутствие устоявшихся стандартов сертификации и слабая интеграция в существующие процессы информационной безопасности. Дополнительные сложности возникают при взаимодействии между участниками: крупные игроки не заинтересованы делиться данными с меньшими, отсутствуют прозрачные механизмы монетизации вклада, а эффект от объединения данных не всегда оправдывает затраты. При этом FL находит успешное применение в тех случаях, где ценность данных высока, но их невозможно централизовать: в медицине, кибербезопасности, промышленности и финтехе. Эффективность технологии на практике сильно зависит от качества feature engineering и глубины понимания доменных данных.

Как итог: FL — это не универсальное решение, а инструмент, который приносит ощутимую пользу в условиях высокой регуляторной нагрузки и потребности в технической изоляции, при условии аккуратного проектирования и реалистичных ожиданий. И кажется что мы это начинаем хорошо понимать, а значит настала пора определить место этой технологии в нашем бизнесе.

https://www.youtube.com/watch?v=JpApLfde38I&list=WL&index=1&t=12s
И если кому то интересно/полезно, так же оформил этот материал в виде небольшой обзорной статьи

На прошлой неделе при поддержке канала @noml_community поговорили с коллегами о Federated Learning. Получилось неожиданно интересно и полезно. Много говорили о кейсах, чуть меньше - о практических аспектах реализации, особенностях работы с данными и о специфике конфиденциальных вычислений. С большим удовольствием пообщались с коллегами по цеху и основными экспертами этой отрасли.

Мой вывод - FL как технология и как предмет сделали большой шаг вперед к тому, что бы технологии и потребности рынка “пересеклись” в точки эффективности и кажется что такой момент уже близко.

https://habr.com/ru/articles/909014/
Data Governance in Lakehouse Using Open Source Tools

Статья Джунаида Эффенди «Data Governance in Lakehouse Using Open Source Tools» посвящена созданию полноценной системы управления данными (data governance) в архитектуре Lakehouse с использованием ведущих open-source инструментов.

В условиях, когда Lakehouse объединяет гибкость data lake и надежность data warehouse, эффективное управление данными становится критически важным. посмотрите на состав open-source инструментов для обеспечения контроля доступа, отслеживания происхождения данных, управления метаданными, обеспечения качества данных, версионирования и классификации:

• Apache Ranger — централизованное управление политиками доступа на уровне базы данных, таблиц, колонок и строк.
• Keycloak — управление доступом к пользовательским интерфейсам и API через SSO и ролевую модель.
• Open Policy Agent (OPA) — универсальный движок для реализации политик доступа, особенно в сочетании с платформами метаданных.
• Apache Atlas — отслеживание потоков данных и их преобразований в системах, включая Hive, HDFS и Kafka.
• OpenLineage + Marquez — определение и визуализация метаданных о происхождении данных в пайплайнах.
• Spline — сбор информации о происхождении данных в приложениях Apache Spark.
Amundsen — поиск и визуализация метаданных с акцентом на удобство пользователя.
• DataHub — мощная платформа для управления метаданными с поддержкой версионирования схем, анализа воздействия и управления владельцами данных.
• Metacat — каталог метаданных от Netflix, поддерживающий интеграцию с Hive и Presto.
• Great Expectations — определение и проверка ожиданий относительно данных, таких как отсутствие пропущенных значений или уникальность ключей.
• Soda Core — инструмент командной строки для профилирования данных и мониторинга качества.
• Deequ — библиотека для определения ограничений на наборы данных, работающая на основе Spark.
• DQX — фреймворк для организации проверок качества данных в экосистеме Lakehouse.

https://www.junaideffendi.com/p/data-governance-in-lakehouse-using
Коллеги, 29 и 30 мая в Москве пройдет Aha!25 — техническая конференция о product science, продуктовой аналитике, машинном обучении и эффективности бизнеса. В этом году мы впервые расширяем программу до двух дней: 16 тематических потоков и более 1200 участников на одной площадке. Будем еще больше обсуждать деньги и бизнес-эффективность, а также способы повышения первого и второго через ML/AI-инструменты и продуктовые подходы.

На мероприятии выступят топ-эксперты из Т-Банка, Яндекса, Авито, OZON, Альфа-Банка и других компаний России и СНГ: Виктор Кантор (MLinside), Кевин Ханда (Uzum), Сергей Веренцов (EORA), а также представители научного сообщества из ИТМО, РЭШ, Центрального университета.

Ключевые темы:
- Интеграция LLM, ML и AI в цифровые сервисы
- Современные подходы к A/B-тестированию
- Оцифровка пользовательского опыта
- Применение машинного обучения в управлении продуктом
- Математическое мышление и поведенческая экономика

Приглашаем продуктовых менеджеров и аналитиков, владельцев продуктов, CPO, CDO, ML-разработчиков. Программа будет полезна как новичкам, так и экспертам.

Где: МГУ, кластер «Ломоносов» (Раменский бульвар, 1).
Программа: http://ahaconf.ru/program

Билеты — на сайте!
Дайджест статей

From ETL to AI Agents: How AI Is Transforming Data Engineering
https://blog.det.life/from-etl-to-ai-agents-how-ai-is-transforming-data-engineering-1e9d0f54c187

Переходим от legacy к построению Feature Store
https://habr.com/ru/companies/oleg-bunin/articles/908970/

OLAP-системы: многомерная модель данных и её применение. Правила Кодда: библия для разработчиков реляционных баз данных
https://habr.com/ru/articles/909618/

Скрытая стоимость BI: что не учитывают 8 из 10 компаний при внедрении аналитических систем
https://habr.com/ru/companies/glowbyte/articles/909656/

ИИ в Data Governance: как мы ускорили маркировку персональных данных
https://habr.com/ru/companies/rostelecom/articles/909976/

Как LLM могут помочь аналитикам баз данных в работе с SQL-запросами
https://habr.com/ru/companies/sberbank/articles/909730/
Возвращаюсь с вашей любимой рубрикой #Data_driven.
Обещала вам продолжение 🔥.

В прошлый раз мы говорили, что цифра без контекста — просто шум.
Контекст делает её сигналом.
А сигнал — даёт точку опоры для решения.

🧠 Теперь разберёмся:
а как выстроить систему, чтобы это всё работало регулярно, а не от вдохновения?

Вот, что обычно помогает мне во всех проектах без тонны бюрократии:

1️⃣ У каждой метрики — свой “вопрос”.
Нет смысла просто «смотреть на цифры».
Смысл — в том, что ты через них пытаешься понять.

Например:
✸ Конверсия — это «где утекают деньги/внимание?»
✸ MAU — это «продукт вообще нужен?»
✸ Retention — это «остаются ли со мной те, кому я нужен?»
✸ Cost per hire — это «во сколько мне обходится масштаб?»
✸ % вовлечённости команды — это «не начинаю ли я терять людей на старте?»

Если метрика не отвечает на конкретный вопрос — она вам не нужна.

2️⃣ Цифры нужно сравнивать не в голове, а в рутине.

Кажется, что ты «и так чувствуешь».
Но когда нет ритма — всё превращается в интуицию и хаос.

Совет:
✸ Раз в неделю — смотришь динамику ключевых цифр
✸ Раз в месяц — обсуждение с командой: что поняли, что поменяли
✸ Раз в квартал — сверка с целями и рынком

И в идеале — автоматизируйте.
Сейчас куча сервисов, которые собирают дэшборды, интегрируются с Airtable, Notion, Google Sheets, BI-платформами.
Но даже если вы только начинаете

Excel-табличка с ручным апдейтом уже лучше, чем держать всё в голове.

3️⃣ У каждого фаундера — свои “опорные показатели”.

Не нужно трекать 50 метрик.
Но должны быть 3–5 цифр, которые вы знаете наизусть.

Как у зожников: шаги, HRV, калории.
✸ Шагов мало — пора выйти из операционки.
✸ HRV упал — команда выгорает.
✸ Калорий больше нормы — косты растут быстрее revenue.

💡 Именно эти метрики держат фаундера в контакте с реальностью.
Не по ощущениям, а по факту.

Цифры — это не Excel. Это зеркало мышления.

Если актуально — могу вам собрать короткий гайд:
✸ Что смотреть каждую неделю,
✸ Как выстроить логику,
✸ Как превратить данные в решения.
Пишите в комментариях 🚀

#Founder_mode #Data_driven
Agentic AI in Financial Services

Недавно IBM опубликовала очень интересный и, на мой взгляд, один из самых сильных аналитических документов за последнее время —https://www.ibm.com/downloads/documents/gb-en/12f5a71117cdc329

В этом посте хочу поделиться краткими тезисами и обратить внимание на ключевые моменты, которые особенно актуальны для тех, кто разрабатывает стратегии внедрения ИИ в бизнес-процессы.

Это глубокий и структурированный анализ применения агентных ИИ-систем (Agentic AI) в финансовой отрасли. Он не просто объясняет, что такое агентный ИИ и чем он отличается от традиционного или генеративного ИИ, но делает акцент на рисках и механизмах их снижения. Раздел, посвящённый рискам, один из самых объемных и ценных, и заслуживает отдельного внимания.

IBM выделяет три ключевые области применения:
1. AI-Powered Customer Engagement & Personalisation - Гиперперсонализированные финансовые продукты, динамическое ценообразование, рекомендательные системы, KYC/AML-процессы.
2. AI-Driven Operational Excellence & Governance - Автоматизация операций в бек- и миддл-офисе, обнаружение аномалий, контроль исполнения, соблюдение регуляторных требований.
3. AI-Augmented Technology & Software Development - Генерация кода, автоматическое тестирование, управление ИТ-инфраструктурой и обеспечение кибербезопасности.

Эта классификация может служить отличной основой для проектирования корпоративной ИИ-стратегии.

Надо отметить, что Agentic AI выходит за рамки чат-ботов и RPA. Он характеризуется:
• способностью самостоятельно ставить цели, принимать решения и действовать;
• интеграцией с инструментами и API для взаимодействия с внешней средой;
• использованием многоагентных архитектур (Principal, Service и Task Agents), работающих совместно для достижения сложных целей.

Поэтому с появлением таким систем в информационном ландшафте предприятия, так же появляются и новые категории рисков, с которыми надо быть готовыми справляться, такие как:

• Несоответствие целей (Goal Misalignment)
• Независимые действия без контроля (Autonomous Action)
• Неправильное использование API и инструментов
• Расширение полномочий агентами
• Поведенческий дрейф и накопление “памяти”
• Динамический обман и предвзятость
• Уязвимости безопасности (включая prompt injection и коллаборацию агентов)
• Эффекты каскадных сбоев в системах

И надо отметить, что на рынке появляются практики и системы, реализующие эти практики, которые направлены на мотивацию и снижение этих рисков, такие как:

• Guardrails и точное задание целей
• Непрерывный мониторинг поведения
• Human-in-the-loop и контроль критических решений
• Adversarial training и red teaming
• Ролевая модель доступа и границы полномочий
• Политики управления памятью
• Аудит, логирование и объяснимость действий

Если вы планируете внедрять ИИ в корпоративные процессы — рекомендую прочитать этот отчет целиком. Он точно стоит вашего времени.
NotebookLM

На днях обратил внимание на то, что для мобилки вышло отдельное приложение NotebookLM и опять обратил внимание на это решение. Какое то время назад я с ним немного поигрался, загрузил туда какой то PDF и сгенерировал диалог на тему этого документа - получилось прикольно, но в ежедневное использование не вошло.

Но сейчас инструмент оброс функциями и на самом деле дает очень интересную возможность. Основная идея - вы можете в нем сделать “проект” который соответствует какой то предметной области вашего интереса (например, “управление данными”), загрузить в проект разные документ, ученики, книги, ссылки, ролики и тд, которые вы сами выбрали для себя как интересные и доверенные источники информации и дальше работать с ними как с ChatGPT, задавая вопросы, делая выводы, исследования, заметки - но использую не “общие” знания LLM обученные неизвестно на чем, а конкретные значения из выбранных вами источников.

Вот на хабре еще хорошая статья с описанием практик и методик: https://habr.com/ru/articles/910186/
Редакция грустит о закрытии сервиса Pocket, которым пользовалась много лет что бы готовить еженедельные дайджесты. Хотя еще в прошлом году перешел на raindrop.io, все равно жаль что хорошие сервисы закрываются.

Фишкой pocket была возможность скачивать контент в offline на устройство и читать в самолет и прочих метро. Ни в одном другом сервиса такого я так и не нашел :(
В копилку
Forwarded from Big Data AI
📊 Free LLM API Resources — бесплатные облачные модели для разработчиков. Для тех, кто хочет экспериментировать с LLM без затрат на API, появился исчерпывающий гайд по бесплатным ресурсам. В списке — десятки провайдеров с лимитами от 50 запросов в день до 1 млн токенов.

Из них можно выделить:
— Google AI Studio с Gemini 1.5 Flash (500 запросов/день)
— Mistral La Plateforme — доступ к Codestral и другим фирменным моделям
— Cloudflare Workers AI — 10k нейронов ежедневно для Llama 3 и Qwen

Есть и временные кредиты: $30 у Baseten, $10 у AI21 для Jamba. Главное правило не злоупотреблять, иначе бесплатные лимиты могут исчезнуть.

🤖 GitHub

@bigdatai
2025/06/29 18:44:38
Back to Top
HTML Embed Code: