Telegram Web Link
Дайджест статей

Uber Data Tech Stack
https://www.junaideffendi.com/p/uber-data-tech-stack?r=15862q&utm_medium=ios&triedRedirect=true&hide_intro_popup=true

The AI Wake-Up Call for Data Engineers: Why LLMs + MCP Matter Now
https://medium.com/data-engineering-space/the-ai-wake-up-call-for-data-engineers-why-llms-mcp-matter-now-af71faef36b8

Какую архитектуру данных мне выбрать? — Подход Data-инженера. Часть 1
https://habr.com/ru/companies/otus/articles/911874/

Let’s build a data platform like Spotify!
https://blog.det.life/lets-build-a-data-platform-like-spotify-f189288ad1ed

Enhancing Business Decision-Making Through Advanced Data Visualization Techniques
https://dzone.com/articles/advanced-data-visualization-techniques-for-business

Каталог данных: что за зверь и с чем его едят
https://habr.com/ru/companies/sportmaster_lab/articles/911880/

How to Build Real-Time BI Systems: Architecture, Code, and Best Practices
https://dzone.com/articles/how-to-build-real-time-bi-systems-architecture-cod

Повышаем эффективность хранения данных до 300 раз с помощью таблиц SCD-2
https://habr.com/ru/companies/X5Tech/articles/911716/

Китайская ИИ-революция и развитие BI: чему нам стоит поучиться
https://habr.com/ru/companies/glowbyte/articles/911310/

SRE в инженерии данных: профессия и ее перспективы
https://habr.com/ru/articles/911656/

10 советов для бизнеса о том, как пользоваться BI-инструментами
https://habr.com/ru/companies/bitrix/articles/910594/
Comparing Analytics Engines

Очень интересный материал и хорошим сравнением нескольких аналитических движков. Редакция активно использует ClickHouse, но интересно было почитать и о других решениях. Очевидно, что универсального подхода к выбору лучшего движка для аналитических задач не существует, поэтому всегда полезно расширить кругозор.

Авторы предлагаю следующую классификацию для OLAP DB: General Purpose Engines (Spark), Interactive SQL Engines (Presto, Trino), and Realtime OLAP Engines (ClickHouse, StarRocks)

Кстати, StarRocks имеет на удивление самый высокий metascore. Spark - самый старый и в целом уже с legacy концепцией работы поверх map reduce - раза в 3 меньше по рейтингу, хотя он наименее требовательный к дискам и у него самая лучшая поддержка различными библиотеками для работы и наиболее развитая экосистема. Presto - самый масштабируемый, а Concurrency лучше всех справляется с конкурентными запросами. Clickhouse, в свою очередь, имеет наилучшую коммерческую поддержку.

В статье содержится довольно подробное сравнение движком по каждому пункту выше и ссылки на хороше use cases.

https://www.onehouse.ai/blog/apache-spark-vs-clickhouse-vs-presto-vs-starrocks-vs-trino-comparing-analytics-engines
Простите за оффтоп, но идея свалить с этой планеты с каждым годом становится все более актуальной, так что приходится внимательно отслеживать прогресс в SpaceTech (как некотрые внимательные читатели нашего канала, наверное, успели заметить 🙂 )

https://www.wsj.com/science/space-astronomy/spacex-starship-mars-military-elon-musk-3240c18d
Arc

Редакция грустит о планируемом закрытии проекта Arc. Я уже привык в целом к этому браузеру, у меня много удобных spaces, закладочки, страницы и удобная навигация по табам слева. Но команда, как видно из этой статьи, не удовлетворена результатов и охватом пользователей.

Arc остался узкоспециализированным, но не массовым, инструментов для гиков. Слишком сложный в освоении и переходе.

Пара фактов:
⁃ Only 5.52% of DAUs use more than one Space regularly - а я вот это как раз люблю
⁃ Only 4.17% use Live Folders (я хрен знает что это вообще 🙂 )

В общем они все переключатся на Dia - некое абсолютно новое переосмысление браузера. Вообще кажется что они тут опять “опередят рынок и умрут раньше чем пользователи будут готовы изменить своей мышление”. Ну поглядим.

https://browsercompany.substack.com/p/letter-to-arc-members-2025
Прекрасную познавательную лекцию «Энигма искусственного интеллекта» с отличными интерактивными элементами провел сегодня Михаил Бурцев.
Data Platform Fundamentals eBook.pdf
4 MB
Небольшая брошюра Data Platform Fundamentals от Dagster
Редакции удалось побывать на лекции «Discourse: Digital intelligence vs biological intelligence» нобелевского лауреата Джефри Хинтона о будущем искусственного интеллекта.

Лекция проходила в историческом месте — Royal Institution в Лондоне, где вот уже более 200 лет выдающиеся учёные читают публичные лекции, формирующие облик современной науки.

Это было одновременно вдохновляюще и волнительно — услышать размышления одного из основоположников современной ИИ в том самом зале, где когда-то Майкл Фарадей демонстрировал свои опыты.

Сильное напоминание о том, что технологии развиваются, а дух научного поиска остаётся неизменным.

Мне удалось написать лекцию и сделать фото слайдов, если кому то интересно, можно попробовать сделать обзор.
Дайджест статей

От точечных решений к экосистеме: как «Национальная Лотерея» улучшает качество данных
https://habr.com/ru/companies/arenadata/articles/913478/?utm_source=habrahabr&utm_medium=rss&utm_campaign=913478

Как мы ИИ в B2B сегменте Ростелекома внедряли
https://habr.com/ru/companies/rostelecom/articles/913828/

ClickHouse как DWH: Производительность без боли и ловушки merge-таблиц
https://habr.com/ru/articles/912454/

Концепция построения централизованной аналитики
https://habr.com/ru/articles/908818/

Как консолидировать данные из разрозненных хранилищ с помощью Tarantool CDC
https://habr.com/ru/companies/vktech/articles/913352/

Объяснимый ИИ в ML и DL
https://habr.com/ru/articles/913772/

Философия защиты персональных данных: долгая дорога к безопасности
https://habr.com/ru/companies/infowatch/articles/913710/

Is Big Data Dying?
https://dzone.com/articles/is-big-data-dying
Для всех, кто интересуется или занимается разработкой рекомендательных систем — обратите внимание: Yandex опубликовал крупный открытый датасет для обучения таких моделей.

Yambda-5B — это масштабная открытая база данных, содержащая 4.79 миллиарда взаимодействий между пользователями и объектами, собранных от 1 миллиона пользователей и охватывающая 9.39 миллиона треков. В датасете представлены как неявные отклики (например, факты прослушивания), так и явные — в виде лайков и дизлайков. Кроме того, он содержит информацию о том, было ли взаимодействие органическим или вызванным рекомендацией, а также предварительно рассчитанные аудиоэмбеддинги, что позволяет использовать его для построения рекомендаций с учетом контента.

https://huggingface.co/datasets/yandex/yambda
Data Day 2025

Коллеги, обратите внимание на очень интересное мероприятие! Лидеры по работе с данными из Т-Банка, Сбера, Альфа-Банка, ГПБ, X5 Group, ПСБ, Ozon Банка, Яндекс Финтех, Ростелекома и др. компаний расскажут, как применять максимум внутренних и внешних данных для ускорения бизнеса в финтехе.

10 июля на форуме Fintech Data Day:

⁃ Тренды данных «из первых уст». На какие данные сейчас делают ставку лидеры рынка: необанки, топ классических банков, вендоры, БКИ и другие?
⁃ Инфраструктура данных. Как основные игроки выбирают фундамент технологий данных? Как строят процессы вокруг? Как выжимают максимум?
⁃ Ускорение процессов на данных в классических подходах. Гибкое управление стратегиями принятия решений.
⁃ Скорость, эксперименты и смелые подходы к работе с данными от необанков.
⁃ Круглый стол и открытая коллаборация с залом по теме совместного применения данных в финтехе (единая система скоринга, антифрода, реестра блэклистов и т.д.).

Выступают:

- Анна Казакова, Т-Банк, директор по рискам, вице-президент.
- Алексей Каширин, Альфа-Банк, Директор Центра продвинутой аналитики.
- Тигран Саркисов, X5 Group, директор по управлению данными.
- Игорь Вахламов, Газпромбанк, управляющий директор. Курирует DS/ML в Центре технологий ИИ в направлениях рисков, кредитного мошенничества и др.
- Николай Тиден, Сбер, Chief Data Scientist & Data Officer, Блок «Сеть продаж».
- Максим Травин, Т-Банк, директор по управлению данными.
- Дмитрий Рузанов, ПСБ, директор департамента продвинутой аналитики, моделирования и монетизации данных.
- Михаил Комаров, Ростелеком, Директор по развитию бизнеса Дата-кластера.
- Григорий Бокштейн, TData, Ведущий эксперт по управлению данными.
- Александр Волков, Ozon Fintech, начальник отдела моделирования банковских продуктов
и другие.

Программа и регистрация
ClickStack: A High-Performance OSS Observability Stack on ClickHouse

Обратите внимание на новый продукт ClickStack, который появился “поверх” ClickHouse и представляет собой альтернативу для Elastic.

Тут, конечно, делается сначала огромное утверждение о том, что “хотя все самые самые крупные компании давно используют ClickHouse для работы слогами” - но все таки для работы с логами все таки имхо надо иметь нормальный GUI или средство их визуализации/чтения, ибо с логами все таки работают люди и писать большие SQL запросы что бы понять, что там упало в ночи, не очень удобно.

Но в целом именно эту проблему и решила команда ClickHouse и представила интерфейс работы с логами. ClickStack, при этом, powered by HyperDX - а HyperDX это это open source платформа наблюдаемости, позволяющая командам быстро диагностировать и устранять проблемы в продакшене за счет объединения логов, метрик, трассировок и воспроизведения пользовательских сессий в одном месте, которая была приобретена ClickHouse в марте этого года.

Так что получается, купили, прикрутили с ClickHouse и переименовали. Но с другой стороны получается, что продукт не “новый” а уже довольно зрелый и проверенный. Так что может стать хорошей альтернативой Elasic особенно если в организаций, которые уже активно используют ClickHouse для аналитики.

https://clickhouse.com/blog/clickstack-a-high-performance-oss-observability-stack-on-clickhouse
Дайджест статей

Data Mesh: ожидания vs реальность
https://habr.com/ru/companies/lemana_tech/articles/913550/

ИИ-ассистент для врачей: как мы автоматизируем приём пациента на основе анализа речи и NLP
https://habr.com/ru/articles/915330/

Как сэкономить на внедрении BI и не потерять в функционале
https://habr.com/ru/companies/modusbi/articles/915538/

Нашел, проверил, убедил: как мы организовали генерацию SQL-запросов, проверку сложных данных и при чем здесь Allure
https://habr.com/ru/companies/rshb/articles/916148/

Сравнение средних значений в BI: однофакторный критерий Кохрена-Кокса
https://habr.com/ru/companies/visiology/articles/916378/

RFM, дашборды и немного магии: аналитика лояльности в ритейле
https://habr.com/ru/companies/w_code/articles/915722/

Агрегированная витрина для дэшборда
https://habr.com/ru/articles/915056/
2025-06-09 10.13.59 am.jpg
141.6 KB
Коллеги, всем привет! Обратите внимание на анонс интересного мероприятия. Хотя оно не совсем про данные, но инженерия ИТ систем - важная тема и часто является предметом внимания в нашем канале.

Сейчас мы зададим три вопроса, а вы скажите, если станет больно:

1️⃣ Разработчики боятся трогать старый код?
2️⃣ Система снова падает после релиза?
3️⃣ Никто не хочет брать ответственность за стабильность?

Уже почувствовали? 🥲

Тогда вам нужна всего одна онлайн-встреча, где мы не будем «лечить симптомы», а наконец-то устраним первопричину.

17 июня в 10:00 разберем, как устроено качество ИТ-решений на пищевых предприятиях на практике:

• От чего зависит стабильность и предсказуемость системы.
• Какие инструменты контроля действительно работают и для чего они нужны.
• Что такое автотесты, дымовые тесты, сонар и как они применяются в пищевке.
• Какие подходы уместны в разных типах проектов.
• Реальные кейсы — где ошибки стоили дорого, а где технологии себя оправдали.


👉🏻Присоединяйтесь, если больше нет сил играть в русскую рулетку и бороться с ветряными мельницами…
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/06/29 10:40:31
Back to Top
HTML Embed Code: