Telegram Web Link
Forwarded from CleverData
Платформа Max от Vk| Ваше мнение очень важно!

С 1 апреля 2025 года закон 41-ФЗ серьезно изменил правила игры: госорганам, госкомпаниям, банкам, операторам связи и крупным сервисам запрещено использовать иностранные мессенджеры (WhatsApp/Telegram) для общения с клиентами.

📌 VK Max — российское комплексное решение. Это не просто замена мессенджеру, а платформа для полноценного, многофункционального взаимодействия с вашей аудиторией.
Нам важно понять ваши маркетинговые планы относительно VK Max! Это поможет нам сделать платформу CleverData Join максимально полезной именно для вас.

➡️ Пройдите короткий анонимный опрос (всего 5 вопросов, 2 минуты): ССЫЛКА НА ОПРОС
How we built the Internal Data Warehouse at ClickHouse

Довольно интересная статья только потому что описывает реальный кейс, с цифрами, с объемами данных и тд о том как команда ClickHouse сделала себе хранилище для сбора и обработки данных о работе облачного решения ClickHouse. То есть все данные по operation ClickHouse Could попадают в ClickHouse Cloud который находится у них в ClickHouse Cloud 🙂

Тем не менее:
⁃ Размер таблицы с данными о потреблении S3 bucket 1 table ~1 Gb per hour (нормально таки)
⁃ Ребята не используют ETL - то есть все данные загружаются как есть в staging в CH и там делаются трансформации уже между staging и ODS слоем с сэмлированием до одного часа
⁃ Слой raw data тем не менее это просто S3
⁃ Из дополнительных систем - SuperSet для BI и Airflow для оркестрации загрузок
⁃ Для загрузки данных из S3 используются ClickHouse s3 table function
⁃ From the S3 bucket, data is inserted into the RAW layer in the database. This layer has the same table structure as the sources.
⁃ Очень интересный подход к “перезаливке” данных - “Большинство таблиц, которые мы используем в ClickHouse, используют движки ReplicatedReplacingMergeTree. Этот механизм позволяет нам не заботиться о дубликатах в таблицах - записи с одинаковым ключом будут удалены, и сохранится только последняя запись. Это также означает, что мы можем вставлять данные за один конкретный час столько раз, сколько потребуется - сохранится только последняя версия каждой строки. Мы также используем функцию ClickHouse "FINAL", когда таблица используется в дальнейших преобразованиях для достижения согласованности, чтобы, например, функция sum() не вычисляла строку дважды.”

Также есть интересные детали и по организации работы с Airflow и организации безопасности и контроля доступов на уровне записей

https://clickhouse.com/blog/building-a-data-warehouse-with-clickhouse
2025/07/05 19:52:19
Back to Top
HTML Embed Code: