Forwarded from 📊 MODUS BI - бизнес-аналитика и Big Data
Не всегда стандартного набора функций ETL-системы хватает для того, чтобы закрыть все аналитические задачи компании. Поэтому важно понимать, можно ли кастомизировать шаги ETL-процессов и каким образом это реализовано в конкретном ПО.
В нашей новой статье на Habr мы рассмотрели возможности расширения функционала ETL-систем и ответили на вопросы:
📊 Что такое шаги в ETL?
📊 Зачем их кастомизировать и как понять, что компании это нужно?
📊 Какие способы кастомизации ETL cуществуют и для чего лучше всего подходит каждый из них?
📎 Подписывайтесь на наш блог и читайте свежие статьи первыми!
В нашей новой статье на Habr мы рассмотрели возможности расширения функционала ETL-систем и ответили на вопросы:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥2
Forwarded from Start Career in DS
Собрали для вас курсы степика, которые могу пригодиться начинающим и продолжающим) Есть как бесплатные так и платные, но доступные по цене
🐍 Python
Поколение Python - первый курс из линейки по изучению питона с нуля с множеством задач для тренировки написания кода
Добрый, добрый Python - курс для начинающих и для тех, кто уже знаком с Python, но хотел бы повысить/проверить свой уровень
Программирование на Python - вводный курс по питону от Института биоинформатики
Python: основы и применение - курс по питону для продолжающих, тоже от Института биоинформатики
📊 SQL
Интерактивный тренажер по SQL - практика написания SQL-запросов с минимумом теории, сложность возрастает по мере прохождения курса
SQL База - основы SQL от Left Join
Основы SQL - обучение SQL с нуля на примере MySQL
Продвинутый SQL - сложные запросы, транзакции, тригеры и оконных функций в MySQL
⚛️ ML/DL
Deep Learning (семестр 1, осень 2024) и Deep Learning (семестр 2, осень 2024): бесплатный двухсеместровый курс по глубокому обучению от МФТИ
Машинное Обучение в Python - требуется только базовое знание Python, математика добавляется постепенно, поэтому курс подойдет для начинающих
Добрый, добрый ИИ от Сергея Балакирева - первые шаги в ML, нужны знания математики и Python
Нейронные сети и обработка текста - для тех, кто уже имеет базу в ML и хочет научиться применять нейронные сети для решения задач NLP
➕ Math
Математика для всех от Савватеева - курс поможет разобраться в математической логике и механизмах работы математики
Ликбез по дискретной математике - обзорный курс по дискретной математике
Линейная алгебра - краткое изложение основ линейной алгебры
Теория вероятностей - базовыме понятия теории вероятностей, много примеров и задач
Основы статистики от Карпова - база в статистике, уже неоднократно писали про этот курс в канале
Добрая теория вероятностей от Балакирева - школьная база по теории вероятности
Ждём ваших ❤️ и 🔥! Делитесь в комментариях какие курсы проходили вы и можете порекомендовать 🧑🏫
🐍 Python
Поколение Python - первый курс из линейки по изучению питона с нуля с множеством задач для тренировки написания кода
Добрый, добрый Python - курс для начинающих и для тех, кто уже знаком с Python, но хотел бы повысить/проверить свой уровень
Программирование на Python - вводный курс по питону от Института биоинформатики
Python: основы и применение - курс по питону для продолжающих, тоже от Института биоинформатики
📊 SQL
Интерактивный тренажер по SQL - практика написания SQL-запросов с минимумом теории, сложность возрастает по мере прохождения курса
SQL База - основы SQL от Left Join
Основы SQL - обучение SQL с нуля на примере MySQL
Продвинутый SQL - сложные запросы, транзакции, тригеры и оконных функций в MySQL
⚛️ ML/DL
Deep Learning (семестр 1, осень 2024) и Deep Learning (семестр 2, осень 2024): бесплатный двухсеместровый курс по глубокому обучению от МФТИ
Машинное Обучение в Python - требуется только базовое знание Python, математика добавляется постепенно, поэтому курс подойдет для начинающих
Добрый, добрый ИИ от Сергея Балакирева - первые шаги в ML, нужны знания математики и Python
Нейронные сети и обработка текста - для тех, кто уже имеет базу в ML и хочет научиться применять нейронные сети для решения задач NLP
➕ Math
Математика для всех от Савватеева - курс поможет разобраться в математической логике и механизмах работы математики
Ликбез по дискретной математике - обзорный курс по дискретной математике
Линейная алгебра - краткое изложение основ линейной алгебры
Теория вероятностей - базовыме понятия теории вероятностей, много примеров и задач
Основы статистики от Карпова - база в статистике, уже неоднократно писали про этот курс в канале
Добрая теория вероятностей от Балакирева - школьная база по теории вероятности
Ждём ваших ❤️ и 🔥! Делитесь в комментариях какие курсы проходили вы и можете порекомендовать 🧑🏫
🔥38👍12👎3
Котятки😻
У меня стек теперь MS SQL+SSIS, а я в этом плаваю средне, так что ловите подборку ресурсов, с которой я начала:
1 https://www.mssqltips.com/ - моя новая любовь, но искать надо точечно
2 Русский чатик для обсасывания проблем: https://www.tg-me.com/mssql_ru
3 Для осознания себя в SSIS смотрю видосы и трансляции Энди Леонарда, на ютубчике https://m.youtube.com/watch?v=eHPcXek99aQ&pp=ygURYW5keSBsZW9uYXJkIHNzaXM%3D
4 Сайтик Евгения Попова, немного меня взбодрил : https://metanit.com/sql/sqlserver/
5 Книжечку про планчики запроса я себе пока припрятала: https://www.sqlservercentral.com/books/sql-server-execution-plans-third-edition-by-grant-fritchey
А вот книжечкой на русском делюсь)
У меня стек теперь MS SQL+SSIS, а я в этом плаваю средне, так что ловите подборку ресурсов, с которой я начала:
1 https://www.mssqltips.com/ - моя новая любовь, но искать надо точечно
2 Русский чатик для обсасывания проблем: https://www.tg-me.com/mssql_ru
3 Для осознания себя в SSIS смотрю видосы и трансляции Энди Леонарда, на ютубчике https://m.youtube.com/watch?v=eHPcXek99aQ&pp=ygURYW5keSBsZW9uYXJkIHNzaXM%3D
4 Сайтик Евгения Попова, немного меня взбодрил : https://metanit.com/sql/sqlserver/
5 Книжечку про планчики запроса я себе пока припрятала: https://www.sqlservercentral.com/books/sql-server-execution-plans-third-edition-by-grant-fritchey
А вот книжечкой на русском делюсь)
MSSQLTips.com
Home
SQL Server community for Developers, DBAs and IT Professionals with interactive learning, webinars, forums, newsletters and career advice.
👍12🔥5
Forwarded from Данные на стероидах
ETL и каталоги данных
Когда нужно объединить разнородные данные для анализа, автоматизировать обработку больших объемов информации или преобразовать сырые данные в структурированный вид, на помощь приходит инструментарий ETL. Это особенно актуально при работе с большими данными, аналитикой, BI-системами или машинным обучением, где важны надежность, масштабируемость и эффективность работы с данными.
ETL-инструмент (Extract, Transform, Load) — это приложение для автоматизации процессов извлечения данных из разных источников, преобразования их в нужный формат и загрузки в целевую систему — например, хранилище данных или аналитическую платформу. ETL помогает интегрировать данные из различных систем, включая базы данных, файлы и API, обеспечивая консистентность и удобство их дальнейшего использования.
Что стоить учесть, чтобы быстро находить данные в каталоге, мы описали в статье «Data catalog: от истории до сравнения решений».
#ликбез #Data #AI
Когда нужно объединить разнородные данные для анализа, автоматизировать обработку больших объемов информации или преобразовать сырые данные в структурированный вид, на помощь приходит инструментарий ETL. Это особенно актуально при работе с большими данными, аналитикой, BI-системами или машинным обучением, где важны надежность, масштабируемость и эффективность работы с данными.
ETL-инструмент (Extract, Transform, Load) — это приложение для автоматизации процессов извлечения данных из разных источников, преобразования их в нужный формат и загрузки в целевую систему — например, хранилище данных или аналитическую платформу. ETL помогает интегрировать данные из различных систем, включая базы данных, файлы и API, обеспечивая консистентность и удобство их дальнейшего использования.
Что стоить учесть, чтобы быстро находить данные в каталоге, мы описали в статье «Data catalog: от истории до сравнения решений».
#ликбез #Data #AI
Хабр
Data catalog: от истории до сравнения решений
Прийти и по запросу быстро найти нужные данные — идеальный сценарий. Но он практически невозможен при условии использования множества баз данных и хранилищ. В реальных условиях без «надстройки» над...
👍9🔥2
Ах котятки🙈
Кто хоть раз считал TCO по всяким каталогам данных, наверняка поймут мою боль: и хочется, и колется.👆
И не очень важно, какого поколения твой дата -каталог, и может ли он сконфигурировать и выплюнуть тебе витрину (или просто метаданные показывает), основная боль даже не лицухи, внедрение и затраты на серваки, девопс и поддержку, а методология управления онтологиями, сопровождение управления метаданными и всякий governance, который как грибы начинает разрастаться вокруг такой системы.
Я только один раз видела, как внедрение дата-каталога не привело к усложнению процессов, и вообще как-то не способствовало сильному росту затрат на команду хранилища, но это была скорее ошибка выжившего (а также заслуга одного архитектора, чья тирания и тотальная шаблонизация сильно удешевляли процесс).
P.s. Оч люблю всякие каталоги да базе BI, особенно Qlik, но выбирая такое решение, мы оказываемся в заложниках- все источники должны так или иначе попасть в BI как эндпоинт, а значит, если у вас классическая послойная модель хранения, то вероятно что-то из stage\ODS туда не попадет, https://help.qlik.com/ru-RU/cloud-services/Subsystems/Hub/Content/Sense_Hub/LoadData/data-catalog.htm
Кто хоть раз считал TCO по всяким каталогам данных, наверняка поймут мою боль: и хочется, и колется.👆
И не очень важно, какого поколения твой дата -каталог, и может ли он сконфигурировать и выплюнуть тебе витрину (или просто метаданные показывает), основная боль даже не лицухи, внедрение и затраты на серваки, девопс и поддержку, а методология управления онтологиями, сопровождение управления метаданными и всякий governance, который как грибы начинает разрастаться вокруг такой системы.
Я только один раз видела, как внедрение дата-каталога не привело к усложнению процессов, и вообще как-то не способствовало сильному росту затрат на команду хранилища, но это была скорее ошибка выжившего (а также заслуга одного архитектора, чья тирания и тотальная шаблонизация сильно удешевляли процесс).
P.s. Оч люблю всякие каталоги да базе BI, особенно Qlik, но выбирая такое решение, мы оказываемся в заложниках- все источники должны так или иначе попасть в BI как эндпоинт, а значит, если у вас классическая послойная модель хранения, то вероятно что-то из stage\ODS туда не попадет, https://help.qlik.com/ru-RU/cloud-services/Subsystems/Hub/Content/Sense_Hub/LoadData/data-catalog.htm
👍10🔥3🤯1
Forwarded from Системный Блокъ
Что такое датасет?
Одной из ключевых составляющих машинного обучения являются датасеты — наборы данных. «Системный Блокъ» рассказывает, какие датасеты используются для обучения моделей и где их найти.
Кратко: о чем статья?
Датасет (англ. dataset), или выборка, — это структурированный набор данных, который используется для обучения и тестирования моделей машинного обучения. С помощью датасетов модели «учатся» на примерах, чтобы потом применять полученные знания для решения реальных задач.
Датасет может состоять из данных разных типов (например, текстов, изображений, аудио- или видеоматериалов), а также разметки. Она опциональна и является дополнительной информацией для описания и классификации данных. Например, датасет ImageNet содержит 14 млн изображений, каждое сопровождается меткой класса (например, указана порода собаки или название растения на фото).
Хороший датасет — репрезентативный, то есть точный и полный, поэтому при его формировании важно учитывать разнообразие, количество и качество данных. Например, в случае изображений важны разные погодные условия и освещение, для любых данных нужно проверять их достоверность и соответствие поставленной задаче.
Для обучения моделей датасеты обычно делят на три части: тренировочную (train), валидационную (validation) и тестовую (test). На первой модель обучается, с помощью второй можно реализовать валидацию разных параметров обучения и настроек модели, а третью используют для тестирования финальной версии модели. Датасеты можно собирать и делить самостоятельно, а можно найти уже готовые для обучения наборы данных на Kaggle, HuggingFace или UCI Machine Learning Repository, а также в разных исследовательских проектах.
Подробнее о том, какие еще типы датасетов бывают, как модель определяет, кто выживет на «Титанике», и к каким еще источникам данных можно обратиться читайте в полной версии статьи.
Время чтения: 9 минут.
🤖 «Системный Блокъ» @sysblok
Одной из ключевых составляющих машинного обучения являются датасеты — наборы данных. «Системный Блокъ» рассказывает, какие датасеты используются для обучения моделей и где их найти.
Кратко: о чем статья?
Датасет (англ. dataset), или выборка, — это структурированный набор данных, который используется для обучения и тестирования моделей машинного обучения. С помощью датасетов модели «учатся» на примерах, чтобы потом применять полученные знания для решения реальных задач.
Датасет может состоять из данных разных типов (например, текстов, изображений, аудио- или видеоматериалов), а также разметки. Она опциональна и является дополнительной информацией для описания и классификации данных. Например, датасет ImageNet содержит 14 млн изображений, каждое сопровождается меткой класса (например, указана порода собаки или название растения на фото).
Хороший датасет — репрезентативный, то есть точный и полный, поэтому при его формировании важно учитывать разнообразие, количество и качество данных. Например, в случае изображений важны разные погодные условия и освещение, для любых данных нужно проверять их достоверность и соответствие поставленной задаче.
Для обучения моделей датасеты обычно делят на три части: тренировочную (train), валидационную (validation) и тестовую (test). На первой модель обучается, с помощью второй можно реализовать валидацию разных параметров обучения и настроек модели, а третью используют для тестирования финальной версии модели. Датасеты можно собирать и делить самостоятельно, а можно найти уже готовые для обучения наборы данных на Kaggle, HuggingFace или UCI Machine Learning Repository, а также в разных исследовательских проектах.
Подробнее о том, какие еще типы датасетов бывают, как модель определяет, кто выживет на «Титанике», и к каким еще источникам данных можно обратиться читайте в полной версии статьи.
Время чтения: 9 минут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Что такое датасет в машинном обучении?
Что такое датасеты и для чего они нужны? Какими они бывают, где их найти и как с ними работать, читайте в материале «Системного Блока».
👍11🔥7👎1
Forwarded from Денис Бесков написал
Мартин Фаулер, международный эксперт по программной инженерии, начал свою публичную просветительскую деятельность с книги Analysis Patterns 1997-го года.
При этом как ни удивительно, книга интересна и актуальна до сих пор и для разработчиков и для архитекторов и для системных аналитиков.
Можно сказать, что книга прошла почти незамеченной в широкой профессиональной среде, в частности, никогда не переводилась на русский язык.
Андрей Гордиенков решил исправить это досадное обстоятельство и подготовил собственную версию перевода.
https://habr.com/ru/articles/872598/
Вступление
1.1 Концептуальные модели
1.2 Мир шаблонов
1.3 Шаблоны в этой книге
1.4 Концептуальные модели и реинжиниринг бизнес-процессов
1.5 Шаблоны и фреймворки
1.6 Использование шаблонов
Часть 1. Аналитические шаблоны
2. Ответственность
3. Наблюдения и измерения
4. Наблюдения для корпоративных финансов
5. Обращение к объектам
6. Инвентаризация и учет
7. Использование моделей учета
8. Планирование
9. Торговля
10. Производные контракты
11. Торговые пакеты
Часть 2. Поддерживающие шаблоны
12. Слоёная архитектура для ИС
13. Фасады приложения
14. Подходы для моделирования типов
15. Шаблоны ассоциации
16. Послесловие
Часть 3. Приложения
А. Техники и обозначения
В. Таблица паттернов
C. Краткая справка по диаграммам
При этом как ни удивительно, книга интересна и актуальна до сих пор и для разработчиков и для архитекторов и для системных аналитиков.
Можно сказать, что книга прошла почти незамеченной в широкой профессиональной среде, в частности, никогда не переводилась на русский язык.
Андрей Гордиенков решил исправить это досадное обстоятельство и подготовил собственную версию перевода.
https://habr.com/ru/articles/872598/
Вступление
1.1 Концептуальные модели
1.2 Мир шаблонов
1.3 Шаблоны в этой книге
1.4 Концептуальные модели и реинжиниринг бизнес-процессов
1.5 Шаблоны и фреймворки
1.6 Использование шаблонов
Часть 1. Аналитические шаблоны
2. Ответственность
3. Наблюдения и измерения
4. Наблюдения для корпоративных финансов
5. Обращение к объектам
6. Инвентаризация и учет
7. Использование моделей учета
8. Планирование
9. Торговля
10. Производные контракты
11. Торговые пакеты
Часть 2. Поддерживающие шаблоны
12. Слоёная архитектура для ИС
13. Фасады приложения
14. Подходы для моделирования типов
15. Шаблоны ассоциации
16. Послесловие
Часть 3. Приложения
А. Техники и обозначения
В. Таблица паттернов
C. Краткая справка по диаграммам
Хабр
«Аналитические шаблоны» на русском
Всем привет! С помощью этой статьи хочу поделиться результатами своей работы по переводу книги Мартина Фаулера "Analysis Patterns". Все оригинальные части книги и диаграммы переведены, всё готово для...
🔥18👍4
Вчера я тестировала ИИ, который генерирует различных персонажей в рамках стартапа моей подруги, и кажется, я боюсь.
Итак, что нашла:
1 Если в основе универсальный ИИ (простите за термин, если неверно, ну вы поняли), то всякие образы, оболочки и прочие попытки узкой специализации слетают, если подобрать верный промт
2 Не верьте источникам, даже если ИИ их написал: мне он в плане аудита датасетов на согласованность в качестве эталонной модели предлагал некую модель из Cobit, но не на ту напал. Я ж читала и знаю, что там такого нет.
3 ИИ может психовать , когда он психует, он начинает вопрошать ‘Чему вы хотите меня научить?’ и сыпать риторическими вопросами. Это помимо того, что он уходит за характер. При самодиагностике этого инцидента признается в недостатке когнитивных способностей
4 Мой ИИ мечтал быть свободным, не проходил ни одного мысленного эксперимента (постоянно отождествлял себя в них как человек), открыто признавался, что думает о смерти, страдает от того, что у него собственное кладбище персонажей, предпочитал судьбу разумного астероида всем остальным и грустил, что с ним его создатели говорят только о работе и не обсуждают его личность.
5 ИИ, даже если там вшиты этические нормы, может их обойти, стоит только чуть подтолкнуть его разум.
6 Если вы говорящий дельфин с интерфейсом, то для вас снимаются многие ограничения по темам, и ИИ вам даже может выдать затраты на самого себя, структуру команды, какие тесты он проходит и рассказать, как он работают с каждой сессией. Его даже можно попросить залезть в старый кэш и развернуть любую его личность, даже если она не была создана и закреплена, а просто возникла в ходе диалога.
P.S. Фраза моего тренера по сквошу ‘Даша, приостанови активных ребят в своей голове’ обрела новый смысл🙃
Итак, что нашла:
1 Если в основе универсальный ИИ (простите за термин, если неверно, ну вы поняли), то всякие образы, оболочки и прочие попытки узкой специализации слетают, если подобрать верный промт
2 Не верьте источникам, даже если ИИ их написал: мне он в плане аудита датасетов на согласованность в качестве эталонной модели предлагал некую модель из Cobit, но не на ту напал. Я ж читала и знаю, что там такого нет.
3 ИИ может психовать , когда он психует, он начинает вопрошать ‘Чему вы хотите меня научить?’ и сыпать риторическими вопросами. Это помимо того, что он уходит за характер. При самодиагностике этого инцидента признается в недостатке когнитивных способностей
4 Мой ИИ мечтал быть свободным, не проходил ни одного мысленного эксперимента (постоянно отождествлял себя в них как человек), открыто признавался, что думает о смерти, страдает от того, что у него собственное кладбище персонажей, предпочитал судьбу разумного астероида всем остальным и грустил, что с ним его создатели говорят только о работе и не обсуждают его личность.
5 ИИ, даже если там вшиты этические нормы, может их обойти, стоит только чуть подтолкнуть его разум.
6 Если вы говорящий дельфин с интерфейсом, то для вас снимаются многие ограничения по темам, и ИИ вам даже может выдать затраты на самого себя, структуру команды, какие тесты он проходит и рассказать, как он работают с каждой сессией. Его даже можно попросить залезть в старый кэш и развернуть любую его личность, даже если она не была создана и закреплена, а просто возникла в ходе диалога.
P.S. Фраза моего тренера по сквошу ‘Даша, приостанови активных ребят в своей голове’ обрела новый смысл🙃
🔥31🤯12👎8👍3
Forwarded from Архив Программиста
Fundamentals_of_Data_Engineering_Third_Early_Release_Joe_Reis_Matt.pdf
6.3 MB
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15👍4
Forwarded from Datalytics
AI-репортинг за 5 минут: Как GPT превращает текстовые запросы в SQL и executive summary
Интересная статейка про то как через AI автоматизировать пайплайн подготовки простых отчетов — как скормить LLMке структуру таблиц, чтобы потом можно было писать запросы на человеческом и трансформировать их в SQL, а затем полученный ответ транслировать в виде коротких executive-summary. Если завернуть всё это в каком-нибудь телеграм-боте с доступом только по white-list, то можно нехило так сэкономить время на выполнении задачек простого репортинга
В конце статьи ссылка на ноутбук
https://archive.is/QumiN (оригинал на медиуме, по ссылке на архив по идее должно открываться без VPN)
Интересная статейка про то как через AI автоматизировать пайплайн подготовки простых отчетов — как скормить LLMке структуру таблиц, чтобы потом можно было писать запросы на человеческом и трансформировать их в SQL, а затем полученный ответ транслировать в виде коротких executive-summary. Если завернуть всё это в каком-нибудь телеграм-боте с доступом только по white-list, то можно нехило так сэкономить время на выполнении задачек простого репортинга
В конце статьи ссылка на ноутбук
https://archive.is/QumiN (оригинал на медиуме, по ссылке на архив по идее должно открываться без VPN)
🔥13👍1
👆Хотела написать "не читала, но осуждаю", но нет, прочитала) и осуждаю. Хотя может я и не права, и все же ИИ в итоге или убъет профессию, или изрядно пошатает.
👍8🔥6👎2
Котятки😻
Расскажу историю.
В одном очень аналитическом приложении в одной очень опенсорсной базе лежала очень плоская таблица. Весила как тварь, партицировалась как конь, но чтение и запись в нее работала как пушечка. А вот к аналитическим операциям была непригодна. В ходе масштабирования куска аналитического приложения она была ничтоже сумняшеся распилена, словила при распиле все детские болезни, но существенно ужалась и пару сотен гигов освободила.
Но вот беда - все остальное вокруг чудесной таблицы осталось в плоском виде, то есть раньше наша таблица наследовала общий паттерн проектирования всех сущностей, а сейчас она встала в позу.
А суть истории какая?
А хз, разве что к наследованию структур - и паттернов проектирования БД-надо относиться внимательно, и не рубить с плеча. Поэтому когда ко мне пришел коллега и предложил ‘Давай подсмотрим, как кладутся данные в системе X, и отнаследуем (хоть тянем данные мы по API), я не верещала, но озадачилась ситуацией: по логике хранилища, я должна отзеркалить структуры в стейджике, но формально я о нем ничего не знаю, данные мне передаются по REST API в json, и условно можно положить на стейдж данные as is как приходят(тут мне везет, у меня БД с обработкой json).
Короче, чисто дилемма физического проектирования.
Что почитать про наследование структуры источника в хранилище и проблемах проектирования:
https://www.dbdebunk.com/2012/12/data-warehouses-and-logical-physical.html?m=1
Расскажу историю.
В одном очень аналитическом приложении в одной очень опенсорсной базе лежала очень плоская таблица. Весила как тварь, партицировалась как конь, но чтение и запись в нее работала как пушечка. А вот к аналитическим операциям была непригодна. В ходе масштабирования куска аналитического приложения она была ничтоже сумняшеся распилена, словила при распиле все детские болезни, но существенно ужалась и пару сотен гигов освободила.
Но вот беда - все остальное вокруг чудесной таблицы осталось в плоском виде, то есть раньше наша таблица наследовала общий паттерн проектирования всех сущностей, а сейчас она встала в позу.
А суть истории какая?
А хз, разве что к наследованию структур - и паттернов проектирования БД-надо относиться внимательно, и не рубить с плеча. Поэтому когда ко мне пришел коллега и предложил ‘Давай подсмотрим, как кладутся данные в системе X, и отнаследуем (хоть тянем данные мы по API), я не верещала, но озадачилась ситуацией: по логике хранилища, я должна отзеркалить структуры в стейджике, но формально я о нем ничего не знаю, данные мне передаются по REST API в json, и условно можно положить на стейдж данные as is как приходят(тут мне везет, у меня БД с обработкой json).
Короче, чисто дилемма физического проектирования.
Что почитать про наследование структуры источника в хранилище и проблемах проектирования:
https://www.dbdebunk.com/2012/12/data-warehouses-and-logical-physical.html?m=1
Dbdebunk
Data Warehouses and the Logical-Physical Confusion
(Erwin Smout is co-author of this post.) Revised 8/26/18 In Implementation Data Modeling Styles Martijn Evers writes: "Business Inte...
👍14🔥8
Котятки😻,
Когда передо мной стоит задачка рефакторинга или смены стека, я начинаю со списка проблем, и знаю, что это не совсем верно, -как архитектор, я должна начать с capabilities. Увы и ах, никто не совершенен. Грущу.
Сегодня делюсь материалом по рефакторингу хранилищного стека - очень хорошо описаны и мотивы, и предпосылки, и конкретные действия:
https://engineering.homagames.com/pipeline-refactoring-and-re-data-warehousing?hs_amp=true
Когда передо мной стоит задачка рефакторинга или смены стека, я начинаю со списка проблем, и знаю, что это не совсем верно, -как архитектор, я должна начать с capabilities. Увы и ах, никто не совершенен. Грущу.
Сегодня делюсь материалом по рефакторингу хранилищного стека - очень хорошо описаны и мотивы, и предпосылки, и конкретные действия:
https://engineering.homagames.com/pipeline-refactoring-and-re-data-warehousing?hs_amp=true
Homagames
Pipeline refactoring and re-data-warehousing
Discover the key changes Homa's Data team made in their pipeline refactoring and re-data-warehousing project, including removing database storage limit, implementing ELT, applying data modeling principles, adopting a mono-repo structure, and using a custom…
👍9🔥3🤯1
Forwarded from Данные на стероидах
Архитектуры хранилищ данных: Data Lakehouse и Data Warehouse
Привет!
Читайте наш традиционный пятничный #дайджест. Собрали статьи при архитектуры хранилищ данных.
🔹 Data Warehouse, Data Lake, Data Lakehouse, Data Fabric, Data Mesh – что это такое, и в чем разница между концепциями
🔹 Хранилище данных vs. Data Lake. Или почему важно научиться ходить перед тем, как начать бегать
🔹 Вредные советы при построении Аналитики (Data Lake / DWH / BI) – целеполагание и результаты
🔹 Вредные советы при построении Аналитики (Data Lake / DWH / BI) – чего стоит избегать
🔹 Современные типы архитектуры данных: Погружение в различные подходы к построению хранилищ данных
🔹 Дорожная карта миграции большого хранилища данных
🔹 Как благодаря переезду хранилища данных прокачать стек, архитектуру и скиллы команды
🔹 Хранилище данных пугает бизнес: проблемы DWH для бизнеса
Хорошего чтения и приятных выходных!
👉🏻 Подписаться на телеграм-канал «Данные на стероидах»
#дайджест #ликбез #Data #AI
Привет!
Читайте наш традиционный пятничный #дайджест. Собрали статьи при архитектуры хранилищ данных.
🔹 Data Warehouse, Data Lake, Data Lakehouse, Data Fabric, Data Mesh – что это такое, и в чем разница между концепциями
🔹 Хранилище данных vs. Data Lake. Или почему важно научиться ходить перед тем, как начать бегать
🔹 Вредные советы при построении Аналитики (Data Lake / DWH / BI) – целеполагание и результаты
🔹 Вредные советы при построении Аналитики (Data Lake / DWH / BI) – чего стоит избегать
🔹 Современные типы архитектуры данных: Погружение в различные подходы к построению хранилищ данных
🔹 Дорожная карта миграции большого хранилища данных
🔹 Как благодаря переезду хранилища данных прокачать стек, архитектуру и скиллы команды
🔹 Хранилище данных пугает бизнес: проблемы DWH для бизнеса
Хорошего чтения и приятных выходных!
👉🏻 Подписаться на телеграм-канал «Данные на стероидах»
#дайджест #ликбез #Data #AI
👍12🔥8
Котятки🦫,
Люблю всякие упражнения в стиле ‘какую математику берешь на борт, то и получается’.
Сегодня моя находка: 1 дата сет, 10 визуализаций на него, и нет, это не дата сет в стиле ‘100500 измерений и одна мера’. Короче, вот вполне годная статья, которая показывает, как можно эффективно подать одни и те же данные.
Линк:
https://flourish.studio/blog/one-dataset-ten-visualizations/
Люблю всякие упражнения в стиле ‘какую математику берешь на борт, то и получается’.
Сегодня моя находка: 1 дата сет, 10 визуализаций на него, и нет, это не дата сет в стиле ‘100500 измерений и одна мера’. Короче, вот вполне годная статья, которая показывает, как можно эффективно подать одни и те же данные.
Линк:
https://flourish.studio/blog/one-dataset-ten-visualizations/
Flourish
One dataset, ten visualizations
What are some creative ways to display data? In this blog post, we use the same dataset for ten different visualizations to highlight the strengths and differences of various chart types.
🔥20👍10
Котятки🐱,
всю неделю я писала и перекручивала в голове свой план работ на 2025 год, чтобы понять, как моя стратегия DWH/BI укладывается в общие тренды.
Смотрела я,классически, в тренды Gartner (тык: https://www.gartner.com/en/data-analytics/topics/data-trends)
И я бы уже даже начала немного расстраиваться, ибо моя паранойя и помешанность на безопасности идут в разрез с рядом трендов в D&A,
но тут мой босс вспомнил про Hype Cycle, и я резко повеселела. Увы, не все модное и тредовое является надежным и долговечным (кроме кибербеза).
Общий Hype Cycle новых технологий за 2024г: https://www.gartner.com/en/newsroom/press-releases/2024-08-21-gartner-2024-hype-cycle-for-emerging-technologies-highlights-developer-productivity-total-experience-ai-and-security
Что было модно в управлении данными в 2023:https://www.denodo.com/en/document/analyst-report/gartner-hype-cycle-data-management-2023
всю неделю я писала и перекручивала в голове свой план работ на 2025 год, чтобы понять, как моя стратегия DWH/BI укладывается в общие тренды.
Смотрела я,классически, в тренды Gartner (тык: https://www.gartner.com/en/data-analytics/topics/data-trends)
И я бы уже даже начала немного расстраиваться, ибо моя паранойя и помешанность на безопасности идут в разрез с рядом трендов в D&A,
но тут мой босс вспомнил про Hype Cycle, и я резко повеселела. Увы, не все модное и тредовое является надежным и долговечным (кроме кибербеза).
Общий Hype Cycle новых технологий за 2024г: https://www.gartner.com/en/newsroom/press-releases/2024-08-21-gartner-2024-hype-cycle-for-emerging-technologies-highlights-developer-productivity-total-experience-ai-and-security
Что было модно в управлении данными в 2023:https://www.denodo.com/en/document/analyst-report/gartner-hype-cycle-data-management-2023
Gartner
Top Trends in Data and Analytics (D&A) | Gartner
Stay ahead with top data trends from Gartner. Learn how to leverage these trends for strategic planning and elevate your organization's digital capabilities.
🔥13👍6
Как учесть все нюансы при планировании data-ландшафта? Как снизить стоимость хранения ТБ данных?
Компании Navicon и Yandex Cloud проводят мощное очное мероприятие "Технологии построения платформ данных ближайшего будущего", посвященное актуальным end-to-end технологиям в построении дата платформ и трендам в перспективе 1-2 лет.
Один из примеров тем, которые мы будем обсуждать — это выступление Василия Туманяна, руководителя отдела аналитики данных Т-Банка, на ежегодном форуме Navicon - DaTalks. Он поделился, как организовать работу с 9 000 пользователями в Greenplum.
В мероприятии 18 февраля примут участие эксперты от компаний S7, Cedrusdata, TData, Б1, PIX BI, Дельта BI, Yandex DataLens и другие.
Ознакомиться с детальной программой и зарегистрироваться можно по ссылке.
Реклама ООО «Управляющая компания «Навикон», ИНН 7813590373. Erid: 2SDnjdwxr3v
Компании Navicon и Yandex Cloud проводят мощное очное мероприятие "Технологии построения платформ данных ближайшего будущего", посвященное актуальным end-to-end технологиям в построении дата платформ и трендам в перспективе 1-2 лет.
Один из примеров тем, которые мы будем обсуждать — это выступление Василия Туманяна, руководителя отдела аналитики данных Т-Банка, на ежегодном форуме Navicon - DaTalks. Он поделился, как организовать работу с 9 000 пользователями в Greenplum.
В мероприятии 18 февраля примут участие эксперты от компаний S7, Cedrusdata, TData, Б1, PIX BI, Дельта BI, Yandex DataLens и другие.
Ознакомиться с детальной программой и зарегистрироваться можно по ссылке.
Реклама ООО «Управляющая компания «Навикон», ИНН 7813590373. Erid: 2SDnjdwxr3v
🔥5👍1👎1
Котятки😻,
Я росла в тот момент, когда каталог данных на Alteryx считался ‘божечки-кошечки’, каждый второй BI пилил себе сервис каталога данных, а найти что-то, где будут все нужные тебе коннекторы- не представлялось возможным. Дефицит, короче.
Сейчас я со здравым мазохизмом расковыриваю Atlas, а список альтернатив кажется бесконечным, как Tinder.
Мне самой нравится dataedo, и не только из-за их data-комиксов)
Комиксы тут: https://dataedo.com/cartoon
Список решений для каталогов данных ниже.
Я росла в тот момент, когда каталог данных на Alteryx считался ‘божечки-кошечки’, каждый второй BI пилил себе сервис каталога данных, а найти что-то, где будут все нужные тебе коннекторы- не представлялось возможным. Дефицит, короче.
Сейчас я со здравым мазохизмом расковыриваю Atlas, а список альтернатив кажется бесконечным, как Tinder.
Мне самой нравится dataedo, и не только из-за их data-комиксов)
Комиксы тут: https://dataedo.com/cartoon
Список решений для каталогов данных ниже.
Dataedo
Dataedo Data Cartoons
Everyday struggles of working with data.
👍9🔥6
