Человек на 60% состоит из воды, а Тинькофф на 100% из масштабных ИТ-задач и ежедневных вызовов
Если ты опытный ИТ-спец, этот вызов для тебя. А решение бытовых забот берем на себя: от ультра расширенной медстраховки и юридической поддержки до компенсации питания, спорта и дополнительного обучения.
Выбрать вакансию и стать частью ИТ-команды можно тут:
https://u.tinkoff.ru/itcareer
АО «Тинькофф Банк», ИНН 7710140679
Если ты опытный ИТ-спец, этот вызов для тебя. А решение бытовых забот берем на себя: от ультра расширенной медстраховки и юридической поддержки до компенсации питания, спорта и дополнительного обучения.
Выбрать вакансию и стать частью ИТ-команды можно тут:
https://u.tinkoff.ru/itcareer
АО «Тинькофф Банк», ИНН 7710140679
Run periodic jobs in PostgreSQL
Недавно открыл для себя интересное расширение для БД PostgreSQL: pg_cron. Балалайка позволяет запускать периодические задачи внутри базы данных: SQL запросы, процедуры и т.д. Удобно, вдруг кому пригодится 💡
Недавно открыл для себя интересное расширение для БД PostgreSQL: pg_cron. Балалайка позволяет запускать периодические задачи внутри базы данных: SQL запросы, процедуры и т.д. Удобно, вдруг кому пригодится 💡
GitHub
GitHub - citusdata/pg_cron: Run periodic jobs in PostgreSQL
Run periodic jobs in PostgreSQL. Contribute to citusdata/pg_cron development by creating an account on GitHub.
На Хабре вышла статья про Airflow в Kubernetes. Статья мне понравилась, целевая аудитория это новички в кубах, которые хотят развернуть Airflow. Сам я такой деплой не использую, но мне было полезно знать как оно там работает. Напомню, что у Airflow есть официальный helm chart: https://airflow.apache.org/docs/helm-chart/stable/index.html, если вдруг вы решите копнуть эту тему чуть глубже.
Хабр
Airflow в Kubernetes. Часть 1
Приветствую! На пути инженера данных часто встречаются задачи связанные с DevOps. Одна из таких - развернуть Airflow в Kubernetes кластере. Если до этого похожего опыта работы не было, то эта задача...
Машинное обучение для начинающих
Классный бесплатный курс о машинном обучении от Microsoft: https://bit.ly/3MQmyl1
Классный бесплатный курс о машинном обучении от Microsoft: https://bit.ly/3MQmyl1
microsoft.github.io
Machine Learning for Beginners
Description
Туда же, но только про Generative AI: https://microsoft.github.io/generative-ai-for-beginners/#/
microsoft.github.io
Generative AI for Beginners
Description
На AWS появилась новая сертификация AWS Certified Data Engineer – Associate: https://aws.amazon.com/ru/certification/certified-data-engineer-associate/
Amazon
Сертифицированный инженер данных AWS, уровень Associate | Сертификация AWS
Если вы заинтересованы в преобразовании данных при помощи технологий AWS для анализа и получения полезных аналитических сведений, сдайте соответствующий бета-экзамен и среди первых получите новый сертификат. Мы предоставляем руководства по подготовке к экзаменам…
Вторая часть статьи про развёртку Apache Airflow в Kubernetes: https://habr.com/ru/articles/774924/
Хабр
Airflow в Kubernetes. Часть 2
Приветствую! В прошлой части мы развернули основные сервисы Airflow. Однако у нас остались незакрытые моменты. Такие как: Синхронизация списка DAG с удаленным репозиторием Сохранение логов Worker...
Tech predictions for 2024 and beyond | All Things Distributed
https://www.allthingsdistributed.com/2023/11/tech-predictions-for-2024-and-beyond.html
https://www.allthingsdistributed.com/2023/11/tech-predictions-for-2024-and-beyond.html
All Things Distributed
Tech predictions for 2024 and beyond
The coming years will be filled with innovation in areas designed to democratize access to technology and help us keep up with the increasing pace of every-day life -- and it starts with Generative AI.
Случайно наткнулся на предстоящий вебинар от Яндекс.Облака про их сервис Managed Apache Airflow: https://www.youtube.com/watch?v=gf-c4WkRJ7Q
Возможно вам будет интересно.
Возможно вам будет интересно.
YouTube
Автоматизируем процессы обработки данных с Managed Service for Apache Airflow™
7 декабря в 12:00 на вебинаре поговорили о ключевых возможностях Managed Service for Apache Airflow™, сервиса для управления оркестратором потоков операций по обработке данных.
Архитектор Yandex Cloud Иван Веткасов рассказал, как создать кластер Airflow…
Архитектор Yandex Cloud Иван Веткасов рассказал, как создать кластер Airflow…
Аналитик инструментов сборки и репозитория
Yandex Cloud
Москва, Санкт-Петербург, Новосибирск
Наша команда занимается развитием экосистемы инструментов монорепозитория Яндекса. Каждую неделю 8 тысяч разработчиков делают более 100 тысяч коммитов в наш монорепозиторий, пользуются нашей системой сборки более 5 млн раз, используют плагины для среды разработки и многое другое.
Наша служба постоянно работает над тем, чтобы делать системы удобнее, надёжнее, быстрее и понятнее. Мы ищем опытного аналитика, который поможет разработать систему метрик для наших продуктов для разработчиков и внедрить A/B-эксперименты, найдёт пути улучшения систем.
Какие задачи вас ждут
- Разрабатывать систему метрик качества и скорости для инструментов сборки, тестирования и репозитория
- Проводить сквозную аналитику наших инструментов
- Анализировать и улучшать продуктовые метрики наших систем
- Разрабатывать метрики разладки — уметь отслеживать, что именно с релизом пошло не так
- Внедрять A/B-тестирование в наши продукты
- Помогать строить хранилища данных репозитория и смежных систем для разработки метрик личной и командной активности и производительности
Мы ждём, что вы
- Работали продуктовым аналитиком не менее трёх лет
- Хорошо знаете Python и SQL
- Работали с BI-системами (DataLens, Tableau или PowerBI), умеете визуализировать данные
- Знаете математическую статистику и теорию вероятностей
- Готовы погружаться в специфику инструментов разработки и тесно общаться с разработчиками
- Умеете извлекать инсайты из данных и предлагать гипотезы по улучшению продукта
- Проводили A/B-эксперименты и анализировали их результаты
- Самостоятельны и не боитесь нестандартных задач
Откликнуться
Контакт в тг @oksidgi
Yandex Cloud
Москва, Санкт-Петербург, Новосибирск
Наша команда занимается развитием экосистемы инструментов монорепозитория Яндекса. Каждую неделю 8 тысяч разработчиков делают более 100 тысяч коммитов в наш монорепозиторий, пользуются нашей системой сборки более 5 млн раз, используют плагины для среды разработки и многое другое.
Наша служба постоянно работает над тем, чтобы делать системы удобнее, надёжнее, быстрее и понятнее. Мы ищем опытного аналитика, который поможет разработать систему метрик для наших продуктов для разработчиков и внедрить A/B-эксперименты, найдёт пути улучшения систем.
Какие задачи вас ждут
- Разрабатывать систему метрик качества и скорости для инструментов сборки, тестирования и репозитория
- Проводить сквозную аналитику наших инструментов
- Анализировать и улучшать продуктовые метрики наших систем
- Разрабатывать метрики разладки — уметь отслеживать, что именно с релизом пошло не так
- Внедрять A/B-тестирование в наши продукты
- Помогать строить хранилища данных репозитория и смежных систем для разработки метрик личной и командной активности и производительности
Мы ждём, что вы
- Работали продуктовым аналитиком не менее трёх лет
- Хорошо знаете Python и SQL
- Работали с BI-системами (DataLens, Tableau или PowerBI), умеете визуализировать данные
- Знаете математическую статистику и теорию вероятностей
- Готовы погружаться в специфику инструментов разработки и тесно общаться с разработчиками
- Умеете извлекать инсайты из данных и предлагать гипотезы по улучшению продукта
- Проводили A/B-эксперименты и анализировали их результаты
- Самостоятельны и не боитесь нестандартных задач
Откликнуться
Контакт в тг @oksidgi
yandex.ru
Вакансия «Аналитик инструментов сборки и репозитория» в Яндексе — работа в компании Яндекс для IT-специалистов
Работа в компании Яндекс для специалиста «Аналитик инструментов сборки и репозитория» с уровнем квалификации от «Специалист» до «Старший» — Высокая заработная плата и социальные гарантии в IT-компании России
Netflix опубликовал доклады с очередного митапа про дата инжиниринг:
— Media Data for ML Studio Creative Production
— Start Stop Continue for optimizing complex ETL jobs
— Psyberg, An Incremental ETL Framework Using Iceberg
— Knowledge Management - Leveraging Institutional Data
— Building Reliable Data Pipelines
— Streaming SQL on Data Mesh
— Data Processing Patterns
— The Netflix Data Engineering Stack
— Media Data for ML Studio Creative Production
— Start Stop Continue for optimizing complex ETL jobs
— Psyberg, An Incremental ETL Framework Using Iceberg
— Knowledge Management - Leveraging Institutional Data
— Building Reliable Data Pipelines
— Streaming SQL on Data Mesh
— Data Processing Patterns
— The Netflix Data Engineering Stack
YouTube
Netflix Data Engineering Tech Talks - Media Data for ML Studio Creative Production
In the last 2 decades, Netflix has revolutionized the way video content is consumed, however, there is significant work to be done in revolutionizing how movies and tv shows are made. In this video, Sr. Data Engineers Amanual Kahsay and Dao Mi showcase how…
Airflow 2.8
Вышла новая версия Apache Airflow — 2.8. В ней, как ни странно, очень много новых плюшек, включая ObjectStore API, улучшенный UI и многое другое. Более подробно можно почитать здесь: https://bit.ly/41uLBQP
Вышла новая версия Apache Airflow — 2.8. В ней, как ни странно, очень много новых плюшек, включая ObjectStore API, улучшенный UI и многое другое. Более подробно можно почитать здесь: https://bit.ly/41uLBQP
www.astronomer.io
Introducing Airflow 2.8
The latest minor Airflow release includes new features and improvements such as the Airflow ObjectStore, Listener hook for Datasets, enhanced logging capabilities, and more.
Отличная статья про уровни изоляций транзакций на примере популярной базы данных PostgreSQL: https://www.thenile.dev/blog/transaction-isolation-postgres
www.thenile.dev
Transaction Isolation in Postgres, explained
Ever dealt with glitches in a SaaS platform where your actions don't seem to sync up? That's often a transaction isolation issue in databases. Lets talk about transaction isolation and how they work in Postgres, so you can write reliable and performant code…
Apache Airflow в Adyen
Люблю статьи про реальные кейсы использования технологий. Давеча встретил статью Apache Airflow at Adyen: Our journey and challenges to achieve reliability at scale. Adyen это известная в узких кругах платёжная система (кажется даже публичная компания). Статья про использование Airflow в высоконагруженной системе, где жизненно необходимо чтобы система была отказоустойчивой, масштабируемой и при это не сильно сложной. Рекомендую для ознакомления.
Люблю статьи про реальные кейсы использования технологий. Давеча встретил статью Apache Airflow at Adyen: Our journey and challenges to achieve reliability at scale. Adyen это известная в узких кругах платёжная система (кажется даже публичная компания). Статья про использование Airflow в высоконагруженной системе, где жизненно необходимо чтобы система была отказоустойчивой, масштабируемой и при это не сильно сложной. Рекомендую для ознакомления.
Medium
Apache Airflow at Adyen: Our journey and challenges to achieve reliability at scale
A blog post by Jorrick Sleijster and Natasha Shroff
Неплохой обзор работы структуры данных B-Tree: https://blog.allegro.tech/2023/11/how-does-btree-make-your-queries-fast.html
blog.allegro.tech
How does B-tree make your queries fast?
B-tree is a structure that helps to search through great amounts of data. It was invented over 40 years ago, yet it is still employed by the majority of modern databases. Although there are newer index structures, like LSM trees, B-tree is unbeaten when handling…
Apache Kafka For Python Developers
Бесплатный курс по работе с Apache Kafka через Python: https://developer.confluent.io/courses/kafka-python/intro/
Бесплатный курс по работе с Apache Kafka через Python: https://developer.confluent.io/courses/kafka-python/intro/
Confluent
Introduction to Python for Kafka
In this lecture, you will learn why Python has become such a popular language for developing real time event streaming applications that take advantage of the Apache Kafka platform.
Если вы активно пользуетесь (или пользовались) Kinesis Data Firehose, то Amazon объявил, что теперь этот сервис поддерживает zero buffering. Что означает, что им можно пользоваться для загрузки данных почти в режиме real-time streaming (с незначительной задержкой до нескольких секунд на обработку).
Мой опыт работы с Firehose строился с учётом буферизации данных (минимальная задержка 1 минута), что порой было неудобно. С другой же стороны, возможно Firehose не самый подходящий инструмент для построения real-time stream ingestion. Но всё равно полезно, что такая опция появилась.
А как вы строите доставку данных внутри AWS?
Мой опыт работы с Firehose строился с учётом буферизации данных (минимальная задержка 1 минута), что порой было неудобно. С другой же стороны, возможно Firehose не самый подходящий инструмент для построения real-time stream ingestion. Но всё равно полезно, что такая опция появилась.
А как вы строите доставку данных внутри AWS?
Amazon
Amazon Kinesis Data Firehose now supports zero buffering
У Haki Benita вышла полезная статья про эффективное чтение Excel файлов в Python 😉 Как ни крути, а дата инженерам часто приходится копаться в csv/excel файлах, поэтому наверняка его заметка может вам пригодиться, если вы оперируете действительно огромными excel файлами.
FYI: Pandas оказался худшим решением.
FYI: Pandas оказался худшим решением.
Hakibenita
Fastest Way to Read Excel in Python
Reading 500K rows in less than 4 seconds
Обзор разных подходов для построения распределенного хранилища на базе PostgreSQL: https://www.crunchydata.com/blog/an-overview-of-distributed-postgresql-architectures
Лично у меня был опыт скейлинга PostgreSQL через Read-реплику и шардирование. Но как это обычно бывает, у каждого подхода есть свои плюсы и минусы, а универсального решения не существует.
Лично у меня был опыт скейлинга PostgreSQL через Read-реплику и шардирование. Но как это обычно бывает, у каждого подхода есть свои плюсы и минусы, а универсального решения не существует.
Crunchy Data
An Overview of Distributed PostgreSQL Architectures | Crunchy Data Blog
Marco just joined Crunchy Data and he reflects on his career in distributed systems in this post. He provides an overview of several options for approaching distributed Postgres workloads and the pros and cons of each approach.
Релиз Luigi 3.5.0
Вышел новый релиз workflow-менеджера Luigi от Spotify: https://github.com/spotify/luigi/releases/tag/3.5.0
Ничего значительного не появилось (кроме поддержки python3.11). Но радует сам факт, что инструментом пользуются и он не забывается. К слову, я и сам использую его в своих side-проектах.
Вышел новый релиз workflow-менеджера Luigi от Spotify: https://github.com/spotify/luigi/releases/tag/3.5.0
Ничего значительного не появилось (кроме поддержки python3.11). Но радует сам факт, что инструментом пользуются и он не забывается. К слову, я и сам использую его в своих side-проектах.
GitHub
Release 3.5.0 · spotify/luigi
What's Changed
worker: Log which outputs are missing when task is unexpectedly incomplete by @progval in #3258
Update dropbox.py for compatibility with Dropbox SDK v11.X.X by @smrohrer in #325...
worker: Log which outputs are missing when task is unexpectedly incomplete by @progval in #3258
Update dropbox.py for compatibility with Dropbox SDK v11.X.X by @smrohrer in #325...