Telegram Web Link
Data Engineering for Beginners

На ютуб-канале freeCodeCamp вышел курс Data Engineering Course for Beginners. Продолжительность курса 3 часа, в нём автор разбирает докер, базу данных PostgreSQL и работу с Airflow для написания несложного ETL-процесса. Для новичков в теме в самый раз! 🚀
Tim Berglund своего рода легенда в мире распределенных систем, популяризатор этой темы. Я познакомился с его творчеством через классный доклад про распределённые системы на Ютубе около 6 или 7 лет назад: Distributed Systems in One Lesson. Он какое-то время работал в компании Confluent (авторы Apache Kafka), где активно продвигал Кафку в массы. Сейчас же он работает в StarTree, cloud-решение на базе Apache Pinot. Его новый доклад как раз посвящен Apache Pinot, распределенному OLAP хранилищу.

Собственно сам доклад в рамках GOTO Conference: Introduction to Real-Time Analytics with Apache Pinot

И краткое и понятное видео что из себя представляет Apache Pinot от него же: What is Apache Pinot? (and User-Facing Analytics)
📣One Day Offer для Data Engineer📣

10 февраля 🕤 Sportmaster Lab проводит One Day Offer для Data Engineer.

One Day Offer от SM Lab — это отличная возможность пройти все этапы отбора и получить приглашение на работу всего за один день. SM Lab - аккредитованная ИТ-компания в составе группы компаний «Спортмастер».

Мы находимся в поисках Middle Data Engineer, c хорошим знанием Python и SQL, с опытом работы от 2-х лет. Для нас важно наличие опыта использования экосистемы Hadoop
(HDFS, Hive, Spark) и Apache AirFlow.

📍Немного про задачи:
- Реализация ETL в Hadoop (с помощью Airflow).
- Работа с различными источниками данных: Oracle, MS SQL, API личных кабинетов, микросервисы.
- Батч и стримы с помощью PySpark и Kafka.
- Подготовка витрин для анализа (Hive + Spark + SQL).

🔹 Наш стек: Python, Pyspark, Hive/hdfs, Airflow, ClickHouse, Kafka, Tableau.

🔥Успейте отправить форму до 6 февраля!

Мы свяжемся с вами в течение трех дней и проведем предварительный этап.
Airflow Evolution at Snap

На платформе Medium появилась статья про эволюцию Apache Airflow в компании Snap: Airflow Evolution at Snap
Преимущественно в статье речь идёт о работе с RBAC и масштабированием Airflow.

Также помимо статьи, вы можете посмотреть на Ютубе доклад с прошедшего в 2023 году Airflow Summit: Airflow at Snap: Managing permissions, migrations and internal tools
Привет! В рамках возобновления работы над своим старым проектом по агрегации вакансий с удалённым форматом работы, я запустил отдельный телеграм-канал, где в автоматическом режиме публикуются вакансии из категории Data Engineering и DataOps: https://www.tg-me.com/dataeng_jobs

Попадают они туда в процессе сбора и анализа вакансий с различных профильных сайтов типа Хабр Карьера, VC, DevBy и т.д. Классифицируются они через API сервиса OpenAI, проще говоря GPT4.

Если вы в поиске работы, то моя инициатива вероятно поможет вам найти нужный оффер быстрее 🚀

Подписывайтесь
Сейчас много шума вокруг DuckDB. Это компактная OLAP база данных на стероидах. На днях наткнулся на статью в рассылке про DuckDB и почему на неё стоит обратить внимание: What is DuckDB?

Также возможно вас заинтересует сравнение polars (убийца pandas) и DuckDB: DuckDB vs Polars for Data Engineering
В очередной раз наткнулся в сети на статью про эксплуатацию Apache Airflow в среде Kubernetes: What we learned after running Airflow on Kubernetes for 2 years. У автора развёрнут Airflow с 300 дагами и около 5 000 задачами. Преимущественно они запускают лёгкие таски по типу dbt-трансформаций, поэтому при использовании KubernetesExecutor столкнулись с тем, что инициализация Pod занимает больше времени чем выполнение самой задачи. Выбор в итоге пал на CeleryExecutor. В целом статья не столько про нюансы работы Airflow внутри Kubernetes-кластера сколько про опыт эксплуатации инструмента в их конкретном случае. Полезно.

В нашей команде Airflow также является ключевым инструментом для выполнения регулярных и критических задач. Прямо сейчас в нём 5614 дагов, работает это всё на Amazon MWAA (Managed Airflow от AWS). Накидайте 👍🏻, если вам интересно почитать о моём опыте эксплуатации Airflow.
Всем привет!

Я сделал курс по Luigi бесплатным для всех, велком изучать — Введение в Data Engineering: дата-пайплайны

Luigi это компактный инструмент для построения зависимых между собой задач на базе нескольких сущностей: Task, Target. Он идеально подойдёт там, где Airflow кажется избыточным инструментом. В далёком 2017 году я писал небольшой обзорный пост на Luigi у себя в блоге: Строим Data Pipeline на Python и Luigi. С тех пор мало что изменилось в концепции инструмента, он по прежнему компактный и простой, именно в этом вся его прелесть.
Курс про Apache Airflow бесплатно

Решил выложить свой курс про Apache Airflow абсолютно бесплатно для всех: Apache Airflow 2.2: практический курс
За то время что существует курс, Apache Airflow успел обрасти множеством новых фич, которые только предстоит покрыть в будущем, возможно в виде отдельных роликов на Ютуб или в виде статей у себя в блоге.

В любом случае курс не потерял своей актуальности и может послужить неплохим введением для новичков и более опытных пользователей. Например, в курсе я подробно разбираю как развернуть у себя на сервере production-ready Airflow, а также настроить автодеплой дагов через GitHub Actions.

Велком!
Ребята, всем привет! 🤝

Вас стало ещё больше и поэтому я хотел напомнить о существовании моего другого телеграм-канала с вакансиями в области DataEng, DataOps и DBA: https://www.tg-me.com/dataeng_jobs
В этот канал автоматически попадают вакансии по вышеупомянутым категориям, классификация происходит через OpenAI API.

Подписывайтесь, скоро источников с вакансиями станет ещё больше, и возможно именно вы найдёте лучшее для себя предложение — @dataeng_jobs
Убийца DuckDB 🔫

А вы уже видели аналог DuckDB от ребят из ClickHouse? Называется это чудо chDB. Представляет из себя встроенную OLAP базу данных под капотом которой пыхтит движок ClickHouse. Умеет в Parquet, Arrow, ORC и кучу других форматов, есть биндинги для Python, Go, Rust, NodeJS, Bun. Работает на Linux и MacOS, жаль Windows не поддерживает.

Узнал я о существовании этой БД из новости о том, что chDB присоединяется к ClickHouse: https://auxten.com/chdb-is-joining-clickhouse/
Airflow 2.9

Буквально час назад вышла новая версия Apache Airflow — 2.9. В релизе очень много изменений и фиксов, а также новых фич:

— поддержка Python 3.12
— Listener API стабилизировался и его можно использовать в продакшене
— Поддержка multiple executors (AIP-61 Hybrid Execution)
— DatasetOrTimeSchedule, срабатывание по Timetable расписанию и Dataset событиям
@task.bash декоратор. Возвращаемое значение обёрнутой в этот декоратор функции будет выполнено в виде bash-команды

Полный список изменений смотрите по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
На прошлой неделе JetBrains анонсировали релиз их новой IDE для разработки на Rust: RustRover
Изначально это был плагин для их IDE, который в итоге перерос в полноценный продукт. Также ребята решили предоставить бесплатную лицензию на продукт для некоммерческой разработки для всех. Я попробовал и получил бесплатную лицензию на 1 год, возможно в будущем её можно будет продлить.

Впервые язык Rust я попробовал ещё в далёком 2015 году, когда вышла первая стабильная версия языка. С тех пор были неоднократные попытки с моей стороны написать что-нибудь существенное, но не было подходящих проектов под рукой. Сейчас же видно, что Rust плотно вошел в экосистему Python и внёс значительный вклад в её развитие. Наверняка вы слышали о таких проектах как Pydantic, Polars, PyO3 и т.д. Некоторые из них стали революционными для Python.

Python + Rust = ❤️

Также буквально на днях вышел вебинар от JetBrains, посвященный языку Rust и методам его изучения: Programming Education: Tailoring Tools and Techniques for Rust. Если вы вдруг задумались об изучении Rust, то рекомендую к просмотру. В описании к видео есть полезные ресурсы, которые помогут лучше усвоить сложные концепции языка такие, например, как Ownership.

Со своей стороны я попробую ещё раз оседлать эту лошадку и найти подходящий проект, чтобы не потерять мотивацию на пути изучения.

А какой у вас был опыт с Rust?
100 самых популярных Python докладов

Нашел в сети подборку из 100 самых просматриваемых докладов про Python: 100 most-watched Python 2023 conference talks ordered by the number of views
Среди этих докладов популярны темы про Rust, data engineering и оптимизацию производительности.

К слову, PyCon US 2024 уже прошел, но в открытом доступе до сих пор нет докладов. Надеюсь на их скорое появление, т.к. там есть на что посмотреть.
Если вдруг вас интересует тема разработки LLM, то вчера стартовал бесплатный курс от ребят из DataTalks.Club — LLM Zoomcamp

Курс рассчитан на 10 недель в формате живых трансляций и домашних заданий с обсуждениями.

Весь необходимый материал в открытом доступе на Гитхабе: https://github.com/DataTalksClub/llm-zoomcamp
Об актуальном 😁
2025/06/30 14:26:48
Back to Top
HTML Embed Code: