Telegram Web Link
Человек на 60% состоит из воды, а Тинькофф на 100% из масштабных ИТ-задач и ежедневных вызовов

Если ты опытный ИТ-спец, этот вызов для тебя. А решение бытовых забот берем на себя: от ультра расширенной медстраховки и юридической поддержки до компенсации питания, спорта и дополнительного обучения.

Выбрать вакансию и стать частью ИТ-команды можно тут:
https://u.tinkoff.ru/itcareer

АО «Тинькофф Банк», ИНН 7710140679
Run periodic jobs in PostgreSQL

Недавно открыл для себя интересное расширение для БД PostgreSQL: pg_cron. Балалайка позволяет запускать периодические задачи внутри базы данных: SQL запросы, процедуры и т.д. Удобно, вдруг кому пригодится 💡
На Хабре вышла статья про Airflow в Kubernetes. Статья мне понравилась, целевая аудитория это новички в кубах, которые хотят развернуть Airflow. Сам я такой деплой не использую, но мне было полезно знать как оно там работает. Напомню, что у Airflow есть официальный helm chart: https://airflow.apache.org/docs/helm-chart/stable/index.html, если вдруг вы решите копнуть эту тему чуть глубже.
Машинное обучение для начинающих

Классный бесплатный курс о машинном обучении от Microsoft: https://bit.ly/3MQmyl1
Аналитик инструментов сборки и репозитория
Yandex Cloud

Москва, Санкт-Петербург, Новосибирск

Наша команда занимается развитием экосистемы инструментов монорепозитория Яндекса. Каждую неделю 8 тысяч разработчиков делают более 100 тысяч коммитов в наш монорепозиторий, пользуются нашей системой сборки более 5 млн раз, используют плагины для среды разработки и многое другое.
Наша служба постоянно работает над тем, чтобы делать системы удобнее, надёжнее, быстрее и понятнее. Мы ищем опытного аналитика, который поможет разработать систему метрик для наших продуктов для разработчиков и внедрить A/B-эксперименты, найдёт пути улучшения систем.

Какие задачи вас ждут
- Разрабатывать систему метрик качества и скорости для инструментов сборки, тестирования и репозитория
- Проводить сквозную аналитику наших инструментов
- Анализировать и улучшать продуктовые метрики наших систем
- Разрабатывать метрики разладки — уметь отслеживать, что именно с релизом пошло не так
- Внедрять A/B-тестирование в наши продукты
- Помогать строить хранилища данных репозитория и смежных систем для разработки метрик личной и командной активности и производительности

Мы ждём, что вы

- Работали продуктовым аналитиком не менее трёх лет
- Хорошо знаете Python и SQL
- Работали с BI-системами (DataLens, Tableau или PowerBI), умеете визуализировать данные
- Знаете математическую статистику и теорию вероятностей
- Готовы погружаться в специфику инструментов разработки и тесно общаться с разработчиками
- Умеете извлекать инсайты из данных и предлагать гипотезы по улучшению продукта
- Проводили A/B-эксперименты и анализировали их результаты
- Самостоятельны и не боитесь нестандартных задач

Откликнуться
Контакт в тг @oksidgi
Airflow 2.8

Вышла новая версия Apache Airflow — 2.8. В ней, как ни странно, очень много новых плюшек, включая ObjectStore API, улучшенный UI и многое другое. Более подробно можно почитать здесь: https://bit.ly/41uLBQP
Apache Airflow в Adyen

Люблю статьи про реальные кейсы использования технологий. Давеча встретил статью Apache Airflow at Adyen: Our journey and challenges to achieve reliability at scale. Adyen это известная в узких кругах платёжная система (кажется даже публичная компания). Статья про использование Airflow в высоконагруженной системе, где жизненно необходимо чтобы система была отказоустойчивой, масштабируемой и при это не сильно сложной. Рекомендую для ознакомления.
Если вы активно пользуетесь (или пользовались) Kinesis Data Firehose, то Amazon объявил, что теперь этот сервис поддерживает zero buffering. Что означает, что им можно пользоваться для загрузки данных почти в режиме real-time streaming (с незначительной задержкой до нескольких секунд на обработку).

Мой опыт работы с Firehose строился с учётом буферизации данных (минимальная задержка 1 минута), что порой было неудобно. С другой же стороны, возможно Firehose не самый подходящий инструмент для построения real-time stream ingestion. Но всё равно полезно, что такая опция появилась.

А как вы строите доставку данных внутри AWS?
У Haki Benita вышла полезная статья про эффективное чтение Excel файлов в Python 😉 Как ни крути, а дата инженерам часто приходится копаться в csv/excel файлах, поэтому наверняка его заметка может вам пригодиться, если вы оперируете действительно огромными excel файлами.

FYI: Pandas оказался худшим решением.
Обзор разных подходов для построения распределенного хранилища на базе PostgreSQL: https://www.crunchydata.com/blog/an-overview-of-distributed-postgresql-architectures

Лично у меня был опыт скейлинга PostgreSQL через Read-реплику и шардирование. Но как это обычно бывает, у каждого подхода есть свои плюсы и минусы, а универсального решения не существует.
Релиз Luigi 3.5.0

Вышел новый релиз workflow-менеджера Luigi от Spotify: https://github.com/spotify/luigi/releases/tag/3.5.0
Ничего значительного не появилось (кроме поддержки python3.11). Но радует сам факт, что инструментом пользуются и он не забывается. К слову, я и сам использую его в своих side-проектах.
2025/07/01 12:04:04
Back to Top
HTML Embed Code: