Вышло новое издание знаменитой книги про распределенные системы: Distributed Systems 4th Edition
Электронную версию книги можно бесплатно скачать на сайте по ссылке выше.
3-е бумажное издание этой книги лежит у меня на полке, но, к сожалению, я постоянно откладываю её прочтение (читал отрывками). Надеюсь в 2023 году доберусь до неё 🤞
Электронную версию книги можно бесплатно скачать на сайте по ссылке выше.
3-е бумажное издание этой книги лежит у меня на полке, но, к сожалению, я постоянно откладываю её прочтение (читал отрывками). Надеюсь в 2023 году доберусь до неё 🤞
DISTRIBUTED-SYSTEMS.NET
Distributed Systems 4th edition - DISTRIBUTED-SYSTEMS.NET
You can get a digital (personalized) copy of this book for free. A complete set of slides in PDF and PPTX is also available. This page refers to the 4th Continue Reading →
Чтобы поиграть с БД ClickHouse отныне её не нужно устанавливать себе, появился официальный ClickHouse Fiddle
Дока про сам проект: https://clickhouse.com/blog/clickhouse-fiddle-sql-playground
Дока про сам проект: https://clickhouse.com/blog/clickhouse-fiddle-sql-playground
ClickHouse
ClickHouse Fiddle — A SQL Playground for ClickHouse
Read about how our community created a new SQL playground for ClickHouse, allowing you to run and test queries on any version!
Видео про архитектуру PostgreSQL: https://www.youtube.com/watch?v=Q56kljmIN14
YouTube
Postgres Internal Architecture Explained
Creating a listener on the backend application that accepts connections is simple. You listen on an address-port pair, connection attempts to that address and port will get added to an accept queue; The application accepts connections from the queue and start…
pandas 2.0
Вчера вышла новая мажорная версия pandas — 2.0.0
В новую версию добавили бэкенд Apache Arrow для повышения производительности. Более подробно про изменения можно прочитать в статье pandas 2.0 and the Arrow revolution.
Вчера вышла новая мажорная версия pandas — 2.0.0
В новую версию добавили бэкенд Apache Arrow для повышения производительности. Более подробно про изменения можно прочитать в статье pandas 2.0 and the Arrow revolution.
datapythonista blog
pandas 2.0 and the Arrow revolution (part I)
Introduction At the time of writing this post, we are in the process of releasing pandas 2.0. The project has a large number of users,...
Аналитик в 360
#вакансия #Москва #Армения #Казахстан #Сербия #гибрид
#middle #senior
Яндекс 360 — это набор сервисов для решения повседневных задач: от хранения личных воспоминаний до деловой переписки в любое время и на любом устройстве.
Команда аналитики Яндекс 360 ищет сильного и инициативного аналитика, который взял бы на себя роль эксперта по экспериментам. Вы будете вместе с нами развивать функциональность наших сервисов и улучшать их, основываясь на анализе данных, помогать команде внедрять только те изменения, которые несут понятную и доказанную пользу для продукта и бизнеса.
Что нужно делать:
— формировать приёмочные метрики для A/B-тестов, выбирать необходимый размер выборки, ограничения и срок проведения эксперимента;
— управлять всем потоком наших экспериментов: включать и выключать, доводить каждый A/B-тест от этапа идеи до принятия решения;
— анализировать результаты экспериментов, давать рекомендации по внедрению или отключению, расследовать аномалии;
— вырабатывать единые гайды для проведения экспериментов, помогать продуктовой команде.
Мы ждем, что вы:
— проводили A/B-тесты, понимаете область их применения;
— прекрасно владеете теорией вероятности и математической статистикой и можете на пальцах объяснить, зачем и кому нужен p-value;
— знаете SQL и Python.
Условия:
— команда экспертов, которая любит своё дело;
— выстроенные процессы взаимодействия и планирования;
— работа над проектами, которые отражены в общих целях бизнеса;
— прозрачная коммуникация, возможность влиять на процесс и результат;
Подробнее о вакансии и отклики: https://goo.su/FqEaEmT
#вакансия #Москва #Армения #Казахстан #Сербия #гибрид
#middle #senior
Яндекс 360 — это набор сервисов для решения повседневных задач: от хранения личных воспоминаний до деловой переписки в любое время и на любом устройстве.
Команда аналитики Яндекс 360 ищет сильного и инициативного аналитика, который взял бы на себя роль эксперта по экспериментам. Вы будете вместе с нами развивать функциональность наших сервисов и улучшать их, основываясь на анализе данных, помогать команде внедрять только те изменения, которые несут понятную и доказанную пользу для продукта и бизнеса.
Что нужно делать:
— формировать приёмочные метрики для A/B-тестов, выбирать необходимый размер выборки, ограничения и срок проведения эксперимента;
— управлять всем потоком наших экспериментов: включать и выключать, доводить каждый A/B-тест от этапа идеи до принятия решения;
— анализировать результаты экспериментов, давать рекомендации по внедрению или отключению, расследовать аномалии;
— вырабатывать единые гайды для проведения экспериментов, помогать продуктовой команде.
Мы ждем, что вы:
— проводили A/B-тесты, понимаете область их применения;
— прекрасно владеете теорией вероятности и математической статистикой и можете на пальцах объяснить, зачем и кому нужен p-value;
— знаете SQL и Python.
Условия:
— команда экспертов, которая любит своё дело;
— выстроенные процессы взаимодействия и планирования;
— работа над проектами, которые отражены в общих целях бизнеса;
— прозрачная коммуникация, возможность влиять на процесс и результат;
Подробнее о вакансии и отклики: https://goo.su/FqEaEmT
Аналитик - разработчик
#вакансия #Москва #гибрид #middle #senior
Yandex Cloud — это облачная платформа, которую используют тысячи компаний и предпринимателей, от технических специалистов до международных корпораций. Наши сервисы позволяют быстро и просто получить доступ к современным технологиям обработки и хранения данных – виртуальным машинам, управляемым базам данных, распознаванию и синтезу речи.
Мы ищем аналитика-разработчика. Ждём вдумчивых кандидатов с глубокими знаниями Python и желанием развиваться в сфере аналитики.
Что нужно делать:
— собрать юнит-экономику бизнеса;
— заниматься построением прогнозной модели бизнеса (бизнес-моделирование процессов, форкастинг временных рядов);
— работать над воронкой (гипотезы, эксперименты, оценка непрямых эффектов).
Мы ждем, что вы:
— получили техническое или математическое образование;
— уверенно владеете Python (можете провести EDA, построить несколько моделей), -можете на SQL написать сложную бизнес-логику в удобном для чтения виде;
— умеете перевести в ТЗ нечетко сформулированные задачи;
— аккуратны и внимательны к деталям;
— самостоятельны и инициативны.
— понимаете реальные потребности бизнеса, ставите себя на место заказчика;
— знаете английский язык;
— умеете понятно объяснять результаты исследований.
Будет плюсом, если вы:
— работали в сфере облачных технологий.
Условия:
— сильная команда, с которой можно расти;
— возможность влиять на процесс и результат;
— помощь с переездом иногородним сотрудникам;
— высокий совокупный доход и премии каждые полгода для всех, кто успешно прошел ревью;
— расширенная программа ДМС: стоматология, обследования, вызов врача на дом и многое другое;
— оплата 80% стоимости ДМС для супругов и детей;
— компенсация оплаты питания на территории офиса;
— скидки в бассейнах, фитнес-центрах и магазинах;
— курсы, тренинги, участие в конференциях;
— гибкий график работы;
— парковка для сотрудников.
Подробнее о вакансии и отклики: https://goo.su/nLJTvFn
#вакансия #Москва #гибрид #middle #senior
Yandex Cloud — это облачная платформа, которую используют тысячи компаний и предпринимателей, от технических специалистов до международных корпораций. Наши сервисы позволяют быстро и просто получить доступ к современным технологиям обработки и хранения данных – виртуальным машинам, управляемым базам данных, распознаванию и синтезу речи.
Мы ищем аналитика-разработчика. Ждём вдумчивых кандидатов с глубокими знаниями Python и желанием развиваться в сфере аналитики.
Что нужно делать:
— собрать юнит-экономику бизнеса;
— заниматься построением прогнозной модели бизнеса (бизнес-моделирование процессов, форкастинг временных рядов);
— работать над воронкой (гипотезы, эксперименты, оценка непрямых эффектов).
Мы ждем, что вы:
— получили техническое или математическое образование;
— уверенно владеете Python (можете провести EDA, построить несколько моделей), -можете на SQL написать сложную бизнес-логику в удобном для чтения виде;
— умеете перевести в ТЗ нечетко сформулированные задачи;
— аккуратны и внимательны к деталям;
— самостоятельны и инициативны.
— понимаете реальные потребности бизнеса, ставите себя на место заказчика;
— знаете английский язык;
— умеете понятно объяснять результаты исследований.
Будет плюсом, если вы:
— работали в сфере облачных технологий.
Условия:
— сильная команда, с которой можно расти;
— возможность влиять на процесс и результат;
— помощь с переездом иногородним сотрудникам;
— высокий совокупный доход и премии каждые полгода для всех, кто успешно прошел ревью;
— расширенная программа ДМС: стоматология, обследования, вызов врача на дом и многое другое;
— оплата 80% стоимости ДМС для супругов и детей;
— компенсация оплаты питания на территории офиса;
— скидки в бассейнах, фитнес-центрах и магазинах;
— курсы, тренинги, участие в конференциях;
— гибкий график работы;
— парковка для сотрудников.
Подробнее о вакансии и отклики: https://goo.su/nLJTvFn
Работа в Яндексе
Вакансия «Аналитик-разработчик в Yandex Cloud» в Яндексе — работа в компании Яндекс для IT-специалистов
Сервисы Yandex Cloud позволяют быстро и просто получить доступ к современным технологиям обработки и хранения данных – виртуальным машинам, управляемым базам данных, распознаванию и синтезу речи. Ищем аналитика-разработчика с глубокими знаниями Python и желанием…
Аналитик-разработчик
Монорепозиторий Аркадии хранит исходный код большинства сервисов Яндекса. Каждый день разработчики Яндекса создают в нём тысячи пул-реквестов. Для репозиториев такого масштаба не существует готовых решений, и мы развиваем свои: систему контроля версий, веб-портал разработчика, плагины для среды разработки, сервис для разработки в облачном окружении. Наша служба постоянно работает над тем, чтобы делать наши системы удобнее, надёжнее, быстрее и понятнее.
Мы ищем опытного аналитика, который поможет разработать систему метрик для наших внутренних продуктов и внедрить A/B-эксперименты, найдёт пути улучшения наших систем.
Что нужно делать:
-разрабатывать систему метрик качества для инструментов репозитория;
-анализировать и улучшать продуктовые метрики наших систем;
-внедрять метрики качества и A/B-эксперименты в наши продукты;
-помогать строить хранилища данных репозитория и смежных систем для разработки метрик личной и командной активности и производительности.
Мы ждем, что вы:
-работали продуктовым аналитиком не менее трёх лет;
-хорошо знаете Python и SQL;
-знаете математическую статистику и теорию вероятностей;
-проводили A/B-эксперименты и анализировали их результаты;
-самостоятельны и не боитесь нестандартных задач;
-готовы быстро усваивать много новой информации.
Условия:
-команда экспертов, которые любят своё дело;
-выстроенные процессы взаимодействия и планирования;
-работа над проектами, которые отражены в общих целях бизнеса;
-прозрачная коммуникация, возможность влиять на процесс и результат;
-расширенная программа ДМС: оплата 80% стоимости ДМС для супругов и детей;
-гибкий график;
-работа из офисов в Москве, Санкт-Петербурге, Сербии, Армении.
Откликнуться: @Oksidgi
Монорепозиторий Аркадии хранит исходный код большинства сервисов Яндекса. Каждый день разработчики Яндекса создают в нём тысячи пул-реквестов. Для репозиториев такого масштаба не существует готовых решений, и мы развиваем свои: систему контроля версий, веб-портал разработчика, плагины для среды разработки, сервис для разработки в облачном окружении. Наша служба постоянно работает над тем, чтобы делать наши системы удобнее, надёжнее, быстрее и понятнее.
Мы ищем опытного аналитика, который поможет разработать систему метрик для наших внутренних продуктов и внедрить A/B-эксперименты, найдёт пути улучшения наших систем.
Что нужно делать:
-разрабатывать систему метрик качества для инструментов репозитория;
-анализировать и улучшать продуктовые метрики наших систем;
-внедрять метрики качества и A/B-эксперименты в наши продукты;
-помогать строить хранилища данных репозитория и смежных систем для разработки метрик личной и командной активности и производительности.
Мы ждем, что вы:
-работали продуктовым аналитиком не менее трёх лет;
-хорошо знаете Python и SQL;
-знаете математическую статистику и теорию вероятностей;
-проводили A/B-эксперименты и анализировали их результаты;
-самостоятельны и не боитесь нестандартных задач;
-готовы быстро усваивать много новой информации.
Условия:
-команда экспертов, которые любят своё дело;
-выстроенные процессы взаимодействия и планирования;
-работа над проектами, которые отражены в общих целях бизнеса;
-прозрачная коммуникация, возможность влиять на процесс и результат;
-расширенная программа ДМС: оплата 80% стоимости ДМС для супругов и детей;
-гибкий график;
-работа из офисов в Москве, Санкт-Петербурге, Сербии, Армении.
Откликнуться: @Oksidgi
Наконец в сети стали доступны доклады с прошедшей конфы PyCon US 2023. Я отобрал для вас наиболее интересные топики с т.з. data engineering и анализа данных:
— Simon Willison: Data analysis with SQLite and Python
— Matt Harrison: Getting Started with Polars
— Bert Wagner: Cross-Server Data Joins on Slow Networks with Python
— Brandt Bucher: Inside CPython 3.11's new specializing, adaptive interpreter
— A. Jesse Jiryu Davis: Consistency and isolation for Python programmers
— Eric Snow: A Per-Interpreter GIL: Concurrency and Parallelism with Subinterpreters
— Mark Shannon: How we are making CPython faster. Past, present and future
— Paolo Melchiorre: A pythonic full-text search
— Samuel Colvin: How Pydantic V2 leverages Rust's Superpowers
Полный список докладов тут.
— Simon Willison: Data analysis with SQLite and Python
— Matt Harrison: Getting Started with Polars
— Bert Wagner: Cross-Server Data Joins on Slow Networks with Python
— Brandt Bucher: Inside CPython 3.11's new specializing, adaptive interpreter
— A. Jesse Jiryu Davis: Consistency and isolation for Python programmers
— Eric Snow: A Per-Interpreter GIL: Concurrency and Parallelism with Subinterpreters
— Mark Shannon: How we are making CPython faster. Past, present and future
— Paolo Melchiorre: A pythonic full-text search
— Samuel Colvin: How Pydantic V2 leverages Rust's Superpowers
Полный список докладов тут.
YouTube
Tutorials - Simon Willison: Data analysis with SQLite and Python
SQLite is the world's most widely used database and has been a part of the Python standard library since 2006. It continues to evolve and offer more capabilities every year.
This tutorial will transform you into a SQLite power-user. You'll learn to use SQLite…
This tutorial will transform you into a SQLite power-user. You'll learn to use SQLite…
Ребята из PostHog (сервис продуктовой аналитики) выложили в Open Source интересную балалайку HouseWatch.
Это веб-сервис, разработанный на Django и React для управления и мониторинга ClickHouse-кластером. PostHog активный пользователь ClickHouse, у них в блоге есть даже занятный пост про сравнение Apache Druid и ClickHouse. Если вы активно используете ClickHouse в продакшене, то рекомендую присмотреться и попробовать в деле.
Это веб-сервис, разработанный на Django и React для управления и мониторинга ClickHouse-кластером. PostHog активный пользователь ClickHouse, у них в блоге есть даже занятный пост про сравнение Apache Druid и ClickHouse. Если вы активно используете ClickHouse в продакшене, то рекомендую присмотреться и попробовать в деле.
GitHub
GitHub - PostHog/HouseWatch: Open source tool for monitoring and managing ClickHouse clusters
Open source tool for monitoring and managing ClickHouse clusters - PostHog/HouseWatch
Видите ли вы целостно все составные части системы, которую разрабатываете?
Если нет — научиться этому поможет курс System Design
от Валерия Бабушкина, Vice President, Data Science в Blockchainꓸcom.
За 4 недели вы поймёте, как дизайнить сервис такси, приложение для знакомств и разные другие виды высоконагруженных систем.
Научитесь собирать требования, оценивать нагрузку, выбирать подходящие СУБД, масштабировать системы и повышать их надёжность и отзывчивость, а также выделять и последовательно проектировать подсистемы для хранения данных, поиска и аналитики как своими силами, так и с помощью готовых продуктов.
А также поймёте, как устроены собеседования в Big Tech, и получите детальный план ответа на собеседовании.
Новый поток стартует уже 17 июля! Ждем вас!
[Зарегистрироваться]
Если нет — научиться этому поможет курс System Design
от Валерия Бабушкина, Vice President, Data Science в Blockchainꓸcom.
За 4 недели вы поймёте, как дизайнить сервис такси, приложение для знакомств и разные другие виды высоконагруженных систем.
Научитесь собирать требования, оценивать нагрузку, выбирать подходящие СУБД, масштабировать системы и повышать их надёжность и отзывчивость, а также выделять и последовательно проектировать подсистемы для хранения данных, поиска и аналитики как своими силами, так и с помощью готовых продуктов.
А также поймёте, как устроены собеседования в Big Tech, и получите детальный план ответа на собеседовании.
Новый поток стартует уже 17 июля! Ждем вас!
[Зарегистрироваться]
Forwarded from Podlodka Podcast – анонсы и новости подкаста про IT (Katerina Sbityakova)
Podlodka #329 – Data-engineering
Чтобы принимать разумные решения, нужны данные. А чтобы данные были качественные и своевременные – нужны дата-инженеры! Кто они, чем занимаются и при чем тут биг дата – выясняем с Глебом Кантеровым.
🎧 Слушать выпуск
Чтобы принимать разумные решения, нужны данные. А чтобы данные были качественные и своевременные – нужны дата-инженеры! Кто они, чем занимаются и при чем тут биг дата – выясняем с Глебом Кантеровым.
🎧 Слушать выпуск
В AWS Big Data блоге вышла статья про Dimension Modeling по Кимбалу в Amazon Redshift: https://aws.amazon.com/ru/blogs/big-data/dimensional-modeling-in-amazon-redshift/.
Мне б эту статью в 2019 году, когда я мучился со снежинкой на Redshift, а в итоге забил и денормализовал всё.
Мне б эту статью в 2019 году, когда я мучился со снежинкой на Redshift, а в итоге забил и денормализовал всё.
Amazon
Dimensional modeling in Amazon Redshift | Amazon Web Services
Amazon Redshift is a fully managed and petabyte-scale cloud data warehouse that is used by tens of thousands of customers to process exabytes of data every day to power their analytics workload. You can structure your data, measure business processes, and…
В блоге у Werner Vogels (тех. дир Amazon), я наткнулся на гостевой пост (автор Andrew Warfield) про историю популярного распределенного хранилища Amazon S3: Building and operating a pretty big storage system called S3
All Things Distributed
Werner Vogels on building scalable and robust distributed systems
Airflow 2.7.0
Вчера состоялся большой релиз новой версии самого популярного Workflow менеджера в Python: Apache Airflow 2.7.0
Из новых фишечек:
— Setup and Teardown tasks
— Cluster Activity UI
— OpenLineage built-in integration
Улучшения:
— Убрали поддержку Python 3.7
— В рамках улучшения безопасности Airflow запретили функцию проверки Connections в UI
— Новый Graph View теперь используется по умолчанию, старую версию удалили
— При обновлении версии рекомендуется накатывать миграции через команду
Полный список можно посмотреть тут.
Вчера состоялся большой релиз новой версии самого популярного Workflow менеджера в Python: Apache Airflow 2.7.0
Из новых фишечек:
— Setup and Teardown tasks
— Cluster Activity UI
— OpenLineage built-in integration
Улучшения:
— Убрали поддержку Python 3.7
— В рамках улучшения безопасности Airflow запретили функцию проверки Connections в UI
— Новый Graph View теперь используется по умолчанию, старую версию удалили
— При обновлении версии рекомендуется накатывать миграции через команду
airflow db migrate
Полный список можно посмотреть тут.
Apache Airflow
Apache Airflow 2.7.0 is here
Apache Airflow 2.7.0 has been released!
Обзор новых фич в новой версии PostgreSQL 16: https://www.youtube.com/watch?v=M7m3A68CTJg
YouTube
PostgreSQL 16: обзор релиза с Павлом Лузановым (Postgres Professional)
В данном выпуске Павел Лузанов, руководитель отдела образовательных программ Postgres Professional, рассказывает о наиболее значимых улучшениях, которые стали доступны в PostgreSQL 16. Таймкоды видео:
02:34 Новая система сборки MESON
03:51 Документация …
02:34 Новая система сборки MESON
03:51 Документация …
Яндекс выложил в опенсорс свой BI тул DataLens: https://github.com/datalens-tech
GitHub
datalens-tech
datalens-tech has 20 repositories available. Follow their code on GitHub.
На Ютубе появились доклады с прошедшей конференции Airflow Summit 2023 в Канаде: https://bit.ly/3LGdPkQ
PyCon PT 2023
День богат на новые доклады. Сейчас появились видео с прошедшей конфы PyCon Portugal 2023: https://bit.ly/3PYOHY7
День богат на новые доклады. Сейчас появились видео с прошедшей конфы PyCon Portugal 2023: https://bit.ly/3PYOHY7
Релиз Python 3.12
Релиз преимущественно связан с повышением производительности, в среднем улучшения около 5%. Из значительных фич это появление отдельного GIL на т.н. субинтерпретаторы. Эта фича пока доступна только в С API, а с версии Python 3.13 будет доступна и в Python API.
Подробнее о релизе: https://pythoninsider.blogspot.com/2023/10/python-3120-final-now-available.html
Релиз преимущественно связан с повышением производительности, в среднем улучшения около 5%. Из значительных фич это появление отдельного GIL на т.н. субинтерпретаторы. Эта фича пока доступна только в С API, а с версии Python 3.13 будет доступна и в Python API.
Подробнее о релизе: https://pythoninsider.blogspot.com/2023/10/python-3120-final-now-available.html
Blogspot
Python Insider: Python 3.12.0 (final) now available
Курс по соревновательному Data Science👨💻
🏆 Хочешь покорить Kaggle и научиться выигрывать соревнования по анализу данных? Тогда курс "Введение в соревновательный Data Science" - это именно то, что тебе нужно!
🎯 В отличие от большинства курсов по машинному обучению, этот сконцентрирован на практике. Поэтому на нем будет более 200 практических заданий, интервью с Kaggle Grand Masters и, конечно же, внутренние соревнования для отработки техник.
⚡️В программе курса тебя ждет:
* Продвинутая работа с pandas и numpy
* Генерация, визуализация и фильтрация признаков
* Модуль про SOTA градиентные бустинги и то как их тюнить
и еще 6 других блоков.
🚀 Также, ребята проводят еженедельные открытые вебинары, на которых разбирают решения победителей с чемпионатов и делают обзоры предстоящих соревнование.
🔗 Подписывайся на их телеграмм канал, там они делятся полезным контентом, рассказывают про курс и анонсят новые стримы.
🏆 Хочешь покорить Kaggle и научиться выигрывать соревнования по анализу данных? Тогда курс "Введение в соревновательный Data Science" - это именно то, что тебе нужно!
🎯 В отличие от большинства курсов по машинному обучению, этот сконцентрирован на практике. Поэтому на нем будет более 200 практических заданий, интервью с Kaggle Grand Masters и, конечно же, внутренние соревнования для отработки техник.
⚡️В программе курса тебя ждет:
* Продвинутая работа с pandas и numpy
* Генерация, визуализация и фильтрация признаков
* Модуль про SOTA градиентные бустинги и то как их тюнить
и еще 6 других блоков.
🚀 Также, ребята проводят еженедельные открытые вебинары, на которых разбирают решения победителей с чемпионатов и делают обзоры предстоящих соревнование.
🔗 Подписывайся на их телеграмм канал, там они делятся полезным контентом, рассказывают про курс и анонсят новые стримы.