Database observability: How OpenTelemetry semantic conventions improve consistency across signals
В OpenTelemetry семантические соглашения определяют, как мы называем диапазоны, метрики и атрибуты. Без него две команды могли бы измерять одно и то же — например, длительность запроса к базе данных — но называть это совершенно разными именами (например,
В OpenTelemetry семантические соглашения определяют, как мы называем диапазоны, метрики и атрибуты. Без него две команды могли бы измерять одно и то же — например, длительность запроса к базе данных — но называть это совершенно разными именами (например,
statement.duration
и query.time
). Это сбивает с толку пользователей, с этим трудно работать, и еще труднее визуализировать или агрегировать между системами. В этой статье в блоге Grafana разобрано как достигнуть согласованности в именовании метрик и прочих сущностей.17 июня встречаемся на Database meetup от команды Авито!
Собираемся в московском офиса Авито и онлайн, чтобы послушать 3 выступления с реальными кейсами от инженеров Авито.
Если кратко, то обсудим:
➡️ Контроль ресурсов в DBaaS и проблему шумного соседа;
➡️ Отказ от репликации и жизнь из кэша;
➡️ Как перейти с Apache Kafka и Pulsar на Redpanda.
И, само собой, останется время и для нетворкинга! Регистрируйтесь по ссылке и приходите оффлайн или онлайн.
Собираемся в московском офиса Авито и онлайн, чтобы послушать 3 выступления с реальными кейсами от инженеров Авито.
Если кратко, то обсудим:
И, само собой, останется время и для нетворкинга! Регистрируйтесь по ссылке и приходите оффлайн или онлайн.
Please open Telegram to view this post
VIEW IN TELEGRAM
Как жить, когда у тебя N тысяч алертов в секунду
Если вы когда-либо работали с алертами, то наверняка знаете то самое чувство, когда кажется, что у системы уже на каждый чих есть особое уведомление. Вот только вместо полезных сигналов вы получаете бесконечный поток сообщений, в котором временами теряется действительно важная информация.
Когда алертов становится слишком много, это уже не инструмент мониторинга, а хаос. Мы начинаем их игнорировать, ставить чаты в мьют и надеяться, что, если что-то сломается, пользователи сами нам об этом расскажут. Так происходит не только в IT, но и практически везде — даже в медицине и авиации. Порой критические сигналы, которые должны спасать жизни, тонут в информационном шуме. А что делать, когда этот шум начинает мешать работать?
В этой статье рассказано о том, как в VK боролись с лавиной алертов, какие решения нашли — и, главное, как этот опыт можно применить в любой команде. Читать дальше на Хабре.
Если вы когда-либо работали с алертами, то наверняка знаете то самое чувство, когда кажется, что у системы уже на каждый чих есть особое уведомление. Вот только вместо полезных сигналов вы получаете бесконечный поток сообщений, в котором временами теряется действительно важная информация.
Когда алертов становится слишком много, это уже не инструмент мониторинга, а хаос. Мы начинаем их игнорировать, ставить чаты в мьют и надеяться, что, если что-то сломается, пользователи сами нам об этом расскажут. Так происходит не только в IT, но и практически везде — даже в медицине и авиации. Порой критические сигналы, которые должны спасать жизни, тонут в информационном шуме. А что делать, когда этот шум начинает мешать работать?
В этой статье рассказано о том, как в VK боролись с лавиной алертов, какие решения нашли — и, главное, как этот опыт можно применить в любой команде. Читать дальше на Хабре.
Rancher в продакшен: лучшие практики
👉 бесплатный вебинар от учебного центра Слёрм.
Будем разбирать:
🔸централизованное управление кластерами через единый интерфейс;
🔸автоматизированные бэкапы и восстановление;
🔸настройку доступа для команд и интеграцию внешней аутентификации;
🔸 встроенные мониторинг и использование магазина приложений.
Подробно покажем и расскажем, как Rancher упрощает эксплуатацию k8s и управление инфраструктурой.
Эксперты встречи:
⭐️ Виталий Лихачев, SRE в крупнейшем голландском тревелтехе
⭐️ Вячеслав Федосеев, TeamLead DevOps в «Честном знаке»
Когда: 16 июня в 19:00 мск
Занять место на вебинаре 👉 через бота
Больше инструментов и все необходимые hard skills для старта в DevOps — на курсе-профессии «DevOps Upgrade».
👉 бесплатный вебинар от учебного центра Слёрм.
Будем разбирать:
🔸централизованное управление кластерами через единый интерфейс;
🔸автоматизированные бэкапы и восстановление;
🔸настройку доступа для команд и интеграцию внешней аутентификации;
🔸 встроенные мониторинг и использование магазина приложений.
Подробно покажем и расскажем, как Rancher упрощает эксплуатацию k8s и управление инфраструктурой.
Эксперты встречи:
⭐️ Виталий Лихачев, SRE в крупнейшем голландском тревелтехе
⭐️ Вячеслав Федосеев, TeamLead DevOps в «Честном знаке»
Когда: 16 июня в 19:00 мск
Занять место на вебинаре 👉 через бота
Больше инструментов и все необходимые hard skills для старта в DevOps — на курсе-профессии «DevOps Upgrade».
The Lost Fourth Pillar of Observability - Config Data Monitoring
Уже много было написано о журналах, метриках и трассировках, они действительно являются ключевыми компонентами в наблюдаемости, мониторинге приложений и систем. Однако, часто упускают из виду данные конфигурации и их наблюдаемость. В этой статье рассмотрено, что такое данные конфигурации, чем они отличаются от журналов, метрик и трассировок, и обсуждается, какая архитектура необходима для хранения этого типа данных и в каких сценариях она представляет ценность. Читать дальше.
Уже много было написано о журналах, метриках и трассировках, они действительно являются ключевыми компонентами в наблюдаемости, мониторинге приложений и систем. Однако, часто упускают из виду данные конфигурации и их наблюдаемость. В этой статье рассмотрено, что такое данные конфигурации, чем они отличаются от журналов, метрик и трассировок, и обсуждается, какая архитектура необходима для хранения этого типа данных и в каких сценариях она представляет ценность. Читать дальше.
⚡️Как превратить российскую виртуализацию zVirt в комплексную платформу с элементами самообслуживания, мониторинга, аналитики и управления?
Шаг 1: Мониторинг и аналитика — оценка текущего состояния zVirt, выявление узких мест и планирование масштабирования.
Шаг 2: Расширенное управление zVirt — автоматизация задач управления, создания виртуальных ресурсов, применение ресурсных квот и разделение инфраструктуры на проекты.
Шаг 3: Гибридное облако — объединение zVirt с другими платформами виртуализации в едином портале с централизованным управлением.
Обо всех подробностях рассказываем на онлайн-вебинаре 18 июня.
👉Подробности и регистрация
Шаг 1: Мониторинг и аналитика — оценка текущего состояния zVirt, выявление узких мест и планирование масштабирования.
Шаг 2: Расширенное управление zVirt — автоматизация задач управления, создания виртуальных ресурсов, применение ресурсных квот и разделение инфраструктуры на проекты.
Шаг 3: Гибридное облако — объединение zVirt с другими платформами виртуализации в едином портале с централизованным управлением.
Обо всех подробностях рассказываем на онлайн-вебинаре 18 июня.
👉Подробности и регистрация
Как настроить мониторинг, чтобы не проспать проблему
В статье рассказывают как настроить мониторинг так, чтобы проблемы ловились сразу — ещё до того, как начнут ломиться сообщения в поддержку. По большей части описание инструментария.
В статье рассказывают как настроить мониторинг так, чтобы проблемы ловились сразу — ещё до того, как начнут ломиться сообщения в поддержку. По большей части описание инструментария.
Как мониторить k8s при помощи Grafana, Prometheus, AlertManager и Promtail с Loki вы узнаете из этого цикла статей:
How to create a Monitoring Stack using Kube-Prometheus-stack (Part 1)
How to create a Monitoring Stack: Evolving our Kubernetes Monitoring Stack (part 2)
❗️Статьи на medium.com
How to create a Monitoring Stack using Kube-Prometheus-stack (Part 1)
How to create a Monitoring Stack: Evolving our Kubernetes Monitoring Stack (part 2)
❗️Статьи на medium.com
VictoriaTraces? Вы серьезно?
В VictoriaMetrics у нас уже решения для метрик и логирования: Victoria Metrics и Victoria Logs. Наблюдаемость, как известно, включает в себя метрики, логи и трейсы. Так где же VictoriaTraces ?
Если вам интересно, планируют ли они покрыть еще и трейсы, то в этой статье приоткрывается завеса тайны. В этой статье вендор делится результатами исследования распределенной трассировки и рассматривает два ключевых вопроса: будет ли VictoriaTraces и насколько конкурентоспособной она может быть?
В VictoriaMetrics у нас уже решения для метрик и логирования: Victoria Metrics и Victoria Logs. Наблюдаемость, как известно, включает в себя метрики, логи и трейсы. Так где же VictoriaTraces ?
Если вам интересно, планируют ли они покрыть еще и трейсы, то в этой статье приоткрывается завеса тайны. В этой статье вендор делится результатами исследования распределенной трассировки и рассматривает два ключевых вопроса: будет ли VictoriaTraces и насколько конкурентоспособной она может быть?
Terraforming Your Grafana Alerts for Kubernetes Clusters
Дашборды в Grafana не всегда можно удачно затеррарформить, а вот оповещения вполне себе. В этой статье автор разбирает примеры алертинга для кластера Kubernetes.
❗️Статья на medium.com
Дашборды в Grafana не всегда можно удачно затеррарформить, а вот оповещения вполне себе. В этой статье автор разбирает примеры алертинга для кластера Kubernetes.
❗️Статья на medium.com
📊 Grafana: продвинутый уровень визуализации и алертинга
🔥 19 июня в 20:00 мск приглашаем на бесплатный вебинар «Grafana — продвинутое использование» с Анатолием Бенем.Это больше, чем графики — это визуальный интеллект вашей системы.
Что вас ждёт:
– переменные, шаблоны и динамические панели для гибкой визуализации,
– создание информативных дашбордов с PromQL и данными из Prometheus, Loki, Elasticsearch и других источников,
– настройка умных алертов и управление инцидентами,
– подключение плагинов, настройка авторизации, best practices для команд.
Узнайте, как превратить Grafana в мощный центр наблюдаемости, настроенный под вашу инфраструктуру.
👉 Регистрируйтесь по ссылке: https://otus.pw/p7Uw/?erid=2W5zFGAck7r
Занятие приурочено к старту курса "Observability: мониторинг, логирование, трейсинг", на котором вы научитесь строить эффективные системы мониторинга, работать с Prometheus, Grafana, ELK и другими инструментами, визуализировать метрики.
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
🔥 19 июня в 20:00 мск приглашаем на бесплатный вебинар «Grafana — продвинутое использование» с Анатолием Бенем.Это больше, чем графики — это визуальный интеллект вашей системы.
Что вас ждёт:
– переменные, шаблоны и динамические панели для гибкой визуализации,
– создание информативных дашбордов с PromQL и данными из Prometheus, Loki, Elasticsearch и других источников,
– настройка умных алертов и управление инцидентами,
– подключение плагинов, настройка авторизации, best practices для команд.
Узнайте, как превратить Grafana в мощный центр наблюдаемости, настроенный под вашу инфраструктуру.
👉 Регистрируйтесь по ссылке: https://otus.pw/p7Uw/?erid=2W5zFGAck7r
Занятие приурочено к старту курса "Observability: мониторинг, логирование, трейсинг", на котором вы научитесь строить эффективные системы мониторинга, работать с Prometheus, Grafana, ELK и другими инструментами, визуализировать метрики.
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
Митап для всех, кто хоть раз ронял прод
📍 19 июня | 17:30
Поговорим про опыт работы с Rust, разберемся, что делать с инфраструктурным зоопарком.
Будут живые дискуссии, дебаты и мерч за лучшую историю про инженерный провал :)
Регистрация по ссылке, оффлайн или онлайн: https://slc.tl/ggsx6
Чтобы не пропустить митап и узнавать о других мероприятиях, воркшопах и бесплатных курсах Selectel, подписывайтесь на @selectel_events
Реклама. АО «Селектел», ИНН 7810962785, ERID: 2VtzqxQ3on6
📍 19 июня | 17:30
Поговорим про опыт работы с Rust, разберемся, что делать с инфраструктурным зоопарком.
Будут живые дискуссии, дебаты и мерч за лучшую историю про инженерный провал :)
Регистрация по ссылке, оффлайн или онлайн: https://slc.tl/ggsx6
Чтобы не пропустить митап и узнавать о других мероприятиях, воркшопах и бесплатных курсах Selectel, подписывайтесь на @selectel_events
Реклама. АО «Селектел», ИНН 7810962785, ERID: 2VtzqxQ3on6
How to import Prometheus-style alerts and recording rules to Grafana-managed alerts and recording rules
Статья в блоге Grafana посвящена новой функциональности в Grafana 12, которая позволяет массово импортировать существующие файлы правил Prometheus, Grafana Loki или Grafana Mimir в оповещения и правила записи, управляемые Grafana, непосредственно через пользовательский интерфейс.
Статья в блоге Grafana посвящена новой функциональности в Grafana 12, которая позволяет массово импортировать существующие файлы правил Prometheus, Grafana Loki или Grafana Mimir в оповещения и правила записи, управляемые Grafana, непосредственно через пользовательский интерфейс.
Mastering the OpenTelemetry Transformation Language (OTTL)
Экосистема OpenTelemetry продолжает развиваться одновременно с другими мощными инструментами, которые улучшают стратегию наблюдения. Среди них — выделяется язык преобразования OpenTelemetry (OTTL), который обладает возможностями манипулирования и преобразования телеметрических данных.
В этой статье рассматривается, что такое OTTL, как он работает и как его можно использовать для максимального увеличения ценности данных о наблюдаемости с минимальными усилиями.
Экосистема OpenTelemetry продолжает развиваться одновременно с другими мощными инструментами, которые улучшают стратегию наблюдения. Среди них — выделяется язык преобразования OpenTelemetry (OTTL), который обладает возможностями манипулирования и преобразования телеметрических данных.
В этой статье рассматривается, что такое OTTL, как он работает и как его можно использовать для максимального увеличения ценности данных о наблюдаемости с минимальными усилиями.
«Изучаем OpenTelemetry: современный мониторинг систем»
OpenTelemetry сегодня – это отраслевой стандарт сбора и передачи данных телеметрии, а также набор инструментов, позволяющий интерпретировать подаваемые системой сигналы о своем состоянии. Основатели проекта Тед Янг и Остин Паркер создали руководство изучению OpenTelemetry для всех, кто хочет глубоко разобраться в наблюдаемости.
🔍 Что внутри?
– Настройка и диагностика OpenTelemetry.
– Лучшие практики наблюдаемости для Kubernetes, AWS Lambda и других облачных сервисов.
– Как инструментировать свои сервисы и библиотеки с
помощью OpenTelemetry.
📌 Для кого?
DevOps, SRE, бэкенд-разработчики и все, кто хочет вывести мониторинг на новый уровень.
Выведите мониторинг на новый уровень!
Ознакомиться с книгой на сайте издательства 📖
Реклама: ООО” МЕЙЛ ПЛЮС” ИНН 7802524386 ERID: 2VtzqumhF2W
OpenTelemetry сегодня – это отраслевой стандарт сбора и передачи данных телеметрии, а также набор инструментов, позволяющий интерпретировать подаваемые системой сигналы о своем состоянии. Основатели проекта Тед Янг и Остин Паркер создали руководство изучению OpenTelemetry для всех, кто хочет глубоко разобраться в наблюдаемости.
🔍 Что внутри?
– Настройка и диагностика OpenTelemetry.
– Лучшие практики наблюдаемости для Kubernetes, AWS Lambda и других облачных сервисов.
– Как инструментировать свои сервисы и библиотеки с
помощью OpenTelemetry.
📌 Для кого?
DevOps, SRE, бэкенд-разработчики и все, кто хочет вывести мониторинг на новый уровень.
Выведите мониторинг на новый уровень!
Ознакомиться с книгой на сайте издательства 📖
Реклама: ООО” МЕЙЛ ПЛЮС” ИНН 7802524386 ERID: 2VtzqumhF2W
Сказ Платформы про ученья: дата-центра отключение.
Жили-были в королевстве Ozon Tech мудрые и дальновидные инженеры Платформы. И решили они научиться так отключать один из ДЦ, чтобы ни трафинка не пригнулась, ни листик не шелохнулся, ни latency не подпрыгнуло.
20 июня этот сказочный митап можно увидеть своими глазами в Москве или онлайн. Главное — успеть зарегистрироваться.
Жили-были в королевстве Ozon Tech мудрые и дальновидные инженеры Платформы. И решили они научиться так отключать один из ДЦ, чтобы ни трафинка не пригнулась, ни листик не шелохнулся, ни latency не подпрыгнуло.
20 июня этот сказочный митап можно увидеть своими глазами в Москве или онлайн. Главное — успеть зарегистрироваться.
Обнаружение аномалий в данных временных рядов с помощью статистического анализа
Настройка оповещений для различных метрик не всегда представляет из себя тривиальную задачу. В некоторых случаях может быть вполне достаточно простого порогового значения, например, для отслеживания свободного места на диске устройства. Вы можете просто установить оповещение о том, что осталось 10% свободного места, и все готово. То же самое касается и мониторинга доступной памяти на сервере. Далее в переводе статьи на Хабре.
Настройка оповещений для различных метрик не всегда представляет из себя тривиальную задачу. В некоторых случаях может быть вполне достаточно простого порогового значения, например, для отслеживания свободного места на диске устройства. Вы можете просто установить оповещение о том, что осталось 10% свободного места, и все готово. То же самое касается и мониторинга доступной памяти на сервере. Далее в переводе статьи на Хабре.
На что способен GPU-сервер YADRO G4208P G3 c H100 NVL и RTX 4090 на борту
Какую платформу выбрать для решения конкретной ИИ-задачи? Нужны ли именно вам топовые H100 NVL или можно обойтись RTX 4090, которые в заводских условиях адаптированы для работы в GPU-сервере? Что такое NVLink и когда он нужен?
Инженеры из YADRO отвечают на эти и многие другие вопросы по итогам масштабного тестирования собственного GPU-сервера G4208P G3. Тесты проводились на десятке ИИ-моделей и бенчмарков, включая GPT-2 Андрея Карпаты на 1,6 млрд параметров и промышленный MLCommons.
Статья на Хабре →
Какую платформу выбрать для решения конкретной ИИ-задачи? Нужны ли именно вам топовые H100 NVL или можно обойтись RTX 4090, которые в заводских условиях адаптированы для работы в GPU-сервере? Что такое NVLink и когда он нужен?
Инженеры из YADRO отвечают на эти и многие другие вопросы по итогам масштабного тестирования собственного GPU-сервера G4208P G3. Тесты проводились на десятке ИИ-моделей и бенчмарков, включая GPT-2 Андрея Карпаты на 1,6 млрд параметров и промышленный MLCommons.
Статья на Хабре →
Configure and customize Kubernetes Monitoring easier with Alloy Operator
В helm chart Kubernetes Monitoring появилась возможность динамической настройки сбора данных телеметрии с помощью Alloy Operator. В этой стать в блоге Grafana рассказано об этом подробнее.
В helm chart Kubernetes Monitoring появилась возможность динамической настройки сбора данных телеметрии с помощью Alloy Operator. В этой стать в блоге Grafana рассказано об этом подробнее.
Migrating to ClickStack from Elastic
В этом руководстве описан подход к миграции с Elastic Stack на ClickStack. Фокус сделан на стратегии параллельной работы, которая минимизирует риск, используя сильные стороны ClickHouse в рабочих нагрузках наблюдаемости. Документация ClickHouse.
В этом руководстве описан подход к миграции с Elastic Stack на ClickStack. Фокус сделан на стратегии параллельной работы, которая минимизирует риск, используя сильные стороны ClickHouse в рабочих нагрузках наблюдаемости. Документация ClickHouse.