How to Use Error Budgets to Protect Service Reliability
«Бюджет ошибок» описывает количество времени, в течение которого система может находиться офлайн, прежде чем это повлечет за собой ощутимые последствия для бизнеса. Бюджеты ошибок используются вместе с соглашениями об уровне обслуживания (SLA) и целями уровня обслуживания (SLO), чтобы информировать организации, когда недоступность системы привела к нарушению контракта.
Включение бюджетов ошибок в стратегию обеспечения надежности приложений обеспечивает методический подход к балансу между риском и стабильностью. Бюджеты ошибок признают, что случайные простои, ошибочные деплои и ошибки неизбежны. Их роль состоит в том, чтобы сказать, сколько таких инцидентов система может выдержать. Доступный бюджет ошибок также определяет, будет ли следующая задача создавать новую функцию или заниматься исправлением другой ошибки. Читать дальше.
«Бюджет ошибок» описывает количество времени, в течение которого система может находиться офлайн, прежде чем это повлечет за собой ощутимые последствия для бизнеса. Бюджеты ошибок используются вместе с соглашениями об уровне обслуживания (SLA) и целями уровня обслуживания (SLO), чтобы информировать организации, когда недоступность системы привела к нарушению контракта.
Включение бюджетов ошибок в стратегию обеспечения надежности приложений обеспечивает методический подход к балансу между риском и стабильностью. Бюджеты ошибок признают, что случайные простои, ошибочные деплои и ошибки неизбежны. Их роль состоит в том, чтобы сказать, сколько таких инцидентов система может выдержать. Доступный бюджет ошибок также определяет, будет ли следующая задача создавать новую функцию или заниматься исправлением другой ошибки. Читать дальше.
Вышла Grafana 9.2
Что нового:
⚡️ новая панель помощи. В Grafana 9.2 при переходе в меню «Panel menu > More» появляется новый пункт меню «Get help». Откроется мастер, который создаст моментальные снимки данных, которые можно отправить в службу поддержки либо в виде проблемы GitHub, либо в справочной системе Grafana, чтобы лучше сообщать о любых проблемах с панелью.
⚡️ упрощенный редактор переменных запроса для Grafana Loki. В дополнение к конструктору запросов Grafana Loki, который появился в Grafana 9.0, появились раскрывающиеся списки, чтобы упростить создание и редактирование переменных.
⚡️ улучшенный пользовательский интерфейс для Google Cloud. Для пользователей, которые используют плагин Google Cloud Monitoring, обновился интерфейс, который более логично группирует элементы построителя запросов, поэтому создавать запросы стало более интуитивно понятным.
⚡️ преобразования: INNER JOINS. Появилась поддержка преобразования INNER JOINS и OUTER JOINS, которые работают аналогично SQL JOIN (искать в Transform).
⚡️ Grafana Alerting: правила оповещения по умолчанию возвращают состояние ошибки при ошибке выполнения или тайм-ауте. Правила, созданные с помощью Grafana Alerting, ранее переключались в состояние алерта, когда правило сталкивалось с ошибкой выполнения или тайм-аутом. Новые правила обработки ошибок теперь по умолчанию переключаются в состояние «Error» при сбое выполнения или истечении времени ожидания. Вы можете изменить это значение по умолчанию на «Warning» или «ОК».
О других обновлениях можно узнать в статье в блоге Grafana.
Что нового:
⚡️ новая панель помощи. В Grafana 9.2 при переходе в меню «Panel menu > More» появляется новый пункт меню «Get help». Откроется мастер, который создаст моментальные снимки данных, которые можно отправить в службу поддержки либо в виде проблемы GitHub, либо в справочной системе Grafana, чтобы лучше сообщать о любых проблемах с панелью.
⚡️ упрощенный редактор переменных запроса для Grafana Loki. В дополнение к конструктору запросов Grafana Loki, который появился в Grafana 9.0, появились раскрывающиеся списки, чтобы упростить создание и редактирование переменных.
⚡️ улучшенный пользовательский интерфейс для Google Cloud. Для пользователей, которые используют плагин Google Cloud Monitoring, обновился интерфейс, который более логично группирует элементы построителя запросов, поэтому создавать запросы стало более интуитивно понятным.
⚡️ преобразования: INNER JOINS. Появилась поддержка преобразования INNER JOINS и OUTER JOINS, которые работают аналогично SQL JOIN (искать в Transform).
⚡️ Grafana Alerting: правила оповещения по умолчанию возвращают состояние ошибки при ошибке выполнения или тайм-ауте. Правила, созданные с помощью Grafana Alerting, ранее переключались в состояние алерта, когда правило сталкивалось с ошибкой выполнения или тайм-аутом. Новые правила обработки ошибок теперь по умолчанию переключаются в состояние «Error» при сбое выполнения или истечении времени ожидания. Вы можете изменить это значение по умолчанию на «Warning» или «ОК».
О других обновлениях можно узнать в статье в блоге Grafana.
AIOps: What, Why, and How?
Про AIOps многие говорят, но сейчас, к сожалению, на российском рынке количество таких систем заметно снизилось. Однако, выбор есть. В этой статье о том как должна быть устроена AIOps система, для чего она предназначена и кейсы её использования. Читать дальше.
Про AIOps многие говорят, но сейчас, к сожалению, на российском рынке количество таких систем заметно снизилось. Однако, выбор есть. В этой статье о том как должна быть устроена AIOps система, для чего она предназначена и кейсы её использования. Читать дальше.
Traditional vs Modern Incident Response
Некоторый ликбез о том, как докрутить систему реакции на инциденты до уровня не просто оповестить, а предотвратить в будущем, быстро найти похожее решение и т.д. Читать дальше.
Некоторый ликбез о том, как докрутить систему реакции на инциденты до уровня не просто оповестить, а предотвратить в будущем, быстро найти похожее решение и т.д. Читать дальше.
Monitor your PostgreSQL instances using Monika
Релиз Monika v1.13.3 был выпущен 17 октября 2022 года. В этой версии появилась возможность мониторинга PostgreSQL с использованием конфигураций Monika. Читать дальше.
Релиз Monika v1.13.3 был выпущен 17 октября 2022 года. В этой версии появилась возможность мониторинга PostgreSQL с использованием конфигураций Monika. Читать дальше.
How do you keep track of the actual service level objectives?
О формировании различных типов SLO для оценки доступности приложений. Читать дальше.
О формировании различных типов SLO для оценки доступности приложений. Читать дальше.
Site Reliability Engineering: What is a Toil?
Реактивная работа — тактическое быстрое решение проблемы. Если такая работа часто повторяется — это явные признаки повторяющегося труда (toil). Проактивная работа — это время, инвестированное в улучшения. В этой статье разбираются определения задач из обоих категорий и методы снижения временных затрат на реактивную работу. Читать дальше.
Реактивная работа — тактическое быстрое решение проблемы. Если такая работа часто повторяется — это явные признаки повторяющегося труда (toil). Проактивная работа — это время, инвестированное в улучшения. В этой статье разбираются определения задач из обоих категорий и методы снижения временных затрат на реактивную работу. Читать дальше.
Observability Mythbusters: Observability Anti-Patterns
Разрушители легенд о наблюдаемости. В этом несколько антипаттернов при использовании практик наблюдаемости. Читать дальше.
Разрушители легенд о наблюдаемости. В этом несколько антипаттернов при использовании практик наблюдаемости. Читать дальше.
How to Install and Configure Graphite Monitoring System on Ubuntu 22.04
Небольшой воркшоп по установке Graphite. Читать дальше.
Небольшой воркшоп по установке Graphite. Читать дальше.
Neo4j Slow Queries Monitor and more
Сбор данных в Prometheus и дальнейшее отображение в Grafana. Читать дальше.
Сбор данных в Prometheus и дальнейшее отображение в Grafana. Читать дальше.
Zabbix Handy Tips: Extracting metrics from structured data with Zabbix preprocessing
Свежее видео в блоге Zabbix на Youtube. Рассказывают о том, как извлекать метрики из структурированных данных, таких как CSV, XML, JSON и других структур данных, с помощью предварительной обработки Zabbix. Смотреть.
Свежее видео в блоге Zabbix на Youtube. Рассказывают о том, как извлекать метрики из структурированных данных, таких как CSV, XML, JSON и других структур данных, с помощью предварительной обработки Zabbix. Смотреть.
Dependency-Free Kubernetes Cluster Monitoring
Murre — это масштабируемый по запросу источник метрик для K8s.
Murre получает метрики ресурсов процессора и памяти непосредственно из kubelet на каждом узле K8s. Murre также обогащает ресурсы соответствующими запросами и ограничениями K8s из каждого PodSpec. В этой статье подробнее об этом инструменте.
Репыч на Гитхабе.
Murre — это масштабируемый по запросу источник метрик для K8s.
Murre получает метрики ресурсов процессора и памяти непосредственно из kubelet на каждом узле K8s. Murre также обогащает ресурсы соответствующими запросами и ограничениями K8s из каждого PodSpec. В этой статье подробнее об этом инструменте.
Репыч на Гитхабе.
А кто-то использует Icinga? В этой статье о безагентном мониторинге при помощи этого инструмента. Читать дальше.
VaaS — инструмент для мониторинга kubernetes с возможностью интеграции с OpenFaaS.
Статья с описанием решения
Репыч на Гитхабе
Статья с описанием решения
Репыч на Гитхабе
How to integrate grafana in our internal tools/admin panels using Auth proxy?
Когда нужна интеграция Grafana в реверс-прокси. В этой статье о том, как интегрировать grafana с внутренним приложением, используя прокси-модуль аутентификации grafana. Читать дальше.
Когда нужна интеграция Grafana в реверс-прокси. В этой статье о том, как интегрировать grafana с внутренним приложением, используя прокси-модуль аутентификации grafana. Читать дальше.
Setup Prometheus and Grafana to Monitor the K8s Cluster
Воркшоп про натягиваниесовы на глобус Prometheus и Grafana на кластер K8s. Читать дальше.
Воркшоп про натягивание
Logging Bash History via Promtail, Loki and Grafana
В этом посте будет рассмотрена пошаговая настройка одного сервера для отображения всех введенных команд в консоли. Все перечисленные команды лучше всего использовать с автоматической настройкой инфраструктуры, потому что настройка этой функции на каждом сервере занимает очень много времени. Читать дальше.
В этом посте будет рассмотрена пошаговая настройка одного сервера для отображения всех введенных команд в консоли. Все перечисленные команды лучше всего использовать с автоматической настройкой инфраструктуры, потому что настройка этой функции на каждом сервере занимает очень много времени. Читать дальше.