Monitoring applications in several Kubernetes clusters with Prometheus, Grafana and Loki
Предположим, что у вас есть 2 отдельных кластера K8S для двух сред. Мы не хотим дополнительной нагрузки на основной кластер, но все равно хотим получать оттуда нужные метрики и логи.
В приведенном ниже решении все части, которые могут создать дополнительную нагрузку, будут храниться в одном кластере [кластер № 1 на диаграмме] и иметь только необходимые инструменты в основном кластере [кластер № 2]. Читать дальше.
Предположим, что у вас есть 2 отдельных кластера K8S для двух сред. Мы не хотим дополнительной нагрузки на основной кластер, но все равно хотим получать оттуда нужные метрики и логи.
В приведенном ниже решении все части, которые могут создать дополнительную нагрузку, будут храниться в одном кластере [кластер № 1 на диаграмме] и иметь только необходимые инструменты в основном кластере [кластер № 2]. Читать дальше.
Introducing Zurau: An Open-Source Kafka Monitoring & Notification App
Описание решения на Медиум
Репыч на Гитхабе
Описание решения на Медиум
Репыч на Гитхабе
Multi-hop tracing with OpenTelemetry in Golang
Корреляция нескольких событий и журналов критически необходима в распределенных системах (и не только для микросервисной архитектуры). OpenTelemetry поддерживает несколько решений для наблюдения, в этой статье основное внимание уделяется трассировке.
OpenTelemetry — это не только спецификация, это SDK для многих языков программирования (OTel SDK). В этой статье используется библиотека Golang для примера. В библиотеке Golang очень много функций, поэтому не очевидно, как активировать многохоповую трассировку. Более того, могут быть разные возможные решения для достижения целей. Читать дальше.
Корреляция нескольких событий и журналов критически необходима в распределенных системах (и не только для микросервисной архитектуры). OpenTelemetry поддерживает несколько решений для наблюдения, в этой статье основное внимание уделяется трассировке.
OpenTelemetry — это не только спецификация, это SDK для многих языков программирования (OTel SDK). В этой статье используется библиотека Golang для примера. В библиотеке Golang очень много функций, поэтому не очевидно, как активировать многохоповую трассировку. Более того, могут быть разные возможные решения для достижения целей. Читать дальше.
22 tools to compute DORA metrics
Вот эти метрики:
⚡️Deployment Frequency — как часто организация успешно выпускает релизы в продуктивную среду.
⚡️Lead Time for Changes — количество времени, которое требуется для коммита в продуктивную среду.
⚡️Change Failure Rate — процент развертываний, вызвавших сбой в работе.
⚡️Time to Restore Service — сколько времени требуется организации для восстановления после сбоя в работе.
Очень часто говорят: «Эти метрики выглядят великолепно, но как мы их вычислим?». У каждой организации могут быть свои особенности, но если вы ищете готовые решения, помогающие вычислять эти показатели, вот список из 22 программных платформ. Подробностей тут не будет, рассматривайте этот пост как отправную точку для исследования.
Читать дальше.
Вот эти метрики:
⚡️Deployment Frequency — как часто организация успешно выпускает релизы в продуктивную среду.
⚡️Lead Time for Changes — количество времени, которое требуется для коммита в продуктивную среду.
⚡️Change Failure Rate — процент развертываний, вызвавших сбой в работе.
⚡️Time to Restore Service — сколько времени требуется организации для восстановления после сбоя в работе.
Очень часто говорят: «Эти метрики выглядят великолепно, но как мы их вычислим?». У каждой организации могут быть свои особенности, но если вы ищете готовые решения, помогающие вычислять эти показатели, вот список из 22 программных платформ. Подробностей тут не будет, рассматривайте этот пост как отправную точку для исследования.
Читать дальше.
Announcing Grafana Phlare, the open source database for continuous profiling at massive scale
Grafana продолжает удивлять и радовать новыми решениями. На этот раз они анонсировали Phlare — горизонтально масштабируемый, высокодоступный инструмент для долгосрочного хранения данных профилирования. Phlare использует объектное хранилище (Amazon S3, Google Cloud Storage, Azure Blob Storage, OpenStack Swift и любое объектное хранилище, совместимое с S3), поэтому позволяет хранить историю без дополнительных затрат. Подробнее в блоге Grafana (+видео).
Grafana продолжает удивлять и радовать новыми решениями. На этот раз они анонсировали Phlare — горизонтально масштабируемый, высокодоступный инструмент для долгосрочного хранения данных профилирования. Phlare использует объектное хранилище (Amazon S3, Google Cloud Storage, Azure Blob Storage, OpenStack Swift и любое объектное хранилище, совместимое с S3), поэтому позволяет хранить историю без дополнительных затрат. Подробнее в блоге Grafana (+видео).
Kubernetes IO Problem Investigation
Во время одного из нагрузочных тестов команда столкнулась с проблемой задержки между двумя API, клиентский API получил тайм-ауты при доступе к серверному API, в то время как серверный API не имел большого времени отклика или такого же количества. ошибок. Помимо высокой нагрузки, единственным индикатором было ожидание ввода-вывода и увеличение времени чтения/записи диска. Команда увидела, что приложения достигают ограничений по CPU, которые определены YAML, время ответа ping между двумя IP-адресами было увеличенным, а API на стороне сервера работало нормально. Так что расследование было продолжено с командами инфраструктуры сети и OpenStack. Читать дальше.
Во время одного из нагрузочных тестов команда столкнулась с проблемой задержки между двумя API, клиентский API получил тайм-ауты при доступе к серверному API, в то время как серверный API не имел большого времени отклика или такого же количества. ошибок. Помимо высокой нагрузки, единственным индикатором было ожидание ввода-вывода и увеличение времени чтения/записи диска. Команда увидела, что приложения достигают ограничений по CPU, которые определены YAML, время ответа ping между двумя IP-адресами было увеличенным, а API на стороне сервера работало нормально. Так что расследование было продолжено с командами инфраструктуры сети и OpenStack. Читать дальше.
Basics of YAML
При помощи YAML описываются конфигурации множества различных приложений, в том числе и мониторинговых. В этой статье необольшой обзор синтаксиса и рекомендаций по оформлению YAML-файлов. Читать дальше.
При помощи YAML описываются конфигурации множества различных приложений, в том числе и мониторинговых. В этой статье необольшой обзор синтаксиса и рекомендаций по оформлению YAML-файлов. Читать дальше.
Собираем систему потоковой аналитики из логов приложений
В этой статье хочу поделиться с вами опытом построения системы мониторинга бизнес показателей в режиме реального времени, которая построена на основе сбора логов. В основе системы лежат события, которые генерируют приложения. События сохраняются в лог (stdout, файл,..). Обработчик (сборщик) логов (в режиме реального времени) распознает в логах события приложений и отправляет их в хранилище (БД). Читать дальше.
В этой статье хочу поделиться с вами опытом построения системы мониторинга бизнес показателей в режиме реального времени, которая построена на основе сбора логов. В основе системы лежат события, которые генерируют приложения. События сохраняются в лог (stdout, файл,..). Обработчик (сборщик) логов (в режиме реального времени) распознает в логах события приложений и отправляет их в хранилище (БД). Читать дальше.
Использование Prometheus + Alertmanager + Node Exporter для мониторинга geo-распределенной инфраструктуры компании
В этой статье мы кратко рассмотрим варианты установки федерации Prometheus, Alertmanager и Node Exporter, остановимся на некоторых особенностях и конфигурации. Можно использовать установку из docker-compose файла или же развернуть систему в Kubernetes-кластере. Наша задача — собирать метрики серверов и сервисов инфраструктуры компании, хранить их, реагировать на алерты. Для решения этих задач необходима база данных. Читать дальше.
В этой статье мы кратко рассмотрим варианты установки федерации Prometheus, Alertmanager и Node Exporter, остановимся на некоторых особенностях и конфигурации. Можно использовать установку из docker-compose файла или же развернуть систему в Kubernetes-кластере. Наша задача — собирать метрики серверов и сервисов инфраструктуры компании, хранить их, реагировать на алерты. Для решения этих задач необходима база данных. Читать дальше.
How to correlate performance testing and distributed tracing to proactively improve reliability
k6 x Tempo
k6 x Tempo
Zabbix 6.4.0beta3
Вышла новая бета Zabbix 6.4. Из нововведений: появился аудит-лог для элементов данных и прототипов элементов данных, поддержка PostgreSQL 15, TSDB 2.8 и много чего другого. Подробнее.
Вышла новая бета Zabbix 6.4. Из нововведений: появился аудит-лог для элементов данных и прототипов элементов данных, поддержка PostgreSQL 15, TSDB 2.8 и много чего другого. Подробнее.
Logging With Docker, Promtail and Grafana Loki
В этом посте описано использование Grafana Promtail для сбора всех журналов и отправки их в Grafana Loki. Читать дальше.
В этом посте описано использование Grafana Promtail для сбора всех журналов и отправки их в Grafana Loki. Читать дальше.
17 DevOps Metrics To Measure Success
Производительность в разработке программного обеспечения всегда было сложно измерить. Процесс разработки уникален тем, что требует разнообразного сочетания технических и коммуникативных навыков, что требует набора специализированных показателей DevOps для отслеживания жизненно важных показателей команды. Читать дальше.
Производительность в разработке программного обеспечения всегда было сложно измерить. Процесс разработки уникален тем, что требует разнообразного сочетания технических и коммуникативных навыков, что требует набора специализированных показателей DevOps для отслеживания жизненно важных показателей команды. Читать дальше.
Backups to the rescue! (Zabbix)
Из этой статьи вы узнаете, как настроить резервное копирование окружения Zabbix. Существует множество различных вариантов, поэтому вопрос резервного копирования сводится к выбору правильного варианта. Читать дальше.
Из этой статьи вы узнаете, как настроить резервное копирование окружения Zabbix. Существует множество различных вариантов, поэтому вопрос резервного копирования сводится к выбору правильного варианта. Читать дальше.
Distributed Task Queue with Celery and Monitoring with Prometheus Metrics
В этой статье рассказывается о том, как использовать Celery и интегрировать его с Prometheus и Grafana. Будет реализован пример приложения Celery, чтобы подробно понять его внутренности. Статья также призвана ответить на вопросы, касающиеся мониторинга кластеров Celery с помощью Prometheus и Grafana. Читать дальше.
В этой статье рассказывается о том, как использовать Celery и интегрировать его с Prometheus и Grafana. Будет реализован пример приложения Celery, чтобы подробно понять его внутренности. Статья также призвана ответить на вопросы, касающиеся мониторинга кластеров Celery с помощью Prometheus и Grafana. Читать дальше.
A Primer on Distributed Systems Observability
Из этого поста вы узнаете, как могут выглядеть системы наблюдения и мониторинга и шаблоны хорошей платформы наблюдения. Читать дальше.
Из этого поста вы узнаете, как могут выглядеть системы наблюдения и мониторинга и шаблоны хорошей платформы наблюдения. Читать дальше.
How To Provisioning Dashboards In Grafana via Kubernetes
Небольшой how-to по созданию дашбордов в Grafana на основе данных из Kubernetes. Читать дальше.
Небольшой how-to по созданию дашбордов в Grafana на основе данных из Kubernetes. Читать дальше.
Практическое руководство по реализации Observability в DevOps
В этой статье описан ход развертывания следующего стека инструментов Observability (наблюдаемости) Grafana:
⚡️Loki (логи);
⚡️Promtail (агент логов);
⚡️Tempo (трассировка);
⚡️Prometheus (метрики);
⚡️Cortex и Grafana Mimir (долгосрочное хранилище для данных Prometheus);
⚡️Alertmanager (обработка оповещений Prometheus);
⚡️Grafana (визуализация).
Читать дальше.
В этой статье описан ход развертывания следующего стека инструментов Observability (наблюдаемости) Grafana:
⚡️Loki (логи);
⚡️Promtail (агент логов);
⚡️Tempo (трассировка);
⚡️Prometheus (метрики);
⚡️Cortex и Grafana Mimir (долгосрочное хранилище для данных Prometheus);
⚡️Alertmanager (обработка оповещений Prometheus);
⚡️Grafana (визуализация).
Читать дальше.