Telegram Web Link
Monitoring our monitoring: how we validate our Prometheus alert rules

Статья из блога Cloudflare. Рассказывает как они работают с правилами для алертов из Prometheus. Читать статью.
👍3
Distributed Tracing in Rust

Как реализовать распределенную трассировку между несколькими сервисами с помощью actix, rabbitmq (lapin), tracing и opentelemetry. Читать статью.
👍2
Forwarded from /usr/bin
robusta

Robusta — это одновременно и инструмент автоматизации для Kubernetes, и платформа для многокластерной наблюдаемости.

Robusta обычно используется вместе с Prometheus, но поддерживаются и другие инструменты. Прослушивая все события в кластере, Robusta скажет, почему сработали оповещения, что произошло в это время и что вы можете с этим сделать. Robusta также может улучшить существующие оповещения и использоваться для создания новых оповещений.

Репыч на Гитхабе.
👍5
goaccess

GoAccess — это анализатор веб-журналов в реальном времени и интерактивный просмотрщик, работающий в терминале на *nix-системах или через браузер. Он предоставляет HTTP-статистику для системных администраторов, которым нужен визуальный отчет о работе сервера "на лету".

Репыч на Гитхабе.
👍18
Can We Stop With Those Horrible “System Overview” Dashboards Already?

На часах 2 часа ночи, вы не спите, ваш телефон постоянно звонит по поводу проблем на проде. Вы смотрите на бесконечный дашборд «Обзор системы», прокручивая вверх и вниз десятки графиков, показывающих различные метрики и SLI — некоторые вы видели раньше, некоторые совершенно новые, некоторые вообще не работают. Некоторые графики растут, некоторые падают, в целом всё выглядит загадочно.

В этой статье автор объясняет, почему дашборд «Обзор системы» приносит больше вреда, чем пользы. А если вы все же решили его использовать — объяснит как это делать немного по-другому.

Читать статью.

❗️Статья на Медиум, возможно, нужен VPN.
👍7👎1
goreplay

GoReplay — это инструмент сетевого мониторинга с открытым исходным кодом, позволяющий записывать трафик в реальном времени и записывать его для нагрузочного тестирования, мониторинга и детального анализа.

Репыч на Гитхабе.
👍4
Become A DevOps Engineer in 2023: [A Practical Roadmap]

В
этом руководстве рассказано о практической дорожной карте становления DevOps-инженера, основываясь 10-летнем опыте работы автора в качестве DevOps-инженера в различных организациях. Читать статью.
👍7
❗️Новая рубрика на канале «Вопрос-ответ»

Часто в личных сообщениях или в комментариях подписчики канала присылают интересные вопросы, связанные с мониторингом. К сожалению, в комментариях часто такие вопросы остаются без ответа. Думаю, вам тоже было бы интересно взглянуть на эти вопросы или задать свои. Да, и в целом, это будет полезно для развития сообщества и и обмена опытом.

1 раз или 2 раза в неделю, в зависимости от количества вопросов, я буду публиковать посты с такими вопросами, где подписчики канала смогут помочь коллегам разобраться в насущных вопросах. Первый вопрос опубликую сегодня вслед за этим постом.

Если у вас есть проблема или вопрос, в котором вы не смогли разобраться и найти информацию в интернете, присылайте мне в личку @antoniusfirst описание доступным языком, чтобы можно было сразу такие вопросы публиковать.

Как вам идея с вопросами-ответами?
Первый вопрос от подписчика. Ответы просьба оставлять в комментариях к посту.

Всем привет!
Хотел спросить. А был ли у кого опыт настройки конфига PagerDuty для AlertManager через prometheus-operator?
Если делать это в глобальных values, где конфиг не проходит через CRD - оно работает.
Но если сделать это через CRD, то вместо:

- routing_key: ****

На выходе получается:

- routing_key: |
*****

Что ломает alertManager, и он не воспринимает это за конфиг PD, а считает кастомным. Соответвенно - не использует нужный шаблон для алерта, и на ответе от PD закономерно получаем 400.

В гугле очень мало информации по такой связке, и не понятно, то ли это бага CRD, то ли нужно перейти в прометеус-операраторе с альфа версии апи на бета(возможно там это исправлено).
Celebrating Grafana 10: Top 10 Grafana features you need to know about

С момента создания Grafana 10 лет назад в проект с открытым исходным кодом было внесено более 43 000 правок. Основатель Grafana Торкель Одегаард (Torkel Ödegaard) сделал более 7 600 коммитов, и недавно он рассказал о некоторых любимых дополнениях.

В этой статье вы узнаете, что вошло в не совсем беспристрастный, но все же абсолютно достоверный список 10 лучших функций Grafana. Вы можете познакомиться с этими и всеми последними обновлениями, представленными в Grafana 10, на Grafana Cloud, где есть бесплатный доступ. Читать статью.
👍7
How we improved Grafana's alert state history to provide better insights into your alerting data

В этой статье в блоге Grafana рассказано о глубокой переработке системы истории состояний оповещений в Grafana Alerting. Теперь можно использовать возможности запросов в Grafana Loki в сочетании с обновленным и улучшенным пользовательским интерфейсом для анализа, отслеживания и создания дашбордов по оповещениям. Читать дальше.
👍4
#бесплатно

👥 Митап Yandex Infrastructure в Новосибирске

У Яндекса огромная инфраструктура хранения и обработки данных, многие ее составляющие — собственные разработки компании. За все эти технологии, процессы и продукты отвечает команда инфраструктуры.

Приглашаю на митап, где расскажут о:

• YDB:
О том, как упрощается разработка клиентского приложения, когда на уровне платформы для работы с данными гарантирована атомарность вычитания данных из потока событий в топики и запись в таблицы.

• Arc — собственная система контроля версий для монорепозитория:
Расскажут, зачем нужен монорепозиторий, как устроена внутренняя система контроля версий в Яндексе и виртуализация файловой системы.

• Система сборки Ya make:
Иногда разработка в монорепозитории большой компании предъявляет к системе сборки неожиданные требования — расскажут, как мы с этим справляемся и с какими компромиссами нам приходится жить.

📍 27 июля, 18:00
📍 Новосибирск, Лофт Парк «Подземка», Красный проспект, 161
📍 Регистрация — по ссылке.
👎4👍21
Мониторинг пользователей OpenVPN с помощью Zabbix и визуализации в Grafana

В этой статье рассказано о шаблоне для Zabbix и дашборде в Grafana для визуализации активности пользователей OpenVPN. Читать дальше.
👍9
Как из метрик Prometheus построить график Latency

В этой статье рассказано как визуализировать Latency с помощью Histogram метрики. Будет полезно тем, кто еще не строил метрики из Prometheus, а так же тем, кто хочет понять как их интерпретировать. Читать статью.
👍1
Centralized Resource Display for Multiple Kubernetes Clusters

Несколько бесплатных инструментов для централизованного просмотра показателей производительности кластеров K8S. Читать статью.

❗️Статья на Медиум, возможно, нужен VPN.
Новый выпуск о событиях в облачной индустрии — Monthly Cloud News June

Developer Advocate Yandex Cloud Антон Черноусов вместе с архитектором Yandex Cloud Павлом Селивановым и Александром Титовым из «Экспресс 42» обсудят:

• Kuberconf'23;
• исследование состояния DevOps 2023;
• тренды в развитии Kubernetes®;
• Argo CD;
• общие тренды внедрения практик DevOps.

Смотрите выпуск на YouTube-канале Yandex Cloud.
👍4
Metrics: From Prometheus to OpenTelemetry with no Telemetry Data Loss

В этой статье автор делится своим опытом миграции метрик с Prometheus на OpenTelemetry без потери данных. Читать статью.

❗️Статья на Медиум, возможно, нужен VPN.
👍2
Конвейер CI/CD для Java-приложения в Kubernetes + Jenkins

Теория — это хорошо, но подсмотреть чужой опыт на практике — бесценно. Специально для этой цели делимся с вами видео (https://youtu.be/adG0vq5boL8), где инженер за 3 часа строит пайплайн для Java-приложения в Kubernetes с помощью Jenkins. Каждое свое действие он объясняет, так что вопросов быть не должно.

По традиции предлагаем использовать Яндекс Браузер со встроенным синхронным переводчиком, если видео на английском пока даются тяжело 😉

Пользуйтесь и делитесь с коллегами 🤝

#kubernetes #devops #jenkins #nexus #docker #cicd #java

@DevOpsKaz
👍8👎1
Две статьи из блога Zabbix об анализе и трансформации данных внутри Zabbix

Zabbix in: Exploratory Data Analysis Rehearsal – Part 1. В этой статье рассказывают на примере мониторинга Nginx о создании новых метрик, которые помогут быстрее проводить диагностику нештатной работы сервиса.

Zabbix in: Exploratory Data Analysis Rehearsal – Part 2. Здесь разобран более продвинутый анализ метрик: стандартная девиация, персентиль, вариативность и другие.
👍51
Как использовать JMeter для нагрузочного тестирования и тестирования производительности

Apache JMeter — это инструмент для проведения нагрузочного тестирования, представляющий собой десктопное приложение с открытым исходным кодом на базе Java. JMeter позволяет определить, может ли тестируемое веб-приложение удовлетворять требованиям высокой нагрузки или нет. Он также помогает проанализировать работу всего сервера под высокой нагрузкой. Читать статью.
2025/07/09 05:43:47
Back to Top
HTML Embed Code: