Telegram Web Link
Мониторинг, который кричал «Волк»! Что мы придумали для корректного сбора метрик

В этой статье Станислав Савостин из СберТеха рассказывает о внутреннем сервисе мониторинга «Маяк», который основан на Prometheus, но включает много доработок и «тюнинга» под их условия и стандарты работы. Расскажет как они дорабатывали мониторинг, как реагируют на действительно опасные ситуации и что помогает нам ловить дзен, когда все кричат: «Волк!». Читать на Хабре.
Как мы переехали с StatsD на Prometheus всего за месяц

Статья-перевод о процессе миграции со StatsD на Prometheus. Читать на Хабре.
Install Loki, Promtail and Grafana on Kubernetes

Эта статья — пошаговое руководство по установке.

❗️Статья на medium.com
Расширенное обнаружение проблем в Zabbix: продвинутая работа с триггерами, тегами и вычисляемыми элементам

Вероятно, вы уже хорошо знакомы с Zabbix, работаете с ней не первый год и всё такое. Но не весь ее функционал лежит на поверхности. В этой текстовой расшифровке вебинара раскрыты некоторые подробности работы с триггерами, тегами и вычисляемыми элементами. В частности, вы узнаете о том, как работать с ними более продуктивно и использовать возможности Zabbix на полную. Читать на Хабре.
Вышла Grafana 11.3: дашборды на базе Scenes, обновления визуализаций, панелей, и многое другое

Перевод на Хабре.
Как мы в МКБ обновляли Zabbix с 4.4 до 6.0 — проблемы и подводные камни

В этом посте рассказывают про то, почему вообще выбрали именно Zabbix для мониторинга, для чего его используют, и как решились обновиться сразу с версии 4.4 до 6.0. Читать на Хабре.
tianji

Утилита все-в-одном Website analytics + Uptime Monitor + Server Status.

Репыч на Гитхабе
beszel

Легковесная утилита для мониторинга с историческими данными и алертами.

Репыч на Гитхабе
The ultimate guide to on-call schedules

Правильно настроить дежурства — это важно, обратная ситуация может привести к затяжным инцидентам, выгоранию сотрудников и испорченной репутации компании.В этой статье рассмотрены основы составления графика дежурств и их различные типы. Читать статью.
Переезд с Elasticsearch на OpenSearch: рассказываем про нюансы и архитектуру нашей системы логирования

В этой статье рассказано про опыт перехода с Elasticsearch на OpenSearch для работы с логами. Расскажут, почему решили это сделать, какие ключевые отличия между системами нашли, несмотря на их принципиальное сходство, и подробно описана архитектура обработки логов. Читать на Хабре.
Prometheus 3.0 и OpenTelemetry: практическое руководство по хранению и запросу данных OTel

Статья в блоге Grafana
v1.0.0-victorialogs

12 ноября объявили о релизе первой версии и теперь Victoria Logs в GA.

Концепция решения

Репыч на Гитхаб

Кто-то уже тестировал? Расскажите в комментариях о своём опыте.
Beginners guide - Visualizing Canvas in Grafana

А вы используете панели Canvas в Grafana? Если еще нет, то вот видео, которое покажет некоторые возможности визуализации типа Canvas в Grafana.
Отправка метрик Pi-Hole в Graylog с помощью Zabbix

Перевод оригинальной статьи
Современный on-call менеджмент: 5 основных шагов от мониторинга до постмортема

Статья от Monq (вендор одноименной системы мониторинга), где рассказывают про важность системного подхода к организации дежурств и оповещений. Про новый продукт Monq OnCall тоже рассказывают.

Поделитесь в комментах каким решением для OnCall пользуетесь и почему выбрали именно его. На сегодняшний день самым известным, наверное, является Grafana OnCall.
How do open source solutions for logs work: Elasticsearch, Loki and VictoriaLogs

Если вы используете Elasticsearch, OpenSearch, Loki или VictoriaLogs и вам интересно, почему ОС требует много оперативной памяти или выполняет полнотекстовые поисковые запросы с очень низкой скоростью, то эта статья может быть вам интересна.

❗️Статья на medium.com
Tracer спустя год: новые фичи и возможности инструмента для аналитики ошибок в мобильных приложениях

Tracer — модульный инструмент для аналитики ошибок в мобильных приложениях от OK.Tech, который был представлен год назад. За это время в Tracer зарегистрировалось более 1500 организаций и 5000 пользователей. Сейчас решение обрабатывает более 1 млрд событий в день и обслуживает приложения, которые имеют суммарный DAU в 20 млн пользователей. Читать на Хабре.
Мониторинг ipsec strongSwan

IPsec-туннели в основном используются для связи между облаками, так как инфраструктура разнесена — например, dev и prod живут у разных облачных провайдеров. Также есть интеграции со сторонними организациями, кластеры Kubernetes в AWS, GCP и т.д. Основная цель — получать алерты о падении туннеля раньше, чем сработают алерты о недоступности сервисов. Это особенно важно, поскольку Prometheus один, он живёт в одном из облаков, а prometheus-stack в Kubernetes-кластерах работают в режиме агентов. Читать дальше.
keep

Это агрегатор событий от различных систем мониторинга с открытым исходным кодом. Есть готовые интеграции с Zabbix, Kibana, Elastic, Grafana и множеством других. Еще пока не тестировал, но выглядит интересно.

Репыч на Гитхабе
CMDB в ИТ-мониторинге или как устранять инциденты в 3 раза быстрей

Полностью поддерживаю тезис, что CMDB позволяет работать с системой мониторинга более эффективно. В статье рассказывают про российскую систему мониторинга Monq, в которую уже встроена CMDB. Но никто не мешает добавить ту же бесплатную CMDB iTop к вашей существующей системе мониторинга, тому же Zabbix.

Читать на Хабре.
2025/07/05 19:03:31
Back to Top
HTML Embed Code: