How to reduce expenses on monitoring: be smarter about data
Мониторинг может стать дорогостоящим из-за огромного количества данных, которые необходимо обработать. В этой статье вы узнаете о лучших способах хранения и обработки показателей мониторинга для сокращения расходов, а также о том, как VictoriaMetrics может в этом помочь. Читать статью.
Мониторинг может стать дорогостоящим из-за огромного количества данных, которые необходимо обработать. В этой статье вы узнаете о лучших способах хранения и обработки показателей мониторинга для сокращения расходов, а также о том, как VictoriaMetrics может в этом помочь. Читать статью.
Customizing ICMP Payload in Ping Command
Ping — полезный протокол, который очень распространен при мониторинге доступности удаленных систем. В этой статье разобран механизм работы этого протокола и принципы работы таких утилит как ping, fping, hping. Статья длинная и полезная. Читать.
❗️Статья на medium.com
Ping — полезный протокол, который очень распространен при мониторинге доступности удаленных систем. В этой статье разобран механизм работы этого протокола и принципы работы таких утилит как ping, fping, hping. Статья длинная и полезная. Читать.
❗️Статья на medium.com
beszel
Легковесная утилита для мониторинга ресурсов сервера с историческими данными, статистикой и алертами.
Репыч на Гитхабе
Легковесная утилита для мониторинга ресурсов сервера с историческими данными, статистикой и алертами.
Репыч на Гитхабе
Как снизить расходы на мониторинг: более разумный подход к данным
В этой статье вы узнаете о лучших способах хранения и обработки метрик мониторинга для снижения расходов на хранение и о том, как VictoriaMetrics может в этом помочь. Читать перевод на Хабре.
В этой статье вы узнаете о лучших способах хранения и обработки метрик мониторинга для снижения расходов на хранение и о том, как VictoriaMetrics может в этом помочь. Читать перевод на Хабре.
Key Prometheus concepts every Grafana user should know
В этой статье автор поделится некоторыми из своих ключевых выводов из книги «Prometheus Up & Running», которые особенно актуальны для инженеров, работающих с Grafana. Читать в блоге Grafana.
В этой статье автор поделится некоторыми из своих ключевых выводов из книги «Prometheus Up & Running», которые особенно актуальны для инженеров, работающих с Grafana. Читать в блоге Grafana.
Inside PromQL: A closer look at the mechanics of a Prometheus query
В этой автор предлагает заглянуть под капот Prometheus и лучше понять, как данные передаются от источника к конечному пункту назначения в API. Автор также прикладывает ссылку на свое выступление и слайды с PromCon 2024. Читать статью.
В этой автор предлагает заглянуть под капот Prometheus и лучше понять, как данные передаются от источника к конечному пункту назначения в API. Автор также прикладывает ссылку на свое выступление и слайды с PromCon 2024. Читать статью.
Как снизить расходы на мониторинг: замена Prometheus на VictoriaMetrics
Мониторинг может оказаться дорогим делом из-за огромных объемов данных, которые необходимо обрабатывать. В этой статье вы узнаете о лучших способах хранения и обработки метрик мониторинга для снижения расходов и о том, как VictoriaMetrics может в этом помочь. Читать на Хабре.
Мониторинг может оказаться дорогим делом из-за огромных объемов данных, которые необходимо обрабатывать. В этой статье вы узнаете о лучших способах хранения и обработки метрик мониторинга для снижения расходов и о том, как VictoriaMetrics может в этом помочь. Читать на Хабре.
Monitoring Microsoft SQL Server with Grafana: A Comprehensive Guide
В этой статье автор делится комплексной панелью Grafana, которую он создал для мониторинга Microsoft SQL Server. Дашборд построен с использованием собственных функций MS SQL, без необходимости использования дополнительных инструментов, таких как Prometheus. Читать статью.
Статья на medium.com
В этой статье автор делится комплексной панелью Grafana, которую он создал для мониторинга Microsoft SQL Server. Дашборд построен с использованием собственных функций MS SQL, без необходимости использования дополнительных инструментов, таких как Prometheus. Читать статью.
Статья на medium.com
Monitoring Failed Jobs in NetBackup with Zabbix
Мониторинг решений резервного копирования может быть трудной задачей – особенно потому, что многие инструменты резервного копирования не предоставляют API и с ними просто нелегко работать. Одно из таких решений – NetBackup. К счастью, Zabbix с его функциями низкоуровневого обнаружения (LLD) и возможностью использовать пользовательские параметры для расширения агента Zabbix поможет решить задачу мониторинга NetBackup. Подробнее в блоге Zabbix.
Мониторинг решений резервного копирования может быть трудной задачей – особенно потому, что многие инструменты резервного копирования не предоставляют API и с ними просто нелегко работать. Одно из таких решений – NetBackup. К счастью, Zabbix с его функциями низкоуровневого обнаружения (LLD) и возможностью использовать пользовательские параметры для расширения агента Zabbix поможет решить задачу мониторинга NetBackup. Подробнее в блоге Zabbix.
promscale — всё?
Случайно зашел в репозиторий Promscale и увидел, что он в архиве со 2 апреля 2024 года. Интересное было решение. Кто-то его использовал в работе? Может на какой-то аналог перешли?
Случайно зашел в репозиторий Promscale и увидел, что он в архиве со 2 апреля 2024 года. Интересное было решение. Кто-то его использовал в работе? Может на какой-то аналог перешли?
Как сделать простые метрики для оценки полосы пропускания сети?
Часто для решения различных задач приходится пользоваться услугами облачных провайдеров для аренды VPS(Virtual Private Server). Чаще всего, провайдеры дешевых VPS серверов никак не гарантируют полосу пропускания сети. Однако обычно это не вызывает каких-либо неудобств, особенно если ваш проект не сильно требователен к скорости интернета.
Работать все будет следующим образом. Prometheus будет с какой-то периодичностью дергать speedtest-exporter для получения данных по скорости интернета и сохрянять эти данные. Grafana будет забирать данные из Prometheus и отображать их. Читать дальше на Хабре.
Часто для решения различных задач приходится пользоваться услугами облачных провайдеров для аренды VPS(Virtual Private Server). Чаще всего, провайдеры дешевых VPS серверов никак не гарантируют полосу пропускания сети. Однако обычно это не вызывает каких-либо неудобств, особенно если ваш проект не сильно требователен к скорости интернета.
Работать все будет следующим образом. Prometheus будет с какой-то периодичностью дергать speedtest-exporter для получения данных по скорости интернета и сохрянять эти данные. Grafana будет забирать данные из Prometheus и отображать их. Читать дальше на Хабре.
Скрипт для общего мониторинга производительности Linux-системы. Быстро и просто.
#!/bin/bash
# Colors for readability
GREEN='\033[0;32m'
YELLOW='\033[1;33m'
RED='\033[0;31m'
NC='\033[0m' # No Color
echo -e "${GREEN}===== System Monitoring Script =====${NC}"
# 1. CPU Usage
echo -e "${YELLOW}\n>> CPU Usage: ${NC}"
mpstat | awk '/all/ {print "CPU Load: " $3 "% idle"}'
# 2. Memory Usage
echo -e "${YELLOW}\n>> Memory Usage: ${NC}"
free -h | awk '/Mem/ {print "Total Memory: " $2 "\nUsed: " $3 "\nFree: " $4}'
echo -e "Swap:\n"$(free -h | awk '/Swap/ {print "Total: " $2 ", Used: " $3 ", Free: " $4}')
# 3. Disk Usage
echo -e "${YELLOW}\n>> Disk Usage: ${NC}"
df -h | grep '^/dev' | awk '{print $1 ": " $5 " used, " $4 " available"}'
# 4. Network Traffic
echo -e "${YELLOW}\n>> Network Traffic: ${NC}"
ifstat -i eth0 1 1 | awk 'NR==3 {print "RX: " $1 " KB/s, TX: " $2 " KB/s"}'
# 5. Top 5 Memory Consuming Processes
echo -e "${YELLOW}\n>> Top 5 Memory Consuming Processes: ${NC}"
ps -eo pid,ppid,cmd,%mem,%cpu --sort=-%mem | head -n 6
# 6. Top 5 CPU Consuming Processes
echo -e "${YELLOW}\n>> Top 5 CPU Consuming Processes: ${NC}"
ps -eo pid,ppid,cmd,%mem,%cpu --sort=-%cpu | head -n 6
# 7. System Logs Monitoring
echo -e "${YELLOW}\n>> Recent Errors in System Logs: ${NC}"
journalctl -p 3 -xb | tail -n 10
echo -e "${GREEN}===== Monitoring Completed =====${NC}"
Build an Interactive OpenStack Compute Node Monitoring System with Prometheus, Grafana, and Telegram Bot for Real-Time and On-Demand Queries
В этой статье рассматривается, как создать интерактивную систему мониторинга узлов OpenStack спроволокой и куском изоленты Prometheus, Grafana и ботом Telegram для запроса статистики в реальном времени по требованию. В результате у вас будет решение для мониторинга, которое предоставляет информацию в реальном времени и мгновенные настраиваемые ооповещения в Telegram. Читать статью.
❗️Статья на medium.com
В этой статье рассматривается, как создать интерактивную систему мониторинга узлов OpenStack с
❗️Статья на medium.com
Нюансы менеджмента процессов на примере процесса «Управление инцидентами ИТ»
В этой статье рассказывается о предпосылках к созданию и внедрения процесса управления инцидентами. А еще приведен пример схемы такого процесса. Читать на Хабре.
В этой статье рассказывается о предпосылках к созданию и внедрения процесса управления инцидентами. А еще приведен пример схемы такого процесса. Читать на Хабре.
Zabbix vs Prometheus. Что выбрать для гетерогенной инфраструктуры?
Плюсы, минусы, подводные камни 🙃 На самом деле в этой статье рассказано в деталях об установке обоих решений и некоторые детали по ним. Читать статью.
Плюсы, минусы, подводные камни 🙃 На самом деле в этой статье рассказано в деталях об установке обоих решений и некоторые детали по ним. Читать статью.
Метрики и зачем они нам
Сейчас метриками никого не удивишь. Метрики повсюду, в логах приложений, в управлении проектами, в управлении продуктами, в управлении людьми, в управлении чем угодно. Можно сказать, что мы даже понимаем зачем они нужны. Но к сожалению, не все и не всегда. В статье автор обобщает базовые понятия о метриках из разных областей. Читать статью.
Сейчас метриками никого не удивишь. Метрики повсюду, в логах приложений, в управлении проектами, в управлении продуктами, в управлении людьми, в управлении чем угодно. Можно сказать, что мы даже понимаем зачем они нужны. Но к сожалению, не все и не всегда. В статье автор обобщает базовые понятия о метриках из разных областей. Читать статью.
Масштабируем приложение в Kubernetes от метрики в Yandex Monitoring (или от любого http-эндпоинта)
Представим, что у нас есть приложение, которое шлёт свои метрики в Yandex Monitoring, и стоит задача: масштабировать это приложение с помощью HPA в кластере Kubernetes в зависимости от метрики. Читать далее.
Представим, что у нас есть приложение, которое шлёт свои метрики в Yandex Monitoring, и стоит задача: масштабировать это приложение с помощью HPA в кластере Kubernetes в зависимости от метрики. Читать далее.
Тернистый путь к единому хранилищу метрик
Метрики — один из трёх базовых типов телеметрии и основа мониторинга любого приложения. Но что, если необходимо собирать их в рамках крупной и высоконагруженной экосистемы? Как получить метрики с десятков тысяч хостов разных ЦОДов и сотен типов приложений? И заодно упростить инженерам настройку правил алертинга и создание дашбордов?
В этой статье рассказано, как команда МТС Digital реализовала централизованное управление конфигурацией агентов, удобный интерфейс для настройки алертинга и правил сбора метрик. Показано, как менялась архитектура решения с ростом нагрузки, как они боролись с отставанием и потерей данных. Рассмотрено, как это позволило собрать все метрики в единое хранилище и построить дашборды здоровья по ключевым продуктам. Читать дальше.
Метрики — один из трёх базовых типов телеметрии и основа мониторинга любого приложения. Но что, если необходимо собирать их в рамках крупной и высоконагруженной экосистемы? Как получить метрики с десятков тысяч хостов разных ЦОДов и сотен типов приложений? И заодно упростить инженерам настройку правил алертинга и создание дашбордов?
В этой статье рассказано, как команда МТС Digital реализовала централизованное управление конфигурацией агентов, удобный интерфейс для настройки алертинга и правил сбора метрик. Показано, как менялась архитектура решения с ростом нагрузки, как они боролись с отставанием и потерей данных. Рассмотрено, как это позволило собрать все метрики в единое хранилище и построить дашборды здоровья по ключевым продуктам. Читать дальше.
Grafana 11.3 release: Scenes-powered dashboards, visualization and panel updates, and more
Из интересного: выполнение действий с экрана дашбордов (вызов вебхуков и др.), настройка интеграции с AD в графическом интерфейсе. Читать подробнее в блоге Grafana.
Из интересного: выполнение действий с экрана дашбордов (вызов вебхуков и др.), настройка интеграции с AD в графическом интерфейсе. Читать подробнее в блоге Grafana.
Grafana Stack: закрываем все современные потребности Observability
Ни одна система не может функционировать без сбоев, всегда могут возникнуть ситуации, когда в работе софта возникают проблемы. И здесь важное значение имеет observability — понятие, включающее в себя мониторинг и наблюдаемость. С помощью мониторинга мы можем определить, когда возникла проблема, а наблюдаемость позволяет нам понять, почему она возникла.
В этой статье рассказано о том, как можно реализовать observability с помощью сервисов стека Grafana. Читать на Хабре.
Ни одна система не может функционировать без сбоев, всегда могут возникнуть ситуации, когда в работе софта возникают проблемы. И здесь важное значение имеет observability — понятие, включающее в себя мониторинг и наблюдаемость. С помощью мониторинга мы можем определить, когда возникла проблема, а наблюдаемость позволяет нам понять, почему она возникла.
В этой статье рассказано о том, как можно реализовать observability с помощью сервисов стека Grafana. Читать на Хабре.