Telegram Web Link
Как сделать простые метрики для оценки полосы пропускания сети?

Часто для решения различных задач приходится пользоваться услугами облачных провайдеров для аренды VPS(Virtual Private Server). Чаще всего, провайдеры дешевых VPS серверов никак не гарантируют полосу пропускания сети. Однако обычно это не вызывает каких-либо неудобств, особенно если ваш проект не сильно требователен к скорости интернета.

Работать все будет следующим образом. Prometheus будет с какой-то периодичностью дергать speedtest-exporter для получения данных по скорости интернета и сохрянять эти данные. Grafana будет забирать данные из Prometheus и отображать их. Читать дальше на Хабре.
Скрипт для общего мониторинга производительности Linux-системы. Быстро и просто.

#!/bin/bash
# Colors for readability
GREEN='\033[0;32m'
YELLOW='\033[1;33m'
RED='\033[0;31m'
NC='\033[0m' # No Color
echo -e "${GREEN}===== System Monitoring Script =====${NC}"
# 1. CPU Usage
echo -e "${YELLOW}\n>> CPU Usage: ${NC}"
mpstat | awk '/all/ {print "CPU Load: " $3 "% idle"}'
# 2. Memory Usage
echo -e "${YELLOW}\n>> Memory Usage: ${NC}"
free -h | awk '/Mem/ {print "Total Memory: " $2 "\nUsed: " $3 "\nFree: " $4}'
echo -e "Swap:\n"$(free -h | awk '/Swap/ {print "Total: " $2 ", Used: " $3 ", Free: " $4}')
# 3. Disk Usage
echo -e "${YELLOW}\n>> Disk Usage: ${NC}"
df -h | grep '^/dev' | awk '{print $1 ": " $5 " used, " $4 " available"}'
# 4. Network Traffic
echo -e "${YELLOW}\n>> Network Traffic: ${NC}"
ifstat -i eth0 1 1 | awk 'NR==3 {print "RX: " $1 " KB/s, TX: " $2 " KB/s"}'
# 5. Top 5 Memory Consuming Processes
echo -e "${YELLOW}\n>> Top 5 Memory Consuming Processes: ${NC}"
ps -eo pid,ppid,cmd,%mem,%cpu --sort=-%mem | head -n 6
# 6. Top 5 CPU Consuming Processes
echo -e "${YELLOW}\n>> Top 5 CPU Consuming Processes: ${NC}"
ps -eo pid,ppid,cmd,%mem,%cpu --sort=-%cpu | head -n 6
# 7. System Logs Monitoring
echo -e "${YELLOW}\n>> Recent Errors in System Logs: ${NC}"
journalctl -p 3 -xb | tail -n 10
echo -e "${GREEN}===== Monitoring Completed =====${NC}"
Build an Interactive OpenStack Compute Node Monitoring System with Prometheus, Grafana, and Telegram Bot for Real-Time and On-Demand Queries

В этой статье рассматривается, как создать интерактивную систему мониторинга узлов OpenStack с проволокой и куском изоленты Prometheus, Grafana и ботом Telegram для запроса статистики в реальном времени по требованию. В результате у вас будет решение для мониторинга, которое предоставляет информацию в реальном времени и мгновенные настраиваемые ооповещения в Telegram. Читать статью.

❗️Статья на medium.com
Нюансы менеджмента процессов на примере процесса «Управление инцидентами ИТ»

В этой статье рассказывается о предпосылках к созданию и внедрения процесса управления инцидентами. А еще приведен пример схемы такого процесса. Читать на Хабре.
Zabbix vs Prometheus. Что выбрать для гетерогенной инфраструктуры?

Плюсы, минусы, подводные камни 🙃 На самом деле в этой статье рассказано в деталях об установке обоих решений и некоторые детали по ним. Читать статью.
Метрики и зачем они нам

Сейчас метриками никого не удивишь. Метрики повсюду, в логах приложений, в управлении проектами, в управлении продуктами, в управлении людьми, в управлении чем угодно. Можно сказать, что мы даже понимаем зачем они нужны. Но к сожалению, не все и не всегда. В статье автор обобщает базовые понятия о метриках из разных областей. Читать статью.
Масштабируем приложение в Kubernetes от метрики в Yandex Monitoring (или от любого http-эндпоинта)

Представим, что у нас есть приложение, которое шлёт свои метрики в Yandex Monitoring, и стоит задача: масштабировать это приложение с помощью HPA в кластере Kubernetes в зависимости от метрики. Читать далее.
Тернистый путь к единому хранилищу метрик

Метрики — один из трёх базовых типов телеметрии и основа мониторинга любого приложения. Но что, если необходимо собирать их в рамках крупной и высоконагруженной экосистемы? Как получить метрики с десятков тысяч хостов разных ЦОДов и сотен типов приложений? И заодно упростить инженерам настройку правил алертинга и создание дашбордов?

В этой статье рассказано, как команда МТС Digital реализовала централизованное управление конфигурацией агентов, удобный интерфейс для настройки алертинга и правил сбора метрик. Показано, как менялась архитектура решения с ростом нагрузки, как они боролись с отставанием и потерей данных. Рассмотрено, как это позволило собрать все метрики в единое хранилище и построить дашборды здоровья по ключевым продуктам. Читать дальше.
Grafana 11.3 release: Scenes-powered dashboards, visualization and panel updates, and more

Из интересного: выполнение действий с экрана дашбордов (вызов вебхуков и др.), настройка интеграции с AD в графическом интерфейсе. Читать подробнее в блоге Grafana.
Grafana Stack: закрываем все современные потребности Observability

Ни одна система не может функционировать без сбоев, всегда могут возникнуть ситуации, когда в работе софта возникают проблемы. И здесь важное значение имеет observability — понятие, включающее в себя мониторинг и наблюдаемость. С помощью мониторинга мы можем определить, когда возникла проблема, а наблюдаемость позволяет нам понять, почему она возникла.

В этой статье рассказано о том, как можно реализовать observability с помощью сервисов стека Grafana. Читать на Хабре.
Мониторинг, который кричал «Волк»! Что мы придумали для корректного сбора метрик

В этой статье Станислав Савостин из СберТеха рассказывает о внутреннем сервисе мониторинга «Маяк», который основан на Prometheus, но включает много доработок и «тюнинга» под их условия и стандарты работы. Расскажет как они дорабатывали мониторинг, как реагируют на действительно опасные ситуации и что помогает нам ловить дзен, когда все кричат: «Волк!». Читать на Хабре.
Как мы переехали с StatsD на Prometheus всего за месяц

Статья-перевод о процессе миграции со StatsD на Prometheus. Читать на Хабре.
Install Loki, Promtail and Grafana on Kubernetes

Эта статья — пошаговое руководство по установке.

❗️Статья на medium.com
Расширенное обнаружение проблем в Zabbix: продвинутая работа с триггерами, тегами и вычисляемыми элементам

Вероятно, вы уже хорошо знакомы с Zabbix, работаете с ней не первый год и всё такое. Но не весь ее функционал лежит на поверхности. В этой текстовой расшифровке вебинара раскрыты некоторые подробности работы с триггерами, тегами и вычисляемыми элементами. В частности, вы узнаете о том, как работать с ними более продуктивно и использовать возможности Zabbix на полную. Читать на Хабре.
Вышла Grafana 11.3: дашборды на базе Scenes, обновления визуализаций, панелей, и многое другое

Перевод на Хабре.
Как мы в МКБ обновляли Zabbix с 4.4 до 6.0 — проблемы и подводные камни

В этом посте рассказывают про то, почему вообще выбрали именно Zabbix для мониторинга, для чего его используют, и как решились обновиться сразу с версии 4.4 до 6.0. Читать на Хабре.
tianji

Утилита все-в-одном Website analytics + Uptime Monitor + Server Status.

Репыч на Гитхабе
beszel

Легковесная утилита для мониторинга с историческими данными и алертами.

Репыч на Гитхабе
The ultimate guide to on-call schedules

Правильно настроить дежурства — это важно, обратная ситуация может привести к затяжным инцидентам, выгоранию сотрудников и испорченной репутации компании.В этой статье рассмотрены основы составления графика дежурств и их различные типы. Читать статью.
Переезд с Elasticsearch на OpenSearch: рассказываем про нюансы и архитектуру нашей системы логирования

В этой статье рассказано про опыт перехода с Elasticsearch на OpenSearch для работы с логами. Расскажут, почему решили это сделать, какие ключевые отличия между системами нашли, несмотря на их принципиальное сходство, и подробно описана архитектура обработки логов. Читать на Хабре.
2025/07/03 17:03:18
Back to Top
HTML Embed Code: