Telegram Web Link
How to set up Grafana Mimir using Ansible

В этой статье показано, как использовать роль mimir с коллекцией Grafana Ansible для развертывания и управления Mimir на нескольких хостах Linux и как исследовать данные в Grafana. Читать в блоге Grafana.
Grafana 11.2 release: new updates for data sources, visualizations, transformations, and more

Обо всем множестве обновлений в блоге Grafana
Мониторинг простыми словами, или как я объяснил маме работу SRE

Как ответить на вопрос правильно и не скатиться к простому «я ремонтирую компьютеры». Читать на Хабре.
Monitoring PostgreSQL using PostgreSQL Exporter on Kubernetes

Эта статья поможет настроить мониторинг PostgreSQL с помощью PostgreSQL Exporter в кластере Kubernetes. Читать статью.

❗️Статья на medium.com
Simplifying Log Shipping in Kubernetes with Promtail, Loki, and Grafana

Для оптимизации процесса управления и анализа логов кластера Kubernetes сочетание Promtail, Loki и Grafana является мощным решением для отправки, хранения и визуализации. Читать статью.

❗️Статья на medium.com
Django App Monitoring with Prometheus and Grafana

В этой статье рассмотрено, как настроить мониторинг Django с помощью Prometheus и Grafana, двух мощных инструментов, которые обеспечивают глубокое понимание поведения приложения. Читать статью.

❗️Статья на medium.com
Grafana Loki: performance optimization with Recording Rules, caching, and parallel queries

В целом, когда все работает, и все вроде бы хорошо, но иногда при получении данных за неделю или месяц в Grafana очень часто вылезают ошибки 502/504 или «too many outstanding requests».

В этой статье рассмотрено, как можно оптимизировать Loki для повышения производительности. Читать статью.
Better root cause analysis: Mastering alert insights with the new central history timeline

Чтобы обеспечить стабильность системы и предотвратить сбои, в Grafana 11.2 появился новый интерфейс для просмотра истории состояний всех оповещений в системе. Страница «История» показывает все переходы состояний для каждого правила оповещения, управляемого в Grafana. Читать в блоге Grafana.
VictoriaLogs: an overview, run in Kubernetes, LogsQL, and Grafana

Слово автору статьи:

«VictoriaLogs — относительно новая система сбора и анализа журналов, похожая на Grafana Loki, но — как и VictoriaMetrics по сравнению с ванильным Prometheus — менее требовательная к ресурсам ЦП/памяти.

Лично я использую Grafana Loki около 5 лет, но иногда у меня возникают опасения по поводу нее — как в плане документации, так и общей сложности системы, поскольку в ней много компонентов. Также есть вопросы по поводу производительности, поскольку как бы я ее ни настраивал (см. Grafana Loki: оптимизация производительности с помощью правил записи, кэширования и параллельных запросов ), но все равно иногда на относительно небольших запросах Grafana возвращает ошибки 504 от Loki Gateway, и я, честно говоря, устал с этим бороться.»

Все подробности в статье

❗️Статья на medium.com
System Monitoring and Performance Tuning in Linux -DevOps Prerequisite 5

Мониторинг системы и настройка производительности являются важными задачами для обеспечения эффективной и производительной работы Linux. В этой статье рассмотрен ряд инструментов и методов для мониторинга производительности системы и настройки различных аспектов системы Linux. Читать статью.

❗️Статья на medium.com
sniffnet

Легковесная утилитка для мониторинга (прослушивания трафика).

Репыч на Гитхабе
Grafana Tempo 2.6 release: performance improvements and new TraceQL features

В этой статье в блоге Grafana разобраны обновления в новой версии Grafana Tempo.
Scaling Prometheus with Cortex

В этой статье рассказывают, что такое Cortex, раскрывают его архитектуру и функциональные возможности. Затем рассказывают о настройке Cortex с Prometheus, а также о мониторинге в формате высокой доступности. Читать статью.
Как следить за состоянием мобильного приложения?

«Знакома ли вам ситуация, когда вы спокойно работаете, а клиентская служба передаёт вам странный репорт: несколько пользователей жалуются, что в приложении не грузятся картинки, но у вас всё работает. Или пользователь пишет в Google Play, что приложение занимает несколько гигабайт, и вы не понимаете, сколько таких пользователей и что с этим делать. Нужно ли срочно бросаться чинить, или это может подождать следующего планового релиза?»

Согласитесь, было бы здорово узнавать о проблемах раньше, чем пользователи начнут жаловаться в поддержку. В этой статье автор расскажет, как они в Циан создавали Техническую Мобильную Аналитику (ТьМА) и получили возможность в любой момент времени ответить на вопрос: «Всё ли в порядке с приложением?» Читать на Хабре.
Трассировка OpenTelemetry в 200 строк кода

Разработчики часто воспринимают трассировку как нечто загадочное, и OpenTelemetry — не исключение. Она может казаться еще более сложной из‑за множества новых концепций, с которыми сталкиваешься в базовых примерах.

Ситуация усугубляется тем, что по мере создания стабильной и надежной библиотеки для трассировки сам код усложняется, чтобы учитывать редкие случаи, поддерживать работу в разных окружениях и оптимизировать производительность, минимизируя влияние на приложения. Это особенно заметно при использовании автоматической инструментации, которая может «волшебным образом» оборачивать или изменять код, который изначально для этого не предназначен.

Неудивительно, что многие разработчики воспринимают библиотеки трассировки как «черные ящики». Мы добавляем их в приложения, надеемся на лучшее и полагаемся на них в критические моменты, например, во время инцидентов ночью.

На самом деле, трассировка гораздо проще, чем кажется. Если разобрать её на части, можно представить её как комбинацию «необычного логирования» и «распространения контекста». Читать дальше на Хабре.
Одна платформа, чтобы мониторить всех: как мы осуществляем трассировку, работаем с логами и метриками во всей экосистеме

В этой статье рассказывают, как мы с помощью платформы мониторинга осуществляется распределенная трассировка, сбор и хранение метрик и централизованное логирование. Читать на Хабре.
OpenTelemetry с нуля до 100: пример внедрения Норвежским управлением труда и соцобеспечения

Это история о том, как внедряли OpenTelemetry в Норвежском управлении труда и социального обеспечения (NAV). Рассмотрен путь от первых коммитов до реального применения в production. А ещё рассказано о некоторых трудностях, с которыми столкнулись, и о том, как их преодолели.

В NAV используется микросервисная архитектура с тысячами сервисов, работающих в кластерах Kubernetes. С самого начала они убеждали команды перейти на Prometheus и Grafana. Увы, но они до сих пор в значительной степени полагаются на логи приложений, изучая их в Kibana.

Без надлежащего трейсинга трудно понять, как запросы проходят через систему. Это затрудняет устранение ошибок в длинных и зачастую сложных цепочках обработки данных или оптимизацию медленных запросов. Для команд, которые внедрили event-driven архитектуру на базе Kafka, этот вызов стал особо острым. Это всё равно что пытаться ориентироваться в городе без карты. Читать дальше на Хабре.
Как мы доработали postgres_exporter для мониторинга событий в БД

В Сбере решили мониторить базы данных связкой Grafana, Prometheus и postgres_exporter. Но, во‑первых, столкнулись, с тем, что не хватает гибкости в использовании queries.yaml в postgres exporter. А, во‑вторых, так они не могли регистрировать события с таймаутом меньше 15 секунд. Поэтому они сделали свой инструмент для мониторинга — pangolin_exporter. Эта статья будет полезна тем, кто мониторит инфраструктуру с помощью postgres_exporter и хочет кастомизировать всё под свои нужды. Читать дальше на Хабре.
perses

Дашборд для визуализации данных наблюдаемости из Prometheus/Thanos/Jaeger.

Репыч на Гитхабе.
How We Migrated from StatsD to Prometheus in One Month

Недавно мы перенесли все наши метрики инфраструктуры из StatsD в Prometheus и очень довольны результатами. Миграция потребовала много работы, и мы многому научились в процессе. Цель этого поста — пролить свет на то, почему мы перешли на Prometheus, а также описать некоторые технические проблемы, с которыми мы столкнулись в ходе процесса. Читать статью.

❗️Статья в блоге на Medium
2025/07/06 11:05:01
Back to Top
HTML Embed Code: