Telegram Web Link
promlens

Утилита с веб-интерфейсом для создания запросов, их анализа и визуализации.

Репыч на Гитхабе.
👍6
Breaking the memory barrier: How Grafana Mimir's store-gateway overcame out-of-memory errors

В этой статье разработчики Mimir рассказывают как оптимизируют утилизацию оперативной памяти на серверах с установленным движком Mimir. Читать дальше.

Также рекомендую другую прошлогоднюю статью: How we improved Grafana Mimir query performance by up to 10x
👍2
A complete guide to managing Grafana as code: tools, tips, and tricks

В этой статье представлены несколько инструментов, которые можно использовать для декларативного управления ресурсами Grafana, а также советы и рекомендации по их эффективному применению при различных сценариях использования. Будут рассмотрены: Terraform, Ansible, Grafonnet для дашбордов, Grizzly, Grafana APIs с GitHub Actions и Crossplane. Читать дальше.
👍10🤔1
cdebug — нож швейцарской армии для дебага контейнеров

При помощи этого инструмента вы можете:

⚡️Траблшутить неполадки в контейнерах, для которых нет оболочки и/или инструментов отладки
⚡️Перенаправлять неопубликованные или даже локальные порты на хост-систему
⚡️Открывать конечные точки из хост-системы для контейнеров и сетей Kubernetes
⚡️Удобно экспортировать файловую систему образа и/или контейнера в локальные папки
⚡️и многое другое

Репыч на Гитхабе.

Расскажите в комментариях как дебажите контейнеры.
🔥10👍21
How we tried using VictoriaMetrics and Thanos at the same time

В этой статье разобраны несколько способов оптимизации систем хранения для Prometheus. Читать дальше.

❗️Статья на Медиум, возможно, нужен VPN.
👍1
How to Monitor Kubernetes API Server

В этой статье будут разобраны следующие темы:

⚡️Что такое API-сервер Kubernetes?
⚡️Как выполнять мониторинг API-сервера Kubernetes
⚡️Мониторинг API-сервера: Какие метрики следует проверять?
⚡️Заключение

Читать дальше
👍3🔥2
How to Build Software like an SRE

В статье разобраны подходы к созданию приложений с учетом дальнейшей эффективной эксплуатацией SRE-инженерами. Читать статью.
👍5
Yandex Infrastructure Meetup

🗓 13 июля в Казани пройдёт офлайн-митап Yandex Infrastructure.

На расскажут, как мы создаётся и развивается платформа для разработчиков Яндекса. Поговорят про устройство сети Yandex Cloud, про вычислительную платформу Яндекса Nirvana и технологию SRv6.

Митап будет полезен backend-разработчикам, DevOps, SRE и сетевым инженерам, а также всем тем, кому интересны продукты open source.

➡️ Участие бесплатное.
Регистрируйтесь по ссылке.
1
What every SRE should know about GNU/Linux shell related internals: file descriptors, pipes, terminals, user sessions, process groups and daemons

Ключевые вещи, которые должен знать SRE для качественной поддержки приложений, развернутых на Linux. Подробная статья с примерами. Читать статью.
👍8🔥1
scrutiny

Утилита с веб-интерфейсом для мониторинга S.M.A.R.T. Возможности:

⚡️Веб-дашборд
⚡️Интеграция с демоном smartd
⚡️Автообнаружение подключенных жестких дисков
⚡️Трекинг исторических метрик S.M.A.R.T.
⚡️Настраиваемые пороги срабатывания
⚡️Отслеживание температуры
⚡️Поставляется в виде docker-образа
⚡️Отправка алертов через вебхуки

Репыч на Гитхабе.
👍10
Monitoring our monitoring: how we validate our Prometheus alert rules

Статья из блога Cloudflare. Рассказывает как они работают с правилами для алертов из Prometheus. Читать статью.
👍3
Distributed Tracing in Rust

Как реализовать распределенную трассировку между несколькими сервисами с помощью actix, rabbitmq (lapin), tracing и opentelemetry. Читать статью.
👍2
Forwarded from /usr/bin
robusta

Robusta — это одновременно и инструмент автоматизации для Kubernetes, и платформа для многокластерной наблюдаемости.

Robusta обычно используется вместе с Prometheus, но поддерживаются и другие инструменты. Прослушивая все события в кластере, Robusta скажет, почему сработали оповещения, что произошло в это время и что вы можете с этим сделать. Robusta также может улучшить существующие оповещения и использоваться для создания новых оповещений.

Репыч на Гитхабе.
👍5
goaccess

GoAccess — это анализатор веб-журналов в реальном времени и интерактивный просмотрщик, работающий в терминале на *nix-системах или через браузер. Он предоставляет HTTP-статистику для системных администраторов, которым нужен визуальный отчет о работе сервера "на лету".

Репыч на Гитхабе.
👍18
Can We Stop With Those Horrible “System Overview” Dashboards Already?

На часах 2 часа ночи, вы не спите, ваш телефон постоянно звонит по поводу проблем на проде. Вы смотрите на бесконечный дашборд «Обзор системы», прокручивая вверх и вниз десятки графиков, показывающих различные метрики и SLI — некоторые вы видели раньше, некоторые совершенно новые, некоторые вообще не работают. Некоторые графики растут, некоторые падают, в целом всё выглядит загадочно.

В этой статье автор объясняет, почему дашборд «Обзор системы» приносит больше вреда, чем пользы. А если вы все же решили его использовать — объяснит как это делать немного по-другому.

Читать статью.

❗️Статья на Медиум, возможно, нужен VPN.
👍7👎1
goreplay

GoReplay — это инструмент сетевого мониторинга с открытым исходным кодом, позволяющий записывать трафик в реальном времени и записывать его для нагрузочного тестирования, мониторинга и детального анализа.

Репыч на Гитхабе.
👍4
Become A DevOps Engineer in 2023: [A Practical Roadmap]

В
этом руководстве рассказано о практической дорожной карте становления DevOps-инженера, основываясь 10-летнем опыте работы автора в качестве DevOps-инженера в различных организациях. Читать статью.
👍7
❗️Новая рубрика на канале «Вопрос-ответ»

Часто в личных сообщениях или в комментариях подписчики канала присылают интересные вопросы, связанные с мониторингом. К сожалению, в комментариях часто такие вопросы остаются без ответа. Думаю, вам тоже было бы интересно взглянуть на эти вопросы или задать свои. Да, и в целом, это будет полезно для развития сообщества и и обмена опытом.

1 раз или 2 раза в неделю, в зависимости от количества вопросов, я буду публиковать посты с такими вопросами, где подписчики канала смогут помочь коллегам разобраться в насущных вопросах. Первый вопрос опубликую сегодня вслед за этим постом.

Если у вас есть проблема или вопрос, в котором вы не смогли разобраться и найти информацию в интернете, присылайте мне в личку @antoniusfirst описание доступным языком, чтобы можно было сразу такие вопросы публиковать.

Как вам идея с вопросами-ответами?
Первый вопрос от подписчика. Ответы просьба оставлять в комментариях к посту.

Всем привет!
Хотел спросить. А был ли у кого опыт настройки конфига PagerDuty для AlertManager через prometheus-operator?
Если делать это в глобальных values, где конфиг не проходит через CRD - оно работает.
Но если сделать это через CRD, то вместо:

- routing_key: ****

На выходе получается:

- routing_key: |
*****

Что ломает alertManager, и он не воспринимает это за конфиг PD, а считает кастомным. Соответвенно - не использует нужный шаблон для алерта, и на ответе от PD закономерно получаем 400.

В гугле очень мало информации по такой связке, и не понятно, то ли это бага CRD, то ли нужно перейти в прометеус-операраторе с альфа версии апи на бета(возможно там это исправлено).
Celebrating Grafana 10: Top 10 Grafana features you need to know about

С момента создания Grafana 10 лет назад в проект с открытым исходным кодом было внесено более 43 000 правок. Основатель Grafana Торкель Одегаард (Torkel Ödegaard) сделал более 7 600 коммитов, и недавно он рассказал о некоторых любимых дополнениях.

В этой статье вы узнаете, что вошло в не совсем беспристрастный, но все же абсолютно достоверный список 10 лучших функций Grafana. Вы можете познакомиться с этими и всеми последними обновлениями, представленными в Grafana 10, на Grafana Cloud, где есть бесплатный доступ. Читать статью.
👍7
2025/07/10 21:59:28
Back to Top
HTML Embed Code: