Telegram Web Link
OpenTelemetry: Sending Traces From Ingress-Nginx to Multi-Tenant Grafana Tempo

Опыт автора по использованию Grafana Tempo в качестве мультитенантного решения для предоставления доступа для различных команд разработчиков. Читать статью.
👍3
Top metrics for Elasticsearch monitoring with Prometheus

Рассказывают какие метрики контролировать в Elasticsearch, чтобы не упустить тот самый момент: golden signals, инфраструктурные метрики, метрики индексации, метрики поиска, метрики производительности кластера. Читать статью.
👍7👎1
Best practices for monitoring static web applications

Статические сайты — популярное решение для легковесных веб-приложений: корпоративных сайтов, блогов и хранилищ документации. В статической веб-архитектуре страницы генерируются и предварительно рендерятся из файлов разметки и кэшируются в сети доставки контента (CDN). Это позволяет командам экономить силы и средства на управлении серверами и обеспечивает быстрое время загрузки страниц. В этой статье рассмотрены основные особенности архитектуры статических веб-приложений и рассказано о лучших практиках эффективного мониторинга, включая ключевые метрики и другие данные, которые необходимо собирать:

⚡️Оптимизировать кэширование и доставку из CDN путем сбора данных о реальных пользовательских сессиях, а также данных о производительности и безопасности от поставщика CDN.

⚡️Контролировать цикл сборки-развертывания, включая дополнительную инфраструктуру сборки, конвейеры CI и синтетические тесты.

Читать статью
👍4
sre-checklist

Цель репозитория: дать командам и отдельным сотрудникам представление о том, на что следует обратить внимание и к чему стремиться в области и работе SRE.

Репыч на Гитхабе
👍4
Why bother with SLI and SLO?

Опыт автора, который поддерживает SLI и SLO в крупных организациях. Рассказывает на что нужно обратить внимание. Читать статью.
👍5
Building a Successful SRE Team

Лучшие практики создания команды SRE от практика:

⚡️Focus on Developer Training
⚡️Focus on the Right Abstractions
⚡️Focus on Self Service
⚡️Automate Yourself out of a job

Читать статью.

❗️Статья на Медиум, возможно, нужен VPN.
👍31
Introducing Grafana Beyla: open source ebpf auto-instrumentation for application observability

Зачастую, чтобы инструментировать приложение, необходима установка агента для трейсинга вызовов в приложении. В таких языках как Go, правильное инструментирование означает ручное добавление точек трассировки.

Grafana представляет новое решение — Beyla, это инструмент автоинструментирования eBPF с открытым исходным кодом, который сейчас находится в стадии публичного предварительного теста. Beyla предоставляет информацию об основных транзакциях, а также метрики RED (Rate-Errors-Duration) для сервисов Linux HTTP/S и gRPC - и все это без необходимости модификации кода для ручной установки агентов. Читать статью в блоге Grafana.
👍51
victorialogs (предварительная версия)

⚡️VictoriaLogs может принимать журналы от популярных сборщиков журналов (Filebeat, Fluentbit, Logstash, Vector, Promtail).

⚡️VictoriaLogs гораздо проще в настройке и эксплуатации по сравнению с ElasticSearch и Grafana Loki.

⚡️VictoriaLogs предоставляет простой, но мощный язык запросов с возможностью полнотекстового поиска по всем полям журнала.

⚡️VictoriaLogs может быть легко совмещен со старыми добрыми Unix-инструментами для анализа журналов, такими как grep, less, sort, jq и т.д.

⚡️Производительность VictoriaLogs линейно зависит от доступных ресурсов (процессор, оперативная память, дисковый ввод-вывод, дисковое пространство). Он прекрасно работает как на Raspberry PI, так и на сервере с сотнями процессорных ядер и терабайтами оперативной памяти.

⚡️VictoriaLogs может обрабатывать гораздо большие объемы данных, чем ElasticSearch и Grafana Loki при работе на сопоставимом оборудовании.

⚡️VictoriaLogs поддерживает мультитенантность.

⚡️VictoriaLogs предоставляет простой веб-интерфейс для запросов к журналам.

Репыч на Гитхабе
🔥213👍1
10 operation tips to handle major incident management

В этой статье 10 советов, которые помогут выявлять критические инциденты. Читать статью.

❗️Статья на Медиум, возможно, нужен VPN.
👍4
An Alerting strategy for the cloud

В статье раскрываются различные стратегии алертинга и как их применять. Вы узнаете про golden signals; RED; USE; алерты по метрикам, активности, логам; приоритизации; каналах и получателях оповещений. Читать статью.
👍4
Особенности SRE и Observability в мобильных приложениях

В этой статье технический менеджер продукта в Тинькофф рассказывает о том, как у них устроен мониторинг мониторинг мобильных приложений и на что они обращают особое внимание. Читать статью.
👍3
Взгляд на сервисы глазами пользователей: как устроен синтетический мониторинг приложений

Невозможно зайти в мобильное приложение, записаться к врачу, оплатить покупку в интернет-магазине, не работают кассы, подрядчик нарушает SLA по доступности сервисов, а инженеры поддержки приступают к поиску проблем после жалоб пользователей и проверяют вручную десятки, а иногда и сотни информационных систем – типичный процесс эксплуатации в быстро развивающихся и сильно зависящих от стабильной работы IT крупных компаниях. Инженерам сложно выполнять KPI по доступности и проактивно работать со сбоями, а бизнес несет финансовые и репутационные потери.

В статье рассказано, как устроен синтетический мониторинг в платформе зонтичного мониторинга Monq, как с его помощью клиент, который проверял вручную 80 информационных систем по пяти сценариям, смог полностью автоматизировать тестирование интерфейсов. Читать статью.
👍4🔥4
Что использовать для распределённого хранения данных Zabbix, и почему мы остановились на нетипичном решении? (спойлер: Clickhouse)

При обычной нагрузке (12000 NVPS) система работала стабильно, но стоило произойти массовой аварии на инфраструктуре или перезагрузке сервера/прокси, как производительности БД не хватало. В такие моменты очень быстро накапливались очереди обработки данных, заканчивались кэши – система фактически прекращала работу. Непростую ситуацию ухудшали еще ложные срабатывания (данные не всегда могли попасть в БД) и рассылка уведомлений ответственным администраторам, проверявшим состояние систем в WEB-интерфейсе. Для восстановления работы приходилось перезапускать компоненты друг за другом, контролируя нагрузку на БД. Читать дальше на Хабре.
👍14
Prometheus Certified Associate (PCA)— Tips on how to pass the exam

Получение сертификата Prometheus Certified Associate (PCA) - нелегкий, но очень полезный шаг к подтверждению компетентности в области этого мощного инструмента мониторинга и оповещения. Эта статья написана с искренним намерением помочь в этом процессе.

Опыт человека, сдавшего этот экзамен в апреле 2023 года в статье.

❗️Статья на Медиум, возможно, нужен VPN.
👍61
Будь всегда в курсе: мониторим сертификаты с помощью Prometheus и Telegram

Казалось бы, что может быть сложного в мониторинге сертификатов? Выдан сертификат – следите за его сроком действия. Многие по старинке используют календари, напоминания, иногда даже физические заметки. Но ручные методы неидеальны, ведь люди ошибаются, забывают и теряют информацию.

И если не автоматизировать такие моменты, то однажды можете проснуться и узнать, что сервис недоступен из-за протухшего сертификата. Читать статью.
👍13👎2
Troubleshooting Zabbix Agent with Wireshark

В этой статье показано, как с помощью Wireshark можно исключить проблемы с сетевым подключением как основную причину проблем со сбором данных. Начиная с версии Wireshark 4.1.0 в него встроена поддержка протокола Zabbix.

Начиная с версии Zabbix 4.0, весь трафик между сервером Zabbix и прокси-серверами Zabbix, а также трафик Zabbix Agent 2 сжимается для экономии пропускной способности сети и повышения производительности. Диссектор протоколов Zabbix в Wireshark способен автоматически распаковывать такой трафик.

Читать статью в блоге Zabbix
👍13
Три статьи цикла с примерами работы с данными в Zabbix

Zabbix in: Exploratory Data Analysis Rehearsal – Part 1. В этой статье рассказывают на примере мониторинга Nginx о создании новых метрик, которые помогут быстрее проводить диагностику нештатной работы сервиса.

Zabbix in: Exploratory Data Analysis Rehearsal – Part 2. Здесь разобран более продвинутый анализ метрик: стандартная девиация, персентиль, вариативность и другие.

Zabbix in: exploratory data analysis rehearsal – Part 3. Здесь разобраны распределения данных на примерах Skewness (ассиметрия) и Kurtosis (эксцессс).
👍7
Better anomaly detection in system observability and performance testing with Grafana k6

Решая эту проблему поиска аномалий, автор этой стать разработал расширение для k6 под названием xk6-anomaly, чтобы сделать анализ результатов тестирования более быстрым и точным. В этой статье он рассказывает об основах аномалий и о том, как использование расширения xk6-anomaly может помочь в их обнаружении. Читать статью.
👍5
How To Troubleshoot and Monitor Applications using OpenTelemetry

Это видео — введение в OpenTelemetry для Python-разработчиков, включающее в себя инструментацию первого приложения, просмотр первых трасс и метрик, и развертывание первого экземпляра Jaeger локально, чтобы показать как построить свою собственную платформу наблюдаемости.
👍41
Обмен сменами в Grafana OnCall: более простой способ обмена дежурными сменами с коллегами по команде

День рождения родственника, концерт, поездка с друзьями за город на выходные — существует множество причин, по которым дежурные могут захотеть поменяться сменами. И вместо того, чтобы судорожно рассылать сообщения своим коллегам, неплохо было бы автоматизировать этот процесс и быстро найти нужную смену.

Именно такая идея лежит в основе "замены смен" — новой функции Grafana OnCall, которая позволяет легко координировать действия членов команды по смене дежурных смен. Функция shift swaps позволяет легко и быстро найти подмену и автоматически обновить расписание дежурств.

Новая функция уже доступна в Grafana OnCall — как в OSS-версии, так и в Grafana Cloud, а ещё в мобильном приложении Grafana OnCall.

В этой статье рассказывается о новой функции замены смен. Читать статью.
👍6🔥2
2025/07/08 19:07:52
Back to Top
HTML Embed Code: