Telegram Web Link
Путь от создания базовой системы мониторинга к системе автоматизации и принятия решений

В этой статье автор поэтапно проведет по пути от первого красивого дашборда до глубокой автоматизации, с помощью которой система мониторинга будет самостоятельно принимать решения, устранять инциденты, предотвращать их на ранних этапах, а также минимизировать их влияние на клиента и бизнес. А ещё вы найдете главу, посвящённую прогнозированию отклонений с помощью ML/AI-моделей. Автор — Павел Степуро из Сбера. Читать статью.
openstatus

OpenStatus — это платформа мониторинга производительности с открытым исходным кодом.

Синтетический мониторинг: отслеживает производительность веб-проектов при помощи выполнения пользовательских сценариев.

Мониторинг реальных пользователей: отслеживает производительность веб-проектов при помощи встраивания JS SDK.

Репыч на Гитхабе
Grafana Loki: Оптимизация показателей на основе журналов

Существует несколько уровней, где производительность Loki может быть улучшена и настроена. От оптимизации запроса и его эффективного выполнения до выделения правильных вычислительных ресурсов. В статье рассмотрены следующие параметры, которые влияют на улучшение производительности:

👉 Фильтр меток
👉 Анализ данных
👉 Разделение запроса
👉 Параллелизм/Параллелизм и Очередь
👉 Индекс
👉 Кэш
👉 Распределение ресурсов

Читать статью
.
Если вы сотрудник ИТ-компании, проходите опрос о работе в сфере ИТ по ссылке. Это займёт всего пять минут.

Всех, кто поможет ответить на вопросы исследования до 31 июля, в конце анкеты ждёт сюрприз — возможность получить наушники в подарок 😎
SLO formulas implementation in PromQL step by step

Определив SLO, владельцу сервиса необходимо предоставить расчет, который отражает реальность. В этой статье пошаговое руководство по внедрению формул SLO доступности и задержки с помощью системы мониторинга Prometheus.

Читать статью
.
OpenTelemetry Collector Anti-Patterns

OpenTelemetry Collector — гибкий и мощный конвейер данных, который позволяет принимать данные OTel из одного или нескольких источников, преобразовывать их и экспортировать в один или несколько бэкэндов для наблюдения для анализа.

К сожалению, как это случается со многими инструментами, очень легко поддаться плохим привычкам.В этой статье разобраны 5 антипаттернов OpenTelemetry Collector и рассказано как их избежать.

👉 Неправильное использование режимов деплоя коллектора
👉 Отсутствие контроля коллекторов
👉 Использование неправильного дистрибутива коллектора
👉 Нерегулярное обновление коллекторов
👉 Использование OpenTelemetry Collector не там, где это уместно

Читать статью
.
What you need to know before creating your first OpenTelemetry pipeline for tracing

Можно сказать, сегодня на канале день, посвященный Opentelemetry 🙃

Для начала немного теории из документации OpenTelemetry.

Head sampling — это метод отбора проб, используемый для принятия решения об отборе как можно раньше. Решение о отборе или отбросе трассировки принимается после анализа небольшого числа трассировок.

Tail sampling — это когда решение об отборе трассировки принимается с учетом всех или большинства трассировок. Tail sampling дает возможность выбирать трассировки на основе определенных критериев, полученных из разных частей набора трассировок, что невозможно при Head sampling, т.к. там выборка не такая большая.

В этой статье разбирается проблема отбора различных трассировок в зависимости от выбора типа сэмплинга.

Читать статью

❗️Статья на Медиум (medium.com)
Monitorama 2024 (monitorama.com)

Эта ежегодная конференция, посвященная мониторингу и наблюдаемости, которая прошла в этом году 10-12 июня. Ниже будут ссылки на выступления с этой конференции. Возможно, что-то вам покажется интересным.

▶️ From Polling to Streaming: Network Monitoring with Real-Time Telemetry

▶️ The complexity of success and failure: the story of the Gimli Glider

▶️ Things I wish I knew before we decided to migrate our metrics infrastructure in-house

▶️ How we tricked engineers into utilizing distributed tracing

▶️ From Alerts to Insights: Performing Trace-Based Causation at Scale

▶️ Pugs, Poe’s and pipelines; An engineering perspective on big-data streams for…

▶️ The Ticking Timebomb of Observability Expectations

▶️ The subtle art of misleading with Statistics

▶️ Experiments in Backing Prometheus with Clickhouse

▶️ The Hater’s Guide To OpenTelemetry

▶️ Logs Are Good, Actually
statusnook

Просто страница со статусами ваших сервисов. Может настраиваться через интерфейс. Указываете тип проверки (GET, POST..), частоту проверки, таймаут, количество попыток и вот у вас уже готовый интерфейс с доступностью.

Репыч на Гитхабе
Minimizing on-call burnout through alerts observability

В Cloudflare многочисленные команды проводят периодический анализ алертов, каждая команда разрабатывает собственные дашборды мониторинга для отчетности. В этой статье они рассказывают как справляются со своими 1100 серверами Prometheus т как работают с алертами. Читать статью.
Incident management at major sporting goods e-commerce

В этой статье техническая команда Декатлона рассказывает как у них устроена работа с инцидентами.

«Одним из главных препятствий, с которыми мы столкнулись, было отсутствие классификации инцидентов. Без четкого метода категоризации и квалификации инцидентов было сложно эффективно вовлекать соответствующие команды с правильным приоритетом, когда они не знали уровень серьезности. Каждая проблема казалась уникальной, что усложняло координацию и разрешение.»

Читать статью

❗️Статья в блоге на Medium
Building an Observability Solution with ClickHouse

В этой серии статей рассказывают как при помощи OpenTelemetry, Clickhouse, Vector/FluentBit и Grafana создать систему наблюдаемости.

Part 1 - Logs

Part 2 - Traces
Grafana Loki query acceleration: How we sped up queries without adding resources

В этой статье техническая команда Grafana рассказывает как им удалось ускорить работу Loki и подсвечивает им в этом помогли n-граммы и фильтры Блума. Читать статью в блоге Grafana.
BPFAgent: eBPF for Monitoring at DoorDash

Мониторинг с помощью eBPF позволяет разработчикам писать программы, внедряемые непосредственно в ядро, и отслеживать операции ядра. Эти программы, разработанные для предоставления легкого доступа к большинству компонентов ядра, помещаются в песочницу и проверяются на безопасность ядром перед выполнением. DoorDash был заинтересован в отслеживании сетевого трафика с помощью хуков, называемых kprobes (динамическая трассировка ядра) и tracepoints. С помощью этих хуков можно перехватывать соединения TCP и UDP в кластерах Kubernetes. В статье разобран подход использования eBPF для мониторинга.
SLA vs SLO vs SLI: What’s the Difference?

Когда мы говорим о поддержании бесперебойной работы сервисов, мы часто слышим о SLA, SLO и SLI. Но что означают эти термины и чем они отличаются? SLA, или соглашения об уровне обслуживания, подобны обещаниям между поставщиком услуг и клиентом. Они описывают, чего клиент может ожидать с точки зрения качества обслуживания. В статье понятным образом разобраны отличия. Читать.
Logdy - terminal logs in web browser

Смотрелка для логов в веб-интерфейсе. Удобно подсвечивает и фильтрует.

Репыч на Гитхабе
Anomaly Alerting in Prometheus

В этой статье я рассмотрено как использовать Prometheus с Istio для обнаружения аномалий во времени отклика служб. Читать статью.
Organizing your Grafana k6 performance testing suite: Best practices to get started

В этой статье команда Grafana предлагает рекомендации по началу работы с Grafana k6 и делится списком лучших практик для организации тестирования производительности. Читать пост в блоге Grafana.
Persistent Data Structures in VictoriaMetrics

Цель этой серии статей — дать представление о том, как VictoriaMetrics организует и оперирует данными на диске.

Постоянные структуры данных в VictoriaMetrics (часть 1): vmagent

Постоянные структуры данных в VictoriaMetrics (часть 2): vmselect

❗️Статьи в блоге на Medium
Как мы Zabbix с MaxPatrol подружили

В этой статье рассказывают о решении, которое позволяет быстро уведомлять о найденных уязвимостях, формировать список этих уязвимостей и предоставлять дополнительную информацию о них. Читать на Хабре.
2025/07/05 19:06:23
Back to Top
HTML Embed Code: