Telegram Web Link
Оптимизация производительности Zabbix

Из канала @zabbix_ru (только про Zabbix и ничего кроме Zabbix):

Тюнинг производительности — обязательная часть работы администратора Zabbix. При росте количества узлов, количества собираемых элементов данных и снижению интервалов их сбора резко возрастает шанс столкнуться с бутылочными горлышками в производительности. Ключевые метрики, которые напрямую влияют на производительность — количество узлов (разумеется, с наполняемыми элементами данных) и количество новых значений в секунду. Чем их больше и чем меньше интервал сбора данных — тем больше нагрузка на инсталляцию Zabbix в целом. При этом, элементы данных типа Zabbix Trapper и SNMP-трап особого вклада в нагрузку не вносят.

Читать статью о том, как оптимизировать Zabbix
Нюансы работы с Redis: репликация

DevOps-инженер компании Nixys продолжает свой обзор Redis. Эта статья — подробное руководство по базовой репликации Redis, из которого вы узнаете, как настроить эту БД на высокий уровень отказоустойчивости.  В конце статьи автор поместил разбор атаки на Redis через H2Miner, из-за которой можно полностью потерять данные на инстансе Redis. Читать статью.
SLA vs. SLO vs. SLI: What’s the Difference?

В статье рассказывают о предназначении SLA, SLO и SLI, а также приводятся примеры каждой сущности. Полезно, если планируете внедрять у себя работу с этими показателями. Читать статью.
SRE Archetypes или какой ты сегодня SRE

В статье разобраны разные подходы к работе SRE и можно попробовать определить ваш стиль работы: Админ, Архитектор, Слесарь или пожарный. Читать статью.
Wireshark & tcpdump: A Debugging Power Couple

В этой статье подробно рассматриваются функции, использование и практические советы по использованию Wireshark для целей отладки. Читать.

❗️Статья на Медиум
Pinterest: разработка всеобъемлющей JSON-системы логирования для клиентских приложений

В начале 2020 года у приложения Pinterest для iOS часто возникала серьёзная проблема, связанная с нехваткой памяти. Тогда в компании поняли, что у них нет ни достаточно подробных сведений о работе приложений, ни хорошей системы, позволяющей анализировать подобные сведения в целях мониторинга приложений и решения проблем. В посте рассказывают о подходах к логированию и использованию для этого в т.ч. OpenSearch. Читать статью на Хабре.
Getting started with Grafana: best practices to design your first dashboard

Разбирают эффективный дашбординг в зависимости от того, кто будет смотреть на панели мониторинга. Читать в блоге Grafana.
How to customize your Loki deployment with Ansible

Существуют различные методы деплоя Loki: Helm, Tanka, Docker или Docker Compose и локально из исходников. Все эти методы установки великолепны, служат своей цели и дают гибкость пользователям, чтобы развернуть Loki способом, который соответствует конкретным задачам. В статье представлен другой подход — роль Ansible Loki. Эта роль поддерживает Debian, Ubuntu и Red Hat. Читать в блоге Grafana.
Alerts Are Fundamentally Messy

Хорошая подход к гигиене алертинга состоит из нескольких компонентов: контроль за условиями срабатывания оповещения, постмортем и ​​размышления о том, что делает алертинг хорошим или плохим. Задача состоит в доведении алертинга до стадии, когда уведомления улетят, когда они должны отправиться, и не будут разосланы, когда это не требуется. Вообще говоря, это недостижимый идеал.

Реальность такова, что достижение идеала это процесс, а сам идеал недостижим. В этой статье разобран подобный итеративный процесс. Читать статью.
How we avoided alarm fatigue syndrome by managing/reducing the alerting noise

Сотрудник Doctolib делится способом снижения количества шумовых событий. Они используют для алертинга PagerDuty, но никто ж не мешает поставить на это место Grafana OnCall или другое решение. Читать статью.

❗️Статья на Медиум
Путь от создания базовой системы мониторинга к системе автоматизации и принятия решений

В этой статье автор поэтапно проведет по пути от первого красивого дашборда до глубокой автоматизации, с помощью которой система мониторинга будет самостоятельно принимать решения, устранять инциденты, предотвращать их на ранних этапах, а также минимизировать их влияние на клиента и бизнес. А ещё вы найдете главу, посвящённую прогнозированию отклонений с помощью ML/AI-моделей. Автор — Павел Степуро из Сбера. Читать статью.
openstatus

OpenStatus — это платформа мониторинга производительности с открытым исходным кодом.

Синтетический мониторинг: отслеживает производительность веб-проектов при помощи выполнения пользовательских сценариев.

Мониторинг реальных пользователей: отслеживает производительность веб-проектов при помощи встраивания JS SDK.

Репыч на Гитхабе
Grafana Loki: Оптимизация показателей на основе журналов

Существует несколько уровней, где производительность Loki может быть улучшена и настроена. От оптимизации запроса и его эффективного выполнения до выделения правильных вычислительных ресурсов. В статье рассмотрены следующие параметры, которые влияют на улучшение производительности:

👉 Фильтр меток
👉 Анализ данных
👉 Разделение запроса
👉 Параллелизм/Параллелизм и Очередь
👉 Индекс
👉 Кэш
👉 Распределение ресурсов

Читать статью
.
Если вы сотрудник ИТ-компании, проходите опрос о работе в сфере ИТ по ссылке. Это займёт всего пять минут.

Всех, кто поможет ответить на вопросы исследования до 31 июля, в конце анкеты ждёт сюрприз — возможность получить наушники в подарок 😎
SLO formulas implementation in PromQL step by step

Определив SLO, владельцу сервиса необходимо предоставить расчет, который отражает реальность. В этой статье пошаговое руководство по внедрению формул SLO доступности и задержки с помощью системы мониторинга Prometheus.

Читать статью
.
OpenTelemetry Collector Anti-Patterns

OpenTelemetry Collector — гибкий и мощный конвейер данных, который позволяет принимать данные OTel из одного или нескольких источников, преобразовывать их и экспортировать в один или несколько бэкэндов для наблюдения для анализа.

К сожалению, как это случается со многими инструментами, очень легко поддаться плохим привычкам.В этой статье разобраны 5 антипаттернов OpenTelemetry Collector и рассказано как их избежать.

👉 Неправильное использование режимов деплоя коллектора
👉 Отсутствие контроля коллекторов
👉 Использование неправильного дистрибутива коллектора
👉 Нерегулярное обновление коллекторов
👉 Использование OpenTelemetry Collector не там, где это уместно

Читать статью
.
What you need to know before creating your first OpenTelemetry pipeline for tracing

Можно сказать, сегодня на канале день, посвященный Opentelemetry 🙃

Для начала немного теории из документации OpenTelemetry.

Head sampling — это метод отбора проб, используемый для принятия решения об отборе как можно раньше. Решение о отборе или отбросе трассировки принимается после анализа небольшого числа трассировок.

Tail sampling — это когда решение об отборе трассировки принимается с учетом всех или большинства трассировок. Tail sampling дает возможность выбирать трассировки на основе определенных критериев, полученных из разных частей набора трассировок, что невозможно при Head sampling, т.к. там выборка не такая большая.

В этой статье разбирается проблема отбора различных трассировок в зависимости от выбора типа сэмплинга.

Читать статью

❗️Статья на Медиум (medium.com)
Monitorama 2024 (monitorama.com)

Эта ежегодная конференция, посвященная мониторингу и наблюдаемости, которая прошла в этом году 10-12 июня. Ниже будут ссылки на выступления с этой конференции. Возможно, что-то вам покажется интересным.

▶️ From Polling to Streaming: Network Monitoring with Real-Time Telemetry

▶️ The complexity of success and failure: the story of the Gimli Glider

▶️ Things I wish I knew before we decided to migrate our metrics infrastructure in-house

▶️ How we tricked engineers into utilizing distributed tracing

▶️ From Alerts to Insights: Performing Trace-Based Causation at Scale

▶️ Pugs, Poe’s and pipelines; An engineering perspective on big-data streams for…

▶️ The Ticking Timebomb of Observability Expectations

▶️ The subtle art of misleading with Statistics

▶️ Experiments in Backing Prometheus with Clickhouse

▶️ The Hater’s Guide To OpenTelemetry

▶️ Logs Are Good, Actually
statusnook

Просто страница со статусами ваших сервисов. Может настраиваться через интерфейс. Указываете тип проверки (GET, POST..), частоту проверки, таймаут, количество попыток и вот у вас уже готовый интерфейс с доступностью.

Репыч на Гитхабе
Minimizing on-call burnout through alerts observability

В Cloudflare многочисленные команды проводят периодический анализ алертов, каждая команда разрабатывает собственные дашборды мониторинга для отчетности. В этой статье они рассказывают как справляются со своими 1100 серверами Prometheus т как работают с алертами. Читать статью.
2025/07/07 15:35:23
Back to Top
HTML Embed Code: