OpenTelemetry: Sending Traces From Ingress-Nginx to Multi-Tenant Grafana Tempo
Опыт автора по использованию Grafana Tempo в качестве мультитенантного решения для предоставления доступа для различных команд разработчиков. Читать статью.
Опыт автора по использованию Grafana Tempo в качестве мультитенантного решения для предоставления доступа для различных команд разработчиков. Читать статью.
👍3
Top metrics for Elasticsearch monitoring with Prometheus
Рассказывают какие метрики контролировать в Elasticsearch, чтобы не упустить тот самый момент: golden signals, инфраструктурные метрики, метрики индексации, метрики поиска, метрики производительности кластера. Читать статью.
Рассказывают какие метрики контролировать в Elasticsearch, чтобы не упустить тот самый момент: golden signals, инфраструктурные метрики, метрики индексации, метрики поиска, метрики производительности кластера. Читать статью.
👍7👎1
Best practices for monitoring static web applications
Статические сайты — популярное решение для легковесных веб-приложений: корпоративных сайтов, блогов и хранилищ документации. В статической веб-архитектуре страницы генерируются и предварительно рендерятся из файлов разметки и кэшируются в сети доставки контента (CDN). Это позволяет командам экономить силы и средства на управлении серверами и обеспечивает быстрое время загрузки страниц. В этой статье рассмотрены основные особенности архитектуры статических веб-приложений и рассказано о лучших практиках эффективного мониторинга, включая ключевые метрики и другие данные, которые необходимо собирать:
⚡️Оптимизировать кэширование и доставку из CDN путем сбора данных о реальных пользовательских сессиях, а также данных о производительности и безопасности от поставщика CDN.
⚡️Контролировать цикл сборки-развертывания, включая дополнительную инфраструктуру сборки, конвейеры CI и синтетические тесты.
Читать статью
Статические сайты — популярное решение для легковесных веб-приложений: корпоративных сайтов, блогов и хранилищ документации. В статической веб-архитектуре страницы генерируются и предварительно рендерятся из файлов разметки и кэшируются в сети доставки контента (CDN). Это позволяет командам экономить силы и средства на управлении серверами и обеспечивает быстрое время загрузки страниц. В этой статье рассмотрены основные особенности архитектуры статических веб-приложений и рассказано о лучших практиках эффективного мониторинга, включая ключевые метрики и другие данные, которые необходимо собирать:
⚡️Оптимизировать кэширование и доставку из CDN путем сбора данных о реальных пользовательских сессиях, а также данных о производительности и безопасности от поставщика CDN.
⚡️Контролировать цикл сборки-развертывания, включая дополнительную инфраструктуру сборки, конвейеры CI и синтетические тесты.
Читать статью
👍4
sre-checklist
Цель репозитория: дать командам и отдельным сотрудникам представление о том, на что следует обратить внимание и к чему стремиться в области и работе SRE.
Репыч на Гитхабе
Цель репозитория: дать командам и отдельным сотрудникам представление о том, на что следует обратить внимание и к чему стремиться в области и работе SRE.
Репыч на Гитхабе
👍4
Why bother with SLI and SLO?
Опыт автора, который поддерживает SLI и SLO в крупных организациях. Рассказывает на что нужно обратить внимание. Читать статью.
Опыт автора, который поддерживает SLI и SLO в крупных организациях. Рассказывает на что нужно обратить внимание. Читать статью.
👍5
Building a Successful SRE Team
Лучшие практики создания команды SRE от практика:
⚡️Focus on Developer Training
⚡️Focus on the Right Abstractions
⚡️Focus on Self Service
⚡️Automate Yourself out of a job
Читать статью.
❗️Статья на Медиум, возможно, нужен VPN.
Лучшие практики создания команды SRE от практика:
⚡️Focus on Developer Training
⚡️Focus on the Right Abstractions
⚡️Focus on Self Service
⚡️Automate Yourself out of a job
Читать статью.
❗️Статья на Медиум, возможно, нужен VPN.
👍3❤1
Introducing Grafana Beyla: open source ebpf auto-instrumentation for application observability
Зачастую, чтобы инструментировать приложение, необходима установка агента для трейсинга вызовов в приложении. В таких языках как Go, правильное инструментирование означает ручное добавление точек трассировки.
Grafana представляет новое решение — Beyla, это инструмент автоинструментирования eBPF с открытым исходным кодом, который сейчас находится в стадии публичного предварительного теста. Beyla предоставляет информацию об основных транзакциях, а также метрики RED (Rate-Errors-Duration) для сервисов Linux HTTP/S и gRPC - и все это без необходимости модификации кода для ручной установки агентов. Читать статью в блоге Grafana.
Зачастую, чтобы инструментировать приложение, необходима установка агента для трейсинга вызовов в приложении. В таких языках как Go, правильное инструментирование означает ручное добавление точек трассировки.
Grafana представляет новое решение — Beyla, это инструмент автоинструментирования eBPF с открытым исходным кодом, который сейчас находится в стадии публичного предварительного теста. Beyla предоставляет информацию об основных транзакциях, а также метрики RED (Rate-Errors-Duration) для сервисов Linux HTTP/S и gRPC - и все это без необходимости модификации кода для ручной установки агентов. Читать статью в блоге Grafana.
👍5❤1
victorialogs (предварительная версия)
⚡️VictoriaLogs может принимать журналы от популярных сборщиков журналов (Filebeat, Fluentbit, Logstash, Vector, Promtail).
⚡️VictoriaLogs гораздо проще в настройке и эксплуатации по сравнению с ElasticSearch и Grafana Loki.
⚡️VictoriaLogs предоставляет простой, но мощный язык запросов с возможностью полнотекстового поиска по всем полям журнала.
⚡️VictoriaLogs может быть легко совмещен со старыми добрыми Unix-инструментами для анализа журналов, такими как grep, less, sort, jq и т.д.
⚡️Производительность VictoriaLogs линейно зависит от доступных ресурсов (процессор, оперативная память, дисковый ввод-вывод, дисковое пространство). Он прекрасно работает как на Raspberry PI, так и на сервере с сотнями процессорных ядер и терабайтами оперативной памяти.
⚡️VictoriaLogs может обрабатывать гораздо большие объемы данных, чем ElasticSearch и Grafana Loki при работе на сопоставимом оборудовании.
⚡️VictoriaLogs поддерживает мультитенантность.
⚡️VictoriaLogs предоставляет простой веб-интерфейс для запросов к журналам.
Репыч на Гитхабе
⚡️VictoriaLogs может принимать журналы от популярных сборщиков журналов (Filebeat, Fluentbit, Logstash, Vector, Promtail).
⚡️VictoriaLogs гораздо проще в настройке и эксплуатации по сравнению с ElasticSearch и Grafana Loki.
⚡️VictoriaLogs предоставляет простой, но мощный язык запросов с возможностью полнотекстового поиска по всем полям журнала.
⚡️VictoriaLogs может быть легко совмещен со старыми добрыми Unix-инструментами для анализа журналов, такими как grep, less, sort, jq и т.д.
⚡️Производительность VictoriaLogs линейно зависит от доступных ресурсов (процессор, оперативная память, дисковый ввод-вывод, дисковое пространство). Он прекрасно работает как на Raspberry PI, так и на сервере с сотнями процессорных ядер и терабайтами оперативной памяти.
⚡️VictoriaLogs может обрабатывать гораздо большие объемы данных, чем ElasticSearch и Grafana Loki при работе на сопоставимом оборудовании.
⚡️VictoriaLogs поддерживает мультитенантность.
⚡️VictoriaLogs предоставляет простой веб-интерфейс для запросов к журналам.
Репыч на Гитхабе
🔥21❤3👍1
10 operation tips to handle major incident management
В этой статье 10 советов, которые помогут выявлять критические инциденты. Читать статью.
❗️Статья на Медиум, возможно, нужен VPN.
В этой статье 10 советов, которые помогут выявлять критические инциденты. Читать статью.
❗️Статья на Медиум, возможно, нужен VPN.
👍4
An Alerting strategy for the cloud
В статье раскрываются различные стратегии алертинга и как их применять. Вы узнаете про golden signals; RED; USE; алерты по метрикам, активности, логам; приоритизации; каналах и получателях оповещений. Читать статью.
В статье раскрываются различные стратегии алертинга и как их применять. Вы узнаете про golden signals; RED; USE; алерты по метрикам, активности, логам; приоритизации; каналах и получателях оповещений. Читать статью.
👍4
Особенности SRE и Observability в мобильных приложениях
В этой статье технический менеджер продукта в Тинькофф рассказывает о том, как у них устроен мониторинг мониторинг мобильных приложений и на что они обращают особое внимание. Читать статью.
В этой статье технический менеджер продукта в Тинькофф рассказывает о том, как у них устроен мониторинг мониторинг мобильных приложений и на что они обращают особое внимание. Читать статью.
👍3
Взгляд на сервисы глазами пользователей: как устроен синтетический мониторинг приложений
Невозможно зайти в мобильное приложение, записаться к врачу, оплатить покупку в интернет-магазине, не работают кассы, подрядчик нарушает SLA по доступности сервисов, а инженеры поддержки приступают к поиску проблем после жалоб пользователей и проверяют вручную десятки, а иногда и сотни информационных систем – типичный процесс эксплуатации в быстро развивающихся и сильно зависящих от стабильной работы IT крупных компаниях. Инженерам сложно выполнять KPI по доступности и проактивно работать со сбоями, а бизнес несет финансовые и репутационные потери.
В статье рассказано, как устроен синтетический мониторинг в платформе зонтичного мониторинга Monq, как с его помощью клиент, который проверял вручную 80 информационных систем по пяти сценариям, смог полностью автоматизировать тестирование интерфейсов. Читать статью.
Невозможно зайти в мобильное приложение, записаться к врачу, оплатить покупку в интернет-магазине, не работают кассы, подрядчик нарушает SLA по доступности сервисов, а инженеры поддержки приступают к поиску проблем после жалоб пользователей и проверяют вручную десятки, а иногда и сотни информационных систем – типичный процесс эксплуатации в быстро развивающихся и сильно зависящих от стабильной работы IT крупных компаниях. Инженерам сложно выполнять KPI по доступности и проактивно работать со сбоями, а бизнес несет финансовые и репутационные потери.
В статье рассказано, как устроен синтетический мониторинг в платформе зонтичного мониторинга Monq, как с его помощью клиент, который проверял вручную 80 информационных систем по пяти сценариям, смог полностью автоматизировать тестирование интерфейсов. Читать статью.
👍4🔥4
Что использовать для распределённого хранения данных Zabbix, и почему мы остановились на нетипичном решении? (спойлер: Clickhouse)
При обычной нагрузке (12000 NVPS) система работала стабильно, но стоило произойти массовой аварии на инфраструктуре или перезагрузке сервера/прокси, как производительности БД не хватало. В такие моменты очень быстро накапливались очереди обработки данных, заканчивались кэши – система фактически прекращала работу. Непростую ситуацию ухудшали еще ложные срабатывания (данные не всегда могли попасть в БД) и рассылка уведомлений ответственным администраторам, проверявшим состояние систем в WEB-интерфейсе. Для восстановления работы приходилось перезапускать компоненты друг за другом, контролируя нагрузку на БД. Читать дальше на Хабре.
При обычной нагрузке (12000 NVPS) система работала стабильно, но стоило произойти массовой аварии на инфраструктуре или перезагрузке сервера/прокси, как производительности БД не хватало. В такие моменты очень быстро накапливались очереди обработки данных, заканчивались кэши – система фактически прекращала работу. Непростую ситуацию ухудшали еще ложные срабатывания (данные не всегда могли попасть в БД) и рассылка уведомлений ответственным администраторам, проверявшим состояние систем в WEB-интерфейсе. Для восстановления работы приходилось перезапускать компоненты друг за другом, контролируя нагрузку на БД. Читать дальше на Хабре.
👍14
Prometheus Certified Associate (PCA)— Tips on how to pass the exam
Получение сертификата Prometheus Certified Associate (PCA) - нелегкий, но очень полезный шаг к подтверждению компетентности в области этого мощного инструмента мониторинга и оповещения. Эта статья написана с искренним намерением помочь в этом процессе.
Опыт человека, сдавшего этот экзамен в апреле 2023 года в статье.
❗️Статья на Медиум, возможно, нужен VPN.
Получение сертификата Prometheus Certified Associate (PCA) - нелегкий, но очень полезный шаг к подтверждению компетентности в области этого мощного инструмента мониторинга и оповещения. Эта статья написана с искренним намерением помочь в этом процессе.
Опыт человека, сдавшего этот экзамен в апреле 2023 года в статье.
❗️Статья на Медиум, возможно, нужен VPN.
👍6❤1
Будь всегда в курсе: мониторим сертификаты с помощью Prometheus и Telegram
Казалось бы, что может быть сложного в мониторинге сертификатов? Выдан сертификат – следите за его сроком действия. Многие по старинке используют календари, напоминания, иногда даже физические заметки. Но ручные методы неидеальны, ведь люди ошибаются, забывают и теряют информацию.
И если не автоматизировать такие моменты, то однажды можете проснуться и узнать, что сервис недоступен из-за протухшего сертификата. Читать статью.
Казалось бы, что может быть сложного в мониторинге сертификатов? Выдан сертификат – следите за его сроком действия. Многие по старинке используют календари, напоминания, иногда даже физические заметки. Но ручные методы неидеальны, ведь люди ошибаются, забывают и теряют информацию.
И если не автоматизировать такие моменты, то однажды можете проснуться и узнать, что сервис недоступен из-за протухшего сертификата. Читать статью.
👍13👎2
Troubleshooting Zabbix Agent with Wireshark
В этой статье показано, как с помощью Wireshark можно исключить проблемы с сетевым подключением как основную причину проблем со сбором данных. Начиная с версии Wireshark 4.1.0 в него встроена поддержка протокола Zabbix.
Начиная с версии Zabbix 4.0, весь трафик между сервером Zabbix и прокси-серверами Zabbix, а также трафик Zabbix Agent 2 сжимается для экономии пропускной способности сети и повышения производительности. Диссектор протоколов Zabbix в Wireshark способен автоматически распаковывать такой трафик.
Читать статью в блоге Zabbix
В этой статье показано, как с помощью Wireshark можно исключить проблемы с сетевым подключением как основную причину проблем со сбором данных. Начиная с версии Wireshark 4.1.0 в него встроена поддержка протокола Zabbix.
Начиная с версии Zabbix 4.0, весь трафик между сервером Zabbix и прокси-серверами Zabbix, а также трафик Zabbix Agent 2 сжимается для экономии пропускной способности сети и повышения производительности. Диссектор протоколов Zabbix в Wireshark способен автоматически распаковывать такой трафик.
Читать статью в блоге Zabbix
👍13
Три статьи цикла с примерами работы с данными в Zabbix
Zabbix in: Exploratory Data Analysis Rehearsal – Part 1. В этой статье рассказывают на примере мониторинга Nginx о создании новых метрик, которые помогут быстрее проводить диагностику нештатной работы сервиса.
Zabbix in: Exploratory Data Analysis Rehearsal – Part 2. Здесь разобран более продвинутый анализ метрик: стандартная девиация, персентиль, вариативность и другие.
Zabbix in: exploratory data analysis rehearsal – Part 3. Здесь разобраны распределения данных на примерах Skewness (ассиметрия) и Kurtosis (эксцессс).
Zabbix in: Exploratory Data Analysis Rehearsal – Part 1. В этой статье рассказывают на примере мониторинга Nginx о создании новых метрик, которые помогут быстрее проводить диагностику нештатной работы сервиса.
Zabbix in: Exploratory Data Analysis Rehearsal – Part 2. Здесь разобран более продвинутый анализ метрик: стандартная девиация, персентиль, вариативность и другие.
Zabbix in: exploratory data analysis rehearsal – Part 3. Здесь разобраны распределения данных на примерах Skewness (ассиметрия) и Kurtosis (эксцессс).
👍7
Better anomaly detection in system observability and performance testing with Grafana k6
Решая эту проблему поиска аномалий, автор этой стать разработал расширение для k6 под названием xk6-anomaly, чтобы сделать анализ результатов тестирования более быстрым и точным. В этой статье он рассказывает об основах аномалий и о том, как использование расширения xk6-anomaly может помочь в их обнаружении. Читать статью.
Решая эту проблему поиска аномалий, автор этой стать разработал расширение для k6 под названием xk6-anomaly, чтобы сделать анализ результатов тестирования более быстрым и точным. В этой статье он рассказывает об основах аномалий и о том, как использование расширения xk6-anomaly может помочь в их обнаружении. Читать статью.
👍5
How To Troubleshoot and Monitor Applications using OpenTelemetry
Это видео — введение в OpenTelemetry для Python-разработчиков, включающее в себя инструментацию первого приложения, просмотр первых трасс и метрик, и развертывание первого экземпляра Jaeger локально, чтобы показать как построить свою собственную платформу наблюдаемости.
Это видео — введение в OpenTelemetry для Python-разработчиков, включающее в себя инструментацию первого приложения, просмотр первых трасс и метрик, и развертывание первого экземпляра Jaeger локально, чтобы показать как построить свою собственную платформу наблюдаемости.
👍4❤1
Обмен сменами в Grafana OnCall: более простой способ обмена дежурными сменами с коллегами по команде
День рождения родственника, концерт, поездка с друзьями за город на выходные — существует множество причин, по которым дежурные могут захотеть поменяться сменами. И вместо того, чтобы судорожно рассылать сообщения своим коллегам, неплохо было бы автоматизировать этот процесс и быстро найти нужную смену.
Именно такая идея лежит в основе "замены смен" — новой функции Grafana OnCall, которая позволяет легко координировать действия членов команды по смене дежурных смен. Функция shift swaps позволяет легко и быстро найти подмену и автоматически обновить расписание дежурств.
Новая функция уже доступна в Grafana OnCall — как в OSS-версии, так и в Grafana Cloud, а ещё в мобильном приложении Grafana OnCall.
В этой статье рассказывается о новой функции замены смен. Читать статью.
День рождения родственника, концерт, поездка с друзьями за город на выходные — существует множество причин, по которым дежурные могут захотеть поменяться сменами. И вместо того, чтобы судорожно рассылать сообщения своим коллегам, неплохо было бы автоматизировать этот процесс и быстро найти нужную смену.
Именно такая идея лежит в основе "замены смен" — новой функции Grafana OnCall, которая позволяет легко координировать действия членов команды по смене дежурных смен. Функция shift swaps позволяет легко и быстро найти подмену и автоматически обновить расписание дежурств.
Новая функция уже доступна в Grafana OnCall — как в OSS-версии, так и в Grafana Cloud, а ещё в мобильном приложении Grafana OnCall.
В этой статье рассказывается о новой функции замены смен. Читать статью.
👍6🔥2