Telegram Web Link
Особенности SRE и Observability в мобильных приложениях

В этой статье технический менеджер продукта в Тинькофф рассказывает о том, как у них устроен мониторинг мониторинг мобильных приложений и на что они обращают особое внимание. Читать статью.
👍3
Взгляд на сервисы глазами пользователей: как устроен синтетический мониторинг приложений

Невозможно зайти в мобильное приложение, записаться к врачу, оплатить покупку в интернет-магазине, не работают кассы, подрядчик нарушает SLA по доступности сервисов, а инженеры поддержки приступают к поиску проблем после жалоб пользователей и проверяют вручную десятки, а иногда и сотни информационных систем – типичный процесс эксплуатации в быстро развивающихся и сильно зависящих от стабильной работы IT крупных компаниях. Инженерам сложно выполнять KPI по доступности и проактивно работать со сбоями, а бизнес несет финансовые и репутационные потери.

В статье рассказано, как устроен синтетический мониторинг в платформе зонтичного мониторинга Monq, как с его помощью клиент, который проверял вручную 80 информационных систем по пяти сценариям, смог полностью автоматизировать тестирование интерфейсов. Читать статью.
👍4🔥4
Что использовать для распределённого хранения данных Zabbix, и почему мы остановились на нетипичном решении? (спойлер: Clickhouse)

При обычной нагрузке (12000 NVPS) система работала стабильно, но стоило произойти массовой аварии на инфраструктуре или перезагрузке сервера/прокси, как производительности БД не хватало. В такие моменты очень быстро накапливались очереди обработки данных, заканчивались кэши – система фактически прекращала работу. Непростую ситуацию ухудшали еще ложные срабатывания (данные не всегда могли попасть в БД) и рассылка уведомлений ответственным администраторам, проверявшим состояние систем в WEB-интерфейсе. Для восстановления работы приходилось перезапускать компоненты друг за другом, контролируя нагрузку на БД. Читать дальше на Хабре.
👍14
Prometheus Certified Associate (PCA)— Tips on how to pass the exam

Получение сертификата Prometheus Certified Associate (PCA) - нелегкий, но очень полезный шаг к подтверждению компетентности в области этого мощного инструмента мониторинга и оповещения. Эта статья написана с искренним намерением помочь в этом процессе.

Опыт человека, сдавшего этот экзамен в апреле 2023 года в статье.

❗️Статья на Медиум, возможно, нужен VPN.
👍61
Будь всегда в курсе: мониторим сертификаты с помощью Prometheus и Telegram

Казалось бы, что может быть сложного в мониторинге сертификатов? Выдан сертификат – следите за его сроком действия. Многие по старинке используют календари, напоминания, иногда даже физические заметки. Но ручные методы неидеальны, ведь люди ошибаются, забывают и теряют информацию.

И если не автоматизировать такие моменты, то однажды можете проснуться и узнать, что сервис недоступен из-за протухшего сертификата. Читать статью.
👍13👎2
Troubleshooting Zabbix Agent with Wireshark

В этой статье показано, как с помощью Wireshark можно исключить проблемы с сетевым подключением как основную причину проблем со сбором данных. Начиная с версии Wireshark 4.1.0 в него встроена поддержка протокола Zabbix.

Начиная с версии Zabbix 4.0, весь трафик между сервером Zabbix и прокси-серверами Zabbix, а также трафик Zabbix Agent 2 сжимается для экономии пропускной способности сети и повышения производительности. Диссектор протоколов Zabbix в Wireshark способен автоматически распаковывать такой трафик.

Читать статью в блоге Zabbix
👍13
Три статьи цикла с примерами работы с данными в Zabbix

Zabbix in: Exploratory Data Analysis Rehearsal – Part 1. В этой статье рассказывают на примере мониторинга Nginx о создании новых метрик, которые помогут быстрее проводить диагностику нештатной работы сервиса.

Zabbix in: Exploratory Data Analysis Rehearsal – Part 2. Здесь разобран более продвинутый анализ метрик: стандартная девиация, персентиль, вариативность и другие.

Zabbix in: exploratory data analysis rehearsal – Part 3. Здесь разобраны распределения данных на примерах Skewness (ассиметрия) и Kurtosis (эксцессс).
👍7
Better anomaly detection in system observability and performance testing with Grafana k6

Решая эту проблему поиска аномалий, автор этой стать разработал расширение для k6 под названием xk6-anomaly, чтобы сделать анализ результатов тестирования более быстрым и точным. В этой статье он рассказывает об основах аномалий и о том, как использование расширения xk6-anomaly может помочь в их обнаружении. Читать статью.
👍5
How To Troubleshoot and Monitor Applications using OpenTelemetry

Это видео — введение в OpenTelemetry для Python-разработчиков, включающее в себя инструментацию первого приложения, просмотр первых трасс и метрик, и развертывание первого экземпляра Jaeger локально, чтобы показать как построить свою собственную платформу наблюдаемости.
👍41
Обмен сменами в Grafana OnCall: более простой способ обмена дежурными сменами с коллегами по команде

День рождения родственника, концерт, поездка с друзьями за город на выходные — существует множество причин, по которым дежурные могут захотеть поменяться сменами. И вместо того, чтобы судорожно рассылать сообщения своим коллегам, неплохо было бы автоматизировать этот процесс и быстро найти нужную смену.

Именно такая идея лежит в основе "замены смен" — новой функции Grafana OnCall, которая позволяет легко координировать действия членов команды по смене дежурных смен. Функция shift swaps позволяет легко и быстро найти подмену и автоматически обновить расписание дежурств.

Новая функция уже доступна в Grafana OnCall — как в OSS-версии, так и в Grafana Cloud, а ещё в мобильном приложении Grafana OnCall.

В этой статье рассказывается о новой функции замены смен. Читать статью.
👍6🔥2
Enable Grafana dashboard for kube-components

В статье показано как визуализировать метрики k8s в Grafana. Почти воркшоп. Читать статью.

❗️Статья на Медиум, возможно, нужен VPN.
👍7
Приятная неожиданность для всех тех, кто интересуется Zabbix — трансляция Zabbix Summit 2023 в прямом эфире 6-7 октября. Можно даже задавать вопросы.

Инфо по ссылке
🔥13👍3
Zabbix Summit 2023

Появились записи и презентации с мероприятия. Можно даже и посмотреть.
👍10
Prometheus + Loki + Grafana: отслеживаем состояния k8s и запущенных в нём приложении

Мониторинг состояния серверов и приложении является одной из основных задач DevOps-инженера. Логирование помогает обнаружить проблемы, возникающие в запущенных сервисах, а также понять что на самом деле случилось в случае возникновения проблем. Методы и инструменты для мониторинга выбираются исходя из сервера, на котором разворачиваются приложения. В этой статье описан процесс развертвывания системы мониторинга и логирования в Kubernetes, начиная с установки кубера на свой сервер и заканчивая импортом готового дашборда. Читать статью.
👍8
10 лучших практик логирования в Python

По мере того как приложение собирает все больше данных, правильное ведение журналов становится решающим фактором для быстрого и эффективного понимания общей функциональности. Это позволяет устранять проблемы до того, как они повлияют на конечных пользователей.

В этой статье мы рассмотрены лучшие практики логирования в Python. Следуя им, вы сможете обеспечить информативность, практичность и масштабируемость генерируемых логов. Читать статью.
👍7
Что такое GraphQL

В этой статье рассказывается, что такое GraphQL и его сравнение с REST API, проведены аналогии и рассмотрены главные различия. Ну а также, естественно, разобрано, как работает GraphQL и какие у него возможности. Читать статью.
👍6
Why You Should Consider Loki as an Alternative to Elasticsearch!

В
этой статье рассмотрены возможности Loki в качестве альтернативы ElasticSearch. Читать статью.

❗️Статья на Медиум, возможно, нужен VPN.
👍7
Troubleshooting Kafka for 2000 Microservices at Wix

За последние несколько лет команда Data streams, отвечающая за событийно-ориентированную инфраструктуру на базе Kafka, создала множество инструментов и сервисов, чтобы предоставить разработчикам Wix всю полноту возможностей и наглядность для легкого поиска и устранения проблем, связанных с потоковой обработкой событий. В этой статье разобраны инструменты Observability. Читать статью.

❗️Статья на Медиум, возможно, нужен VPN.
👍31
How to embed Grafana dashboards into web applications

За последние несколько релизов в Grafana разработали множество вариантов того, как внедрить дашборды в веб-приложения, но может возникнуть путаница в том, как они работают и когда следует использовать каждый подход. Именно этому и посвящена эта статья: будут рассмотрены все варианты и обсуждены последствия каждого из них для безопасности. Читать статью.
👍92
Бесплатные курсы и сертификации

В этом репозитории собраны ссылки на бесплатные курсы и сертификации различных вендоров. Среди них: Gitlab, Oracle, Azure, GCP, Elastic и множество других. Прорва знаний, короче.

Репыч на Гитхабе
🔥8👍2👎2🤔1
2025/07/09 19:13:09
Back to Top
HTML Embed Code: