Telegram Web Link
📆OPS Talk by Sber уже скоро — успей пройти регистрацию!
 
Встречаемся 30 мая в штаб-квартире Сбера! На митапе вместе с инженерами сопровождения и DevOps-инженерами обсудим тему вендорозамещения и импортозамещения ПО и технологий, а также сфокусируемся на вопросах их сопровождения.

Поговорим о надежности высоконагруженных систем, рассмотрим конкретные кейсы и обменяемся опытом со спикерами из Сбера, Wildberries и других компаний.

Приглашаем вас присоединиться к большому сообществу support-специалистов и пообщаться с коллегами из технологических компаний со всей страны.
 
Подробности и регистрация - на сайте! Количество мест ограничено.
Please open Telegram to view this post
VIEW IN TELEGRAM
Zero to Hero: Loki | Grafana

Если вы ищете простую систему логирования — почему бы не обратить внимание на Loki? В этой серии видео команда Grafana рассказывает начиная с самых азов.

Intro to Logging | Zero to Hero: Loki | Grafana
Structure of Logs (Part 1) | Zero to Hero: Loki | Grafana
Structure of Logs (Part 2) | Zero to Hero: Loki | Grafana
How to Get Started with Loki | Zero to Hero: Loki | Grafana
Introduction to Ingesting logs with Loki | Zero to Hero: Loki | Grafana
Как случайно написать систему мониторинга (еще одну)

Почему нет, если да?

Статья на Хабр

Репыч на Гитхабе
Dude, where's my error? How OpenTelemetry records errors

Некоторые языки, такие как Python и JavaScript, рассматривают ошибки и исключения как синонимы; другие, такие как PHP и Java, этого не делают. Понимание различия между ошибками и исключениями имеет решающее значение для эффективной обработки ошибок, т.к. оно позволяет использовать более тонкие стратегии обработки и восстановления после сбоев в приложениях.

Это важная статья для понимания того, как устроен OpenTelemetry и как собирает данные. Читать.
Zabbix 7.0 LTS

Трудно спорить с тем, что все очень долго ждали выхода новой мажорной версии Zabbix. Вчера объявили о выходе нового релиза, а там действительно много нововведений:

🟩 Веб-мониторинг на базе Selenium
🟩 Высокая доступность и распределение нагрузки для Zabbix-Proxy
🟩 Повышена производительность Zabbix-Proxy
🟩 Улучшена скорость сбора данных (асинхронные поллеры)
🟩 Централизованное управление таймаутами
🟩 Новые панели для визуализации данных
🟩 Динамический дашборд для навигации между узлами
🟩 Многофакторная аутентификация
🟩 Новые шаблоны и интеграции
🟩 Изменение лицензирования Zabbix на AGPLv3

Что нового
homer

Утилита операторского уровня для наблюдения за пакетами и событиями VoiP/RTC, основанная на протоколе HEP/EEP и готовая принимать большие объемы сигналов, событий RTC, логов и статистики с мгновенным и сквозным поиском.

Репыч на Гитхабе
gatus

Утилита мониторинга состояния, ориентированная на разработчиков, которая дает вам возможность отслеживать службы с помощью HTTP, ICMP, TCP и DNS-запросов, а также анализировать результат запросов, используя список условий для значений, таких как код и время ответа, срок действия сертификата, тело ответа и многие другие. Каждую из этих проверок работоспособности можно сочетать с оповещениями через Slack, Teams, PagerDuty, Discord, Twilio и другие.

Репыч на гитхабе
Дашборды на Apache Superset

Можно рассмотреть в качестве замены PowerBI. Superset отвечает следующим требованиям:

⚡️ Открытый исходный код

⚡️ Возможность добавления новых коннекторов

⚡️ SQL для выполнения запросов

⚡️ Мнопользовательская модель доступа к дашбордам

⚡️ Возможность параметризации дашбордов для гибкой настройки

⚡️ Многообразие визализаций

Репыч на Гитхабе (60К звезд — не хухры-мухры)

Статья с описанием на medium.com
Главная в России конференция про Kubernetes®

4 июля на Kuber Conf’24 разработчики и эксперты по контейнерным технологиям поделятся стратегиями решения бизнес-задач, обзорами инструментов и лучшими практиками. Подробная программа — на сайте!

Регистрируйтесь и присоединяйтесь к сообществу K8s-специалистов.

Место проведения — Москва, можно участвовать онлайн.
Гайд по настройке мониторинга PostgreSQL при помощи Prometheus и Grafana

В статье подобно разобрана настройка мониторинга БД PostgreSQL. Читать на medium.
Оптимизация производительности Zabbix

Из канала @zabbix_ru (только про Zabbix и ничего кроме Zabbix):

Тюнинг производительности — обязательная часть работы администратора Zabbix. При росте количества узлов, количества собираемых элементов данных и снижению интервалов их сбора резко возрастает шанс столкнуться с бутылочными горлышками в производительности. Ключевые метрики, которые напрямую влияют на производительность — количество узлов (разумеется, с наполняемыми элементами данных) и количество новых значений в секунду. Чем их больше и чем меньше интервал сбора данных — тем больше нагрузка на инсталляцию Zabbix в целом. При этом, элементы данных типа Zabbix Trapper и SNMP-трап особого вклада в нагрузку не вносят.

Читать статью о том, как оптимизировать Zabbix
Нюансы работы с Redis: репликация

DevOps-инженер компании Nixys продолжает свой обзор Redis. Эта статья — подробное руководство по базовой репликации Redis, из которого вы узнаете, как настроить эту БД на высокий уровень отказоустойчивости.  В конце статьи автор поместил разбор атаки на Redis через H2Miner, из-за которой можно полностью потерять данные на инстансе Redis. Читать статью.
SLA vs. SLO vs. SLI: What’s the Difference?

В статье рассказывают о предназначении SLA, SLO и SLI, а также приводятся примеры каждой сущности. Полезно, если планируете внедрять у себя работу с этими показателями. Читать статью.
SRE Archetypes или какой ты сегодня SRE

В статье разобраны разные подходы к работе SRE и можно попробовать определить ваш стиль работы: Админ, Архитектор, Слесарь или пожарный. Читать статью.
Wireshark & tcpdump: A Debugging Power Couple

В этой статье подробно рассматриваются функции, использование и практические советы по использованию Wireshark для целей отладки. Читать.

❗️Статья на Медиум
Pinterest: разработка всеобъемлющей JSON-системы логирования для клиентских приложений

В начале 2020 года у приложения Pinterest для iOS часто возникала серьёзная проблема, связанная с нехваткой памяти. Тогда в компании поняли, что у них нет ни достаточно подробных сведений о работе приложений, ни хорошей системы, позволяющей анализировать подобные сведения в целях мониторинга приложений и решения проблем. В посте рассказывают о подходах к логированию и использованию для этого в т.ч. OpenSearch. Читать статью на Хабре.
Getting started with Grafana: best practices to design your first dashboard

Разбирают эффективный дашбординг в зависимости от того, кто будет смотреть на панели мониторинга. Читать в блоге Grafana.
How to customize your Loki deployment with Ansible

Существуют различные методы деплоя Loki: Helm, Tanka, Docker или Docker Compose и локально из исходников. Все эти методы установки великолепны, служат своей цели и дают гибкость пользователям, чтобы развернуть Loki способом, который соответствует конкретным задачам. В статье представлен другой подход — роль Ansible Loki. Эта роль поддерживает Debian, Ubuntu и Red Hat. Читать в блоге Grafana.
Alerts Are Fundamentally Messy

Хорошая подход к гигиене алертинга состоит из нескольких компонентов: контроль за условиями срабатывания оповещения, постмортем и ​​размышления о том, что делает алертинг хорошим или плохим. Задача состоит в доведении алертинга до стадии, когда уведомления улетят, когда они должны отправиться, и не будут разосланы, когда это не требуется. Вообще говоря, это недостижимый идеал.

Реальность такова, что достижение идеала это процесс, а сам идеал недостижим. В этой статье разобран подобный итеративный процесс. Читать статью.
How we avoided alarm fatigue syndrome by managing/reducing the alerting noise

Сотрудник Doctolib делится способом снижения количества шумовых событий. Они используют для алертинга PagerDuty, но никто ж не мешает поставить на это место Grafana OnCall или другое решение. Читать статью.

❗️Статья на Медиум
2025/07/06 04:20:11
Back to Top
HTML Embed Code: