Вчера было много метрик, но по пять, а сегодня мало — но по три
Часто считается, что Prometheus чрезмерно потребляет ресурсы. Однако проблема часто кроется не в самом Prometheus, а в способе использования метрик. Многие неправильно используют метрики, пытаясь включить в них излишнюю информацию, например, полные URL и данные user-agent. Это приводит к неоправданному расходу ресурсов. Ключевой вопрос - как сохранить баланс между детальностью метрик и эффективностью мониторинга?
Мой доклад сфокусирован на методах оптимизации хранения данных в Prometheus и лучших практиках Observability для разрешения этого парадокса. Мы рассмотрим, как работает база данных временных рядов (TSDB) и как выбор метрик влияет на ресурсоемкость. Также будут представлены инструменты и подходы для повышения эффективности Prometheus.
Во второй части доклада я поделюсь обзором общих методов Observability, обсудив различные типы данных, помимо метрик. Вы узнаете, какие данные стоит собирать и как они помогают в диагностике инцидентов.
По окончании доклада у вас будет полное представление о создании сбалансированной системы мониторинга с использованием Prometheus.
Инженер, тимлид и архитектор с 14-летним стажем. С недавних пор возглавил продукт “хранилище для мониторинга” в компании “Флант”. В институте учился на разработчика, но не срослось, ушел в эксплуатацию. С тех пор изучаю Linux. Читаю и пишу на Go со словарем, дружу с Python. Есть сертификат CKA, правда так и не понял зачем он нужен. Состою в кружке, хочу все знать и всегда готов поделиться тем, что уже узнал.
АО "Флант", Санкт-Петербург
Solution Engineer