最全 Prometheus 踩坑集锦
生活随笔
收集整理的这篇文章主要介绍了
最全 Prometheus 踩坑集锦
小编觉得挺不错的,现在分享给大家,帮大家做个参考.
监控系统的历史悠久,是一个很成熟的方向,而 Prometheus 作为新生代的开源监控系统,慢慢成为了云原生体系的事实标准,也证明了其设计很受欢迎。本文主要分享在 Prometheus 实践中遇到的一些问题和思考,如果你对 Kubernetes 监控体系或 Prometheus 的设计还不太了解,可以先看下容器监控系列[1]。
几点原则
-
监控是基础设施,目的是为了解决问题,不要只朝着大而全去做,尤其是不必要的指标采集,浪费人力和存储资源(To B商业产品例外)。
-
需要处理的告警才发出来,发出来的告警必须得到处理。
-
简单的架构就是最好的架构,业务系统都挂了,监控也不能挂。Google SRE 里面也说避免使用 Magic 系统,例如机器学习报警阈值、自动修复之类。这一点见仁见智吧,感觉很多公司都在搞智能 AI 运维。
Prometheus 的局限
-
Prometheus 是基于 Metric 的监控,不适用于日志(Logs)、事件(Event)、调用链(Tracing&#
总结
以上是生活随笔为你收集整理的最全 Prometheus 踩坑集锦的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇: SpringBoot 源码解析 —— S
- 下一篇: 2020年阿里大数据一面面经,看看你还有