Prometheus监控k8s集群告警规则

目录

节点磁盘使用率

节点状态异常

节点内存使用率

 节点CPU使用率

容器内存使用率

容器CPU使用率

pod频繁重启

pod状态异常

pod启动超时失败

deploymentPOD可用率


节点磁盘使用率

100 - (node_filesystem_avail{mountpoint="/"} * 100) /
node_filesystem_size{mountpoint="/"}
node_filesystem_size{device="overlay",instance=~'$node'}-0
node_filesystem_avail{device="overlay",instance=~'$node'}-0
1-(node_filesystem_free{instance=~'$node',device="overlay"} / node_filesystem_size{instance=~'$node',device="overlay"})

节点状态异常

kube_node_status_condition{condition="Ready",status="true"}

节点内存使用率

100 - node_memory_MemAvailable_bytes{} / node_memory_MemTotal_bytes{} * 100

或者:

image.png

 节点CPU使用率

100 - avg by(instance) (rate(node_cpu_seconds_total{mode="idle"}[2m])) * 100

或者

image.png

容器内存使用率

(sum(container_memory_working_set_bytes{id!="/",namespace = "hdd-yunxiaobao-prod"}) BY (instance,name,container,pod_name,namespace) / 
sum(container_spec_memory_limit_bytes{id!="/",namespace = "hdd-yunxiaobao-prod"} > 0) BY (instance,name,container,pod_name,namespace) * 100)

容器CPU使用率

100 * (sum(rate(container_cpu_usage_seconds_total{id!="/",namespace = "hdd-yunxiaobao-prod"}[1m])) by (pod_name,namespace,container) / 
sum(label_replace(kube_pod_container_resource_limits_cpu_cores{namespace = "hdd-yunxiaobao-prod"},"pod_name","$1","pod","(.*)")) by (pod_name,namespace,container)) and sum(label_replace(kube_pod_container_resource_limits_cpu_cores{namespace = "hdd-yunxiaobao-prod"},"pod_name","$1","pod","(.)")) by (pod_name,namespace,container) != 0

pod频繁重启

max(container_fs_usage_bytes{pod!="",namespace!="arms-prom",namespace!="monitoring"}) by 
(pod_name,namespace,device)/max(container_fs_limit_bytes{pod!=""}) by 
(pod_name,namespace,device) * 100

pod状态异常

kube_pod_status_phase{phase=~"Pending|Unknown|Failed"} > 0

pod启动超时失败

kube_pod_container_status_waiting_reason{} == 1

deploymentPOD可用率

kube_deployment_status_replicas_available{} / kube_deployment_status_replicas{} * 100 and 
kube_deployment_status_replicas_unavailable and kube_deployment_status_replicas{} > 9

 希望能够帮助到大家!!!

相关推荐

  1. K8s: Prometheus 监控主机 和 K8s

    2024-03-26 08:40:08       12 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-03-26 08:40:08       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-03-26 08:40:08       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-03-26 08:40:08       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-03-26 08:40:08       18 阅读

热门阅读

  1. vue json字符串和Hex互转

    2024-03-26 08:40:08       13 阅读
  2. 蓝桥杯 付账问题

    2024-03-26 08:40:08       17 阅读
  3. 制作一个简单的HTML个人网页

    2024-03-26 08:40:08       17 阅读
  4. 贪心算法的习题答案

    2024-03-26 08:40:08       12 阅读
  5. es相关面试题

    2024-03-26 08:40:08       17 阅读
  6. 微服务demo(二)nacos服务注册

    2024-03-26 08:40:08       16 阅读
  7. 在 Spring MVC 中,处理 PUT 和 DELETE 请求

    2024-03-26 08:40:08       15 阅读
  8. 2024.3.25

    2024.3.25

    2024-03-26 08:40:08      15 阅读
  9. c++初步

    c++初步

    2024-03-26 08:40:08      15 阅读
  10. 算法-数据结构

    2024-03-26 08:40:08       19 阅读