SRE - 监控建设

监控

随着信息技术的迅速发展及其在商业和工业环境中的广泛应用,系统的可靠性成为了组织的生存之本。Site Reliability Engineering(SRE)作为一种实践的结合体,广泛地用于确保和提升软件系统的可靠性。其中,它的一个重要组成部分是制定和监控服务的关键性能指标(Service Level Indicators, SLIs)、服务水平目标(Service Level Objectives, SLOs)以及服务等级协议(Service Level Agreements, SLAs)。本文旨在深入介绍监控文档中的各要素,探讨监控工具的应用,以及阐述监控建设的方法和最佳实践,以实现高效的服务运维和故障应急。

目录

1     SRE的监控体系... 2

1.1         SLI(Service Level Indicator)... 3

1.2         SLO(Service Level Objective)... 3

1.3         SLA(Service Level Agreement)... 3

2     监控⼯具使⽤... 4

2.1         Prometheus. 4

2.2         BPC. 4

2.3         RMS. 4

2.4         业务监控平台... 5

2.5         听云... 6

2.6         Zabbix. 6

2.7         F5. 7

2.8         EM平台... 7

2.9         ELK大数据日志... 7

3     监控建设... 8

3.1         监控分层... 8

3.1.1              业务层.... 8

3.1.2              链路层.... 8

3.1.3              应⽤监控.... 8

3.1.4              系统监控.... 9

3.1.5              监控可视化.... 9

3.1.6              告警管理.... 10

3.2         监控指标套餐... 11

3.2.1              业务指标套餐.... 11

3.2.2              环境(可⽤性)指标套餐.... 12

相关推荐

最近更新

  1. TCP协议是安全的吗?

    2023-12-24 07:38:02       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2023-12-24 07:38:02       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2023-12-24 07:38:02       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2023-12-24 07:38:02       20 阅读

热门阅读

  1. 小红书获得小红书笔记详情 API

    2023-12-24 07:38:02       56 阅读
  2. Crow:Middlewares 庖丁解牛5 context

    2023-12-24 07:38:02       46 阅读
  3. css@media媒体查询

    2023-12-24 07:38:02       47 阅读
  4. [字符编码]windwos下使用libiconv转换编码格式(二)

    2023-12-24 07:38:02       47 阅读
  5. Pytorch项目,肺癌检测项目之三

    2023-12-24 07:38:02       40 阅读
  6. 力扣labuladong一刷day45天二分图判定

    2023-12-24 07:38:02       43 阅读
  7. 二级指针使用

    2023-12-24 07:38:02       43 阅读
  8. mybatisx 插件模板

    2023-12-24 07:38:02       43 阅读
  9. 第6章 用户输入和while循环

    2023-12-24 07:38:02       41 阅读