从运维故障中你都学到了什么?

一阵急促尖锐的铃声响起,王一搏忐忑不安地接起电话,被告知系统有20台服务器批量重启。

20 台!批量重启!意识到问题的严重性,王一搏迅速调整好状态,准备投身一场激烈的救火工作中。

然而事件的走向却远远超出预期.....请看word VCR。

P1-故障发现

一,上午9点监控系统异常报告:20台服务器批量重启。

图片

值守专家推测2种可能:一是内网i53主机硬件告警,初步判断是X86设备i53发生故障,导致设备上的虚拟服务器进行迁移重启。

而通过告警详情,显示磁盘运行正常。推测排除。

图片

二,在批量重启中,内网i54主机硬件-x86-温度状态异常告警。    

图片

定位问题,进一步求证。

P2-准确定位,快速解决

二级moc工程师登录主机管理软件。发现i53、i54两台主机的虚拟机服务器批量重启时间与内存PCH和PCLe同时温度状态异常告警相符合。

图片

基本锁定内存故障。沟通更换内存条后,故障再没有出现,问题解决。

在故障处理的整个过程中,王一搏只接了两个电话,一个是告知系统故障,一个是提醒更换内存条。预想的问题排查,专家会诊,故障定位和技术支持乃至通宵加班......竟然一个都没有出现,故障就这么轻松解决了。

实际上,除了紧急问题的处理效率,从全年的数据上看,管家式运维服务也是颇有成效,例如,全年没发生过一次非计划性停机时间,过去每年总会有十次八次的出现;告警问题更是减少65%以上,运维事故减少80%......运维工作再也不用又肝又氪,放得下手机,拿得起报告,从业七年终于对齐了工作颗粒度。   

故障教会了什么?最直接有效的是利用好工具!

用好工具,能够准确的事前预测,被动救火转变为主动预防;

用好工具,能够获得准确的告警信息,便于快速定位解决问题;

用好工具,能够共享行业技术发展成果,AI场景化落地,更快、更准,更高效!

这就是LinkSLA智能运维管家的核心服务——管家型运维平台。

 一站式监控

通过构建统一监控平台,对业务系统和IT基础架构进行统一监控和集中管理,可实时掌握系统、设备的运行状,通过可视化大屏可直观地查看。

平台支持集中对象展示与自动分类展示,可直观了解当前IT系统运行状态,运维人员无需单独登录每个系统、检索个别设备,监控和管理相结合,提高IT系统及设备的整体运行质量,增强IT基础设施运行的稳定性和可靠性,同时提升信息部门的IT管理水平。

 风险感知能力

包含故障告警与风险预测。

故障告警针对突发故障情况,如硬件损坏、网络中断等不可预知、不可抗因素,通过实时监控和发送告警信息,提醒运维人员响应故障解决。

风险预测主要针对资源消耗,如存储消耗、CPU性能消耗等,通过AI算法,预估资源消耗趋势,推算出阈值告警触发时间,事先做好资源配置,提高系统的稳定性。

 可视化能力

将复杂的数据转为易于理解的图表,如可配置的网络拓扑、业务拓扑,及时反映重点关注的如网络健康状况、专线链路状况等。当出现异常时,可以快速定位故障,大幅缩短故障定位、排查时间,并为解决故障提供有效依据。

 moc值守服务

moc提供7*24在线值守,并配备二线专家团队,提高事件的响应及处理效率,大大降低人力成本和专家技术成本。

 个性化报表服务

满足客户个性化需求,平台内置报表功能,可针对特定的业务系统,提供日报表、周报表,展示数据趋势,以及性能分析结果;也可以通过告警统计功能,从不同的视角观测系统健康状况。

以智能驱动运维精细化管理,统一监控构建全面的IT资源梳理和实时告警的智能运维模式,帮助用户实现功能完善,效率优先的运维支撑,推动用户信息化发展。

图片

相关推荐

  1. 成为程序员后明白什么

    2024-06-06 00:26:02       15 阅读
  2. 成为程序员后明白什么

    2024-06-06 00:26:02       11 阅读
  3. 成为程序员后明白什么

    2024-06-06 00:26:02       15 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-06-06 00:26:02       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-06-06 00:26:02       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-06-06 00:26:02       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-06-06 00:26:02       18 阅读

热门阅读

  1. 时间步和CLK之间的区别和联系

    2024-06-06 00:26:02       8 阅读
  2. Redis的非关系型数据库

    2024-06-06 00:26:02       7 阅读
  3. 深度学习之学习率调度器Scheduler介绍

    2024-06-06 00:26:02       12 阅读
  4. chap6 RNN

    2024-06-06 00:26:02       8 阅读
  5. FPGA编程与PLC编程的区别:深入解析与对比

    2024-06-06 00:26:02       10 阅读
  6. 解析自动驾驶算法四大模块的问题与后续发展

    2024-06-06 00:26:02       6 阅读
  7. iOS与前端:深入解析两者之间的区别与联系

    2024-06-06 00:26:02       9 阅读
  8. RDK X3(旭日X3派) qt.qpa.xcb: could not connect to display

    2024-06-06 00:26:02       9 阅读
  9. axios的基本使用

    2024-06-06 00:26:02       10 阅读
  10. Python | R 雌雄配对和鱼仔变异马尔可夫链

    2024-06-06 00:26:02       8 阅读
  11. 「前端+鸿蒙」核心技术HTML5+CSS3(八)

    2024-06-06 00:26:02       8 阅读
  12. Web前端开发基础笔记(6)

    2024-06-06 00:26:02       7 阅读
  13. CentOS 8 (stream) 迁移到 其他开源linux almalinux

    2024-06-06 00:26:02       8 阅读
  14. 基于单片机的脉搏测量仪毕业设计

    2024-06-06 00:26:02       7 阅读
  15. Kafka Streams介绍及在idea中的配置

    2024-06-06 00:26:02       12 阅读
  16. python内对sqlite3数据库表删除某几列相同的行index

    2024-06-06 00:26:02       8 阅读
  17. 除visio以外的几款好用流程图绘制工具

    2024-06-06 00:26:02       10 阅读
  18. 用队列实现栈-力扣

    2024-06-06 00:26:02       9 阅读