一、基本情况介绍
问题简述 |
XXXX年XX月XX日凌晨3时开始XX系统开始出现XXX业务卡慢等待的现象,对临床科室的工作带来了较大影响。 |
终端用户 |
XXX医院病区临床护理人员 |
优先级 |
高 |
问题发生时间 |
XXXX年XX月XX日 03:10~09:10 |
问题解决时间 |
XXXX年XX月XX日 09:10 |
涉及产品 |
XXX系统 |
二、根本原因分析
本次线上的卡慢事故根本原因在于XX月XX日夜间3点开始,一个“XXXX”和“YYYY”的接口突然变慢(接口当时响应慢)导致短时间之内大量连接请求涌入XXX平台,造成XXX平台所有连接池资源被阻塞,导致接口阻塞排队和线程阻塞,数据库资源池被占满,从而造成XXX业务都受到较大影响。
三、根本解决办法
为了避免再次出现类似事故,制定以下彻底整改策略:
- 接口平台中添加接口的熔断限流机制,熔断机制主要目的为了在某接口持续不断请求较慢时,系统判断该接口较平常访问非正常现象,则将该接口自动禁止接收新请求,只影响与该接口涉及的业务,不影响其他业务,从而将使得其他接口涉及的业务影响度降到最低。例如“XXXX接口”统计过往数据平均并行处理量在30条左右,如果该接口异常执行慢,短时间内超过100条并行在处理,则判定该接口需要临时做限流熔断,防止源源不断接收新请求进而导致的所有业务受影响(已于XXXX年XX月XX日完成);
- 针对其他客户现场,需要提前准备熔断的接口,进行限流设置,计划在XX月XX日前针对所有样板客户进行设置,XX月XX日前对所有其他客户进行设置。
XXXX公司
XXXX年XX月XX日