中型企业运维总监的成本优化实战案例——自建IDC机房

早期互联网快速发展的时候,相关领域的公司更注重拓展业务。 为了快速占领市场,他们往往投入了较高的成本。 但近年来,随着互联网人口红利的逐渐消退以及疫情的影响,越来越多的企业开始重视成本管理,从“粗放式经营”向“精细化经营”模式转变,成本优化已成为企业重点关注的问题。 。

本文将从中型企业运维总监的角度,呈现一个较为完整的成本优化实战案例,希望为读者提供可以参考的成本优化思路。

降低成本实际案例背景

本文的主人公小王(化名)担任一家电商公司的运维总监。 他的公司自建IDC机房,共有业务服务器1000台(线上+线下),由3名运维人员管理。 机器规格大多为8核32G,整体CPU利用率只有10%左右,年成本在1000万以上。

CTO希望在现有业务市场状况不变的情况下,以业务稳定为基本前提,降低至少30%的IT成本,并将其定为小王今年的KPI。

第一阶段云+公有云厂商/算力品牌比选

接到任务后,小王首先将IT成本分解为两部分:算力成本和人工成本。

目前IT成本主要由自建IDC机房承担,存在以下问题:

基于以上分析,考虑到公有云模式易于更新、基本免维护、灵活,小王打算先将业务迁移到云端。

目前云厂商主要提供预留实例(包年、包月)、按需实例(弹性)、竞价实例三种方式:

为了保证系统稳定性,尽量减少研发意识,小王采取了以下措施:

按年、按月将大部分无状态在线服务和部分离线服务所在的约800台机器迁移到同等配置的公有云机器上;

退役相应的私有机房机器,通过专线连接公有云和私有机房。 这样既可以保证线上服务上云后的快速扩展,又可以兼顾数据传输成本和安全考虑;

接入公有云相应的部署发布、监控报警、限流自愈等辅助功能,从而节省运维人力。

在上云过程中,小王根据公司需求对比了多个公有云厂商,选择了最合适的云资源。 另一方面,他将CPU品牌从Intel改为AMD。 两者叠加后,成本降低了约7%。 成本。

系统指标描述业务算力特征

完成混合云转型后,小王进一步将算力成本分解为服务算力成本和基础设施资源成本:

结合公司目前的成本比例,服务算力成本占比超过60%。

算力成本来源占比如下图所示:

云服务器cpu使用率多少合适_云服务器cpu使用率多少合适_云服务器cpu使用率多少合适

图1 算力成本来源占比

基于80/20原则,小王决定从第三方运维的角度,在对业务影响较小的前提下,重点关注节省服务算力成本。

云服务器cpu使用率多少合适_云服务器cpu使用率多少合适_云服务器cpu使用率多少合适

小王首先查看了公司已上云的典型业务的算力特征。 由于公司业务属于计算型,他选择通过常见的性能指标CPU利用率来观察算力消耗,发现公司业务经常在中午12点和晚上8点左右达到算力消耗峰值。

如下所示:

云服务器cpu使用率多少合适_云服务器cpu使用率多少合适_云服务器cpu使用率多少合适

图2 CPU利用率指标计算能力图

优化低频冗余算力

根据上面的业务算力模型,小王发现,即使业务完全处于巅峰状态,所需的机器数量也不到现有数量的80%。 在公有云的弹性保障下,小王分阶段释放了200余台8核32G年月冗余机,未触及历史峰值,节省了20%左右的成本。

压测+公有云模型规格降级

粗略剔除明显冗余算力后,小王观察到业务算力即使在繁忙时利用率也不高,尤其是内存空闲时。

接下来,小王对业务进行了压力测试,最终得出的结论是,业务机规格保持在8核3G比例,使用率比较均衡。 公有云机器的CPU核心和内存比例一般都是1:2或者1:4的固定比例,所以小王首先按照公有云厂商的标准配置将机器规格从8核32G降低到8核16G , 节省金钱。 成本的20%。

概括

第一阶段的优化方法比较常规,取得了一定的效果。 小王总共节省了40%左右的成本,以更低的成本获得了第一波降本红利。

根据第一阶段的优化经验,小王总结了以下几点需要改进的地方:

基于CPU消耗测算的算力消耗与实际业务情况还有一定差距。 例如,经常出现CPU消耗较高但实际业务仍稳定且不需要扩容的情况,这说明需要更准确的算力衡量指标。

业务算力模型明显有峰谷,但资源消耗模型匹配得不太好。 虽然去除了未达到的冗余算力,但算力始终处于最高峰配置,造成明显的空闲时间浪费。 。

在公有云机器的规格中,CPU与内存的比例明显受到限制,导致计算资源的使用无法进一步均衡,造成浪费。

基于以上分析,小王依次分析了需要解决的三个问题:

将以CPU消耗为中心的物理指标替换为更精准的业务指标;

持续采集该指标,实时精准匹配算力波动曲线和坐标伸缩;

获得更匹配实际业务的机器算力规格,提高资源利用率。

针对上述问题,小王对行业现有的解决方案进行了调查,发现目前还没有可以直接借鉴的通用方法和经验。 大多数实现方式都与具体的业务场景绑定,需要深度参与研发。

为了如期实现目标,小王尝试利用云原生基础治理平台开始第二阶段的深度优化。

第二级指标取代CPU指标,精准衡量算力。

云服务器cpu使用率多少合适_云服务器cpu使用率多少合适_云服务器cpu使用率多少合适

小王利用系统引入指标,并没有造成业务大规模转型。 该指标考虑了QPS中不同请求占用机器资源的时长,最终通过时长对QPS进行分段并分配相应的权重进行拟合。 相比普通QPS指标,更能准确反映业务的实际负载情况。 该指标的基本计算公式如下:

图3 公式

小王利用这个指标进行了第一阶段的“优化低频冗余算力”操作,再次下线了60台机器,节省了10%左右的成本。

使用弹性扩展,用短期峰值计算能力取代年度和月度订阅

接下来,小王对比了公有云8核16G包年包月价格(约600元/月)和弹性机价格(约1.20元/小时),发现包月机的1天费用是弹力机30天成本的70%。 % 关于。

可以推断,对于每日高峰时长小于总时长(8小时左右)30%的机器,可以采用弹性方式,而不是包年或包月。

如下所示:

云服务器cpu使用率多少合适_云服务器cpu使用率多少合适_云服务器cpu使用率多少合适

图4 短期峰值弹性取代年度和月度订阅

对于其他规格的服务器,小王将推导扩展如下:

假设每小时弹性扩容一台同规格机器的成本为Y元,高峰期机器总数为K1,高峰期为H小时,包年包月合理机器数为K2 。 从节约成本的角度来看,需要保证以下条件:

(K1-K2)* H * Y < (X / 30)* (K1 - K2) => H * Y < (X / 30)

由于X和Y是相对固定的值,因此可以根据这个不等式计算出适合弹性的理论业务峰值持续时间。 因此,在留有一定安全余量的前提下,小王依靠测量和弹性能力,下线了50多台机器,节省了10%左右的成本。

低峰时段按年、按月算力共享

面对剩下的包年包月机,小王发现还有优化的空间。 从波形覆盖面积来看,孔波形区域(蓝色阴影区域)至少占红框中矩形区域的1/3,如图:

云服务器cpu使用率多少合适_云服务器cpu使用率多少合适_云服务器cpu使用率多少合适

图5 低峰时年月算力共享

小王计划将这部分机器作为整个公司的共享资源池,可以在非高峰期供公司其他周期性和离线任务使用。 由于涉及面广,小王请求CTO出面推动协调。 最终,系统能够根据业务算力模型曲线实时扩容和缩容,总共节省了10%的成本。

裸金属切割,精确适应规格

完成基于指标和横向时序的算力优化后,小王再次将注意力集中在机器规格与业务需求的精准匹配上。

小王使用了公有云上的高规格裸机服务器,并对公有云的裸机原材料进行了二次裁剪。 虽然公有云上的裸机也是按照固定比例的算力资源出售,但切割后的算力规格可以精准匹配业务的8核3G规格需求。 还有500台机器。 与原来的8核16G云主机相比,砍掉的8核3G机器可以节省15%以上的成本。

云服务器cpu使用率多少合适_云服务器cpu使用率多少合适_云服务器cpu使用率多少合适

利用算力的地区价格差异来节省成本

完成机器规格的精准裁剪和匹配后,基本上单一算力规格和顺序算力的数量和类型都已经优化。 小王把目光转向了算力的地区差异。 他了解到,公有云上西部机房相同规格的算力比东部机房便宜。 他将近百台离线服务器迁移到西部机房,同时借助快速大规模数据迁移的能力实现了东西向计算,节省了10%的成本。

总结

第二阶段基本解决了第一阶段遗留的三大问题:算力精准计量、模型匹配精准、切割规格精准。 经过两个阶段后,CPU利用率提升到60%,总成本节省近70%,达到并超出了CTO的预期。

结合这两个阶段,小王的整体优化流程如下图所示:

云服务器cpu使用率多少合适_云服务器cpu使用率多少合适_云服务器cpu使用率多少合适

图6 降低成本流程图

降低成本配套设施

为了顺利推进成本优化,除了设计和运营各种算力增减之外,小王还依靠了以下配套措施和制度:

有必要明确算力衡量指标体系。 前期可以大致使用CPU利用率等系统指标。 后期需要使用精准的业务指标,比如QPS以及结合单个请求的时间消耗的综合指标。

降低成本的过程需要有相对完善的监控报警系统和灾难恢复SOP,以防止优化过程中出现意外情况。 比如,在优化低频冗余算力的过程中,小王在断机时,根据CPU等指标提前设定好扩缩容策略,等系统正常后再移除掉线的机器。一个星期。

为了准确衡量业务算力,需要压力测量系统和解决方案。 为了最大限度地降低前期业务投入成本,我们主要按照以下思路进行操作:测试环境->在线日志回放->模拟调用接口->收集算力衡量指标->逐步放大调用压力->响应超时的服务器达到一定比例后,压测结束。 后期可以逐步迭代到全链路压测,从网关到调用链路再到存储的完全隔离形式。 测量效果会更准确,当然相应的研发成本和投入也会更重。

为了全面反映每一步的优化结果,需要有一个成本仪表盘,以链式或并列的方式展示每一步优化前后的机器资源和成本消耗。 成本仪表板主要针对中高层人员,因此信息应简明扼要,成本信息突出。

降低成本遇到的非技术问题

在推动降低成本的过程中,小王还总结了遇到的一些非技术问题及其主要解决方案:

结论

回顾整个降本历程,除了前面总结的实施中的技术/非技术问题外,还有以下几点值得一提:

在互联网下半场的今天,降低成本、提高效率已经成为企业的大势所趋,甚至上升到了企业核心竞争力的层面。 面对各种成本优化路径和手段,谁先朝正确的方向迈出了一步,谁就能占到对手的便宜。 本文全面讲述了典型腰部企业的成本降低路径,希望对读者有所启发。 如果读者有成本优化技术手段相关的需求,可以联系我们一起讨论。

本文大部分内容摘自《星瀚未来云原生IT成本优化白皮书》,其中提到了星瀚未来打造的一站式云原生基础治理平台。 社区版本已经推出。 您可以通过此链接获取白皮书和免费信息。 尝试社区版。

关于作者

舒超,星瀚未来的CTO。 曾任美团基础研发负责人、存储中心首席架构师,负责美团公司级云原生服务治理体系的开发和演进; 曾任腾讯微博微群及新闻流广告负责人。

最近更新

  1. TCP协议是安全的吗?

    2024-03-10 12:56:01       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-03-10 12:56:01       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-03-10 12:56:01       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-03-10 12:56:01       18 阅读

热门阅读

  1. Linux的环境安装以及项目部署

    2024-03-10 12:56:01       20 阅读
  2. WPF Interaction

    2024-03-10 12:56:01       21 阅读
  3. 当Github启用PSA之后...

    2024-03-10 12:56:01       18 阅读
  4. 鸿蒙 进程模型-公共事件

    2024-03-10 12:56:01       19 阅读
  5. 解释 Git 的基本概念和使用方式

    2024-03-10 12:56:01       21 阅读
  6. VGG16-CF-VGG11实验报告

    2024-03-10 12:56:01       23 阅读
  7. vscode中开发goalng,debug时遇到的tools报错问题

    2024-03-10 12:56:01       22 阅读
  8. 用spark进行数据查询常用语法总结

    2024-03-10 12:56:01       23 阅读
  9. 数据仓库的主流分层架构

    2024-03-10 12:56:01       26 阅读
  10. 基于qt实现的类的序列化和反序列化

    2024-03-10 12:56:01       20 阅读