Backblaze 2023全年硬盘故障质量报告解读

作为一家在2021年在美国纳斯达克上市的云端备份公司,Backblaze一直保持着对外定期发布HDD和SSD的故障率稳定性质量报告,给大家提供了一份真实应用场景下的稳定性分析参考数据。

截至2023年12月31日,Backblaze监控的硬盘总数为274,622个,其中包含4,400个启动盘(boot drives)和270,222个数据盘(data drives)。

本文我们将重点关注数据盘的表现,回顾2023年度的数据盘故障率,并将其与过去几年的数据进行对比。

从上面的数据表中,涵盖了三个HDD厂商大部分型号。这个数据相对是可靠的,可以供关注HDD质量同学参考:

  • 全年仅有一款硬盘型号未发生任何故障,即希捷(Seagate)8TB硬盘(型号为ST8000NM000A)。实际上,自我们在2022年第三季度开始部署这款硬盘以来,它一直保持着零故障的良好记录。但值得注意的是,这个“零故障”结果有一定的限制条件:目前该型号在用的硬盘数量仅为204块,并且累积运行天数(52,876个驱动器日)相对有限。
  • 2023年内共有4189块硬盘出现故障。通过计算可知,过去一年中,平均每两小时五分钟替换一块故障硬盘。
  • 上表所有型号中,希捷的ST14000NM00J的质量表现,AFR最高,但是样本表少会有很大的波动性。
  • 上线服务时间最长的,是希捷的6TB盘,型号:ST6000DX000,生命周期 AFR 为 0.68%。

下面的表格对比了过去三年中各硬盘型号的年化故障率(Annual Failure Rate, AFR)。该表格仅包含了在2023年内拥有超过200,000个盘*日(drive days=drive counts * online days)的硬盘型号数据。每年的数据只包括当年全年内处于运行状态且到年底仍在使用的硬盘型号的表现。

上面表格AFR是按照硬盘容量大小和AFR进行了排序,目的是为了更加清晰的展示不同容量硬盘在其生命周期内的可靠性变化趋势,并通过横向比较不同年度同一型号或相近容量硬盘的AFR来了解其故障率随时间的变化情况。

从上面数据分析发现:

  • 2023年AFR处于上升趋势:所有列出的硬盘型号在2023年的AFR为1.70%,相较于2022年的1.37%和2021年的1.01%有所提高。
  • 随着整个2023年内硬盘平均使用年限的增长,AFR也随之升高。目前有九款硬盘型号的平均使用年限已超过六年,这九种型号占据了生产中硬盘总数的近20%。

分析解读:

通过观察不同容量硬盘在过去三年每个季度的AFR变化趋势,可以得出以下几点信息:

  • 硬盘容量与故障率之间的关系:从数据图表中可以看出,10TB(金色线)硬盘的AFR明显上升,8TB(灰色线)和12TB(紫色线)硬盘的AFR也呈现增长趋势。相反,4TB(蓝色线)硬盘的AFR起初有所上升,在2022年达到峰值后开始下降。剩下的6TB、14TB和16TB三种容量的硬盘在整个时间段内AFR围绕1%上下波动。

  • 乍一看,4TB硬盘的AFR降低可能让人觉得有些反常,尤其是考虑到每种4TB硬盘型号的平均使用年限已经超过六年且仍在不断老化。这种现象的原因很可能与Backblaze在2023年重点进行的4TB硬盘向16TB硬盘迁移有关。通常情况下,我们会首先替换最老的硬盘。这种淘汰旧硬盘的过程似乎有效地缓解了随着硬盘老化预期会增加的故障率上升问题。
  • 然而,并非所有硬盘型号都遵循这一规律。例如,平均使用年限超过8.6年的6TB希捷硬盘,在2023年具有所有硬盘容量组别中最低的AFR,这似乎挑战了“硬盘年龄与其故障率相关”的理论至少在过去一年中的表现。

截至2023年12月31日,所有硬盘的全生命周期AFR(年度故障率)为1.46%。这一数值相较于去年年底(2022年第四季度)的1.39%有所上升。考虑到之前记录的2023年各季度AFR的逐步增长趋势,这个结果是符合预期的。同时,这也是自2021年第一季度(1.49%)以来全生命周期AFR达到的最高水平。

不同硬盘型号的全生命周期故障率如下表:

将各硬盘型号按照制造商进行分类,并绘制出各硬盘型号AFR(年度故障率)与其平均使用月数的关系图。每个圆圈的大小代表了该类别中的硬盘数量。在同一制造商的所有图表中,水平和垂直轴的刻度范围是相同的。

1.HGST硬盘分析:

  • 下图展示了所有HGST硬盘型号的AFR趋势线(二次多项式拟合),从图上看,并没有明显证据表明硬盘故障率随着使用时间的增长而一致增加。

  • 下图则剔除了HGST 4TB硬盘型号的数据后再次展示相同信息。此时的结果更符合预期,即硬盘故障率随时间推移而上升。

还有一点需要注意:从8TB硬盘型号开始,HGST在其硬盘内部采用了氦气填充并密封设计。在此之前,硬盘通常采用空气冷却且并未密封。因此,转为使用内部充氦技术是否对HGST硬盘的故障特性产生了影响呢?这是一个有趣的问题。

氦气密封式硬盘的优势在于能够降低盘内空气阻力,提高硬盘碟片间的间距,从而使得可以在更小的空间内容纳更多碟片,提升存储密度和容量,并且氦气的低密度有助于降低旋转磁头在读写过程中的震动与摩擦,理论上可以增强硬盘的稳定性及降低功耗。尽管如此,要直接量化这种技术转换对于特定硬盘型号故障率的影响,需要更多的数据支持和深入的研究分析。

鉴于氦气密封硬盘已经成为业界主流技术之一,并且市场上的大部分高容量硬盘都采用了这一技术,即使存在一定的差异性影响,该影响也已成为当今硬盘性能表现的一部分,而非可单独区分的因素。

2.希捷硬盘分析:

下图展示了希捷硬盘型号的AFR趋势线(使用二次多项式拟合)。与HGST硬盘相似,从图表中无法明显看出驱动器故障率随使用年限持续增加。

而在下图中,我们移除了平均使用年限超过七年的硬盘型号。

上面两个图表在六年内呈现的基本趋势是相同的。然而,预测8TB和12TB硬盘在超过六年使用寿命后的故障率趋势时,并未发现明确的方向。更复杂的是,由于移除的三个超过七年平均使用年限的硬盘型号均为消费级产品,而剩余的硬盘型号则全部为企业级产品。当这些企业级硬盘达到七、八甚至九年服务期时,这种类型差异是否会对其故障率产生影响?需要继续监测和收集更多数据,以揭示这些企业级硬盘随着使用年限增加后的实际故障率情况,让我们后续继续观察Backblaze发布的数据。

相关推荐

  1. 2024全球网络安全预测报告

    2024-02-22 00:10:01       39 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-02-22 00:10:01       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-02-22 00:10:01       100 阅读
  3. 在Django里面运行非项目文件

    2024-02-22 00:10:01       82 阅读
  4. Python语言-面向对象

    2024-02-22 00:10:01       91 阅读

热门阅读

  1. 代码随想录三刷day04

    2024-02-22 00:10:01       53 阅读
  2. kali kvm

    2024-02-22 00:10:01       56 阅读
  3. QT3作业

    QT3作业

    2024-02-22 00:10:01      45 阅读
  4. 通过Redis增减库存避坑

    2024-02-22 00:10:01       53 阅读
  5. C#_值类型与引用类型 及 值参数与引用参数

    2024-02-22 00:10:01       49 阅读
  6. 开源软件的影响力

    2024-02-22 00:10:01       47 阅读
  7. TreeSet和HashSet

    2024-02-22 00:10:01       51 阅读
  8. 35、用户体系套件API接口,免费好用

    2024-02-22 00:10:01       49 阅读