ceph scrub 错误记录

目的

  1. 记录 ceph scrub 错误问题
  2. 解决 ceph scrub 故障

故障信息

  cluster:
    id:     xxx-xxx-xxx
    health: HEALTH_ERR
            2 scrub errors
            Possible data damage: 2 pg inconsistent

message 日志信息

# egrep -i 'medium|i\/o error|sector|Prefailure' /var/log/messages
Jun 15 00:23:37 my-ceph-osd-host kernel: sd 0:2:6:0: [sdg] tag#0 Sense Key : Medium Error [current]
Jun 15 00:23:37 my-ceph-osd-host kernel: blk_update_request: critical medium error, dev sdg, sector 7541632
Jun 15 00:23:37 my-ceph-osd-host kernel: megaraid_sas 0000:1c:00.0: 63816 (771726199s/0x0002/FATAL) - Unrecoverable medium error during recovery on PD 05(e0x41/s5) at 731440
Jun 15 00:23:37 my-ceph-osd-host kernel: megaraid_sas 0000:1c:00.0: 63817 (771726201s/0x0001/FATAL) - Uncorrectable medium error logged for VD 06/6 at 731440 (on PD 05(e0x41/s5) at 731440)
Jun 15 00:30:55 my-ceph-osd-host kernel: sd 0:2:6:0: [sdg] tag#1 Sense Key : Medium Error [current]
Jun 15 00:30:55 my-ceph-osd-host kernel: blk_update_request: critical medium error, dev sdg, sector 7509376
Jun 15 00:30:55 my-ceph-osd-host kernel: megaraid_sas 0000:1c:00.0: 63822 (771726637s/0x0002/FATAL) - Unrecoverable medium error during recovery on PD 05(e0x41/s5) at 7296a0
Jun 15 00:30:55 my-ceph-osd-host kernel: megaraid_sas 0000:1c:00.0: 63823 (771726639s/0x0001/FATAL) - Uncorrectable medium error logged for VD 06/6 at 7296a0 (on PD 05(e0x41/s5) at 7296a0)
Jun 15 00:36:06 my-ceph-osd-host kernel: blk_update_request: I/O error, dev sdg, sector 7728512
Jun 15 00:36:07 my-ceph-osd-host kernel: blk_update_request: I/O error, dev sdg, sector 11491457792
Jun 15 00:36:07 my-ceph-osd-host kernel: blk_update_request: I/O error, dev sdg, sector 11491458304
Jun 15 00:36:07 my-ceph-osd-host kernel: blk_update_request: I/O error, dev sdg, sector 77630336
Jun 15 00:36:07 my-ceph-osd-host kernel: blk_update_request: I/O error, dev sdg, sector 77630848
Jun 15 00:36:07 my-ceph-osd-host kernel: blk_update_request: I/O error, dev sdg, sector 77631360
Jun 15 00:36:07 my-ceph-osd-host kernel: blk_update_request: I/O error, dev sdg, sector 77631872
Jun 15 00:36:07 my-ceph-osd-host kernel: blk_update_request: I/O error, dev sdg, sector 77632384

故障信息

  1. 当 ceph 检测到一个或多个对象副本不一致,则会标记对应 PG inconsistent 信息
  2. 可以理解为
    2.1 对象副本大小不一致
    2.2 对象在 recovery 完成后 miss 对应副本数量
  3. 通常都会在 PG 执行清晰(scrubbing)时候发现了对象副本一致性有问题

解决方法

  1. 由于上述 message 显示,某个 osd 对应的磁盘故障
  2. 下线对应 OSD
  3. 通过 ceph health detail 获得故障 PG 信息
  4. 执行 ceph pg repair PGID

相关推荐

  1. ceph scrub 错误记录

    2024-06-16 04:26:01       33 阅读
  2. HJ19错误简单记录

    2024-06-16 04:26:01       33 阅读
  3. 记录golang日常错误处理

    2024-06-16 04:26:01       33 阅读
  4. HJ19 简单错误记录

    2024-06-16 04:26:01       38 阅读
  5. golang导入go-git错误记录

    2024-06-16 04:26:01       63 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-06-16 04:26:01       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-06-16 04:26:01       100 阅读
  3. 在Django里面运行非项目文件

    2024-06-16 04:26:01       82 阅读
  4. Python语言-面向对象

    2024-06-16 04:26:01       91 阅读

热门阅读

  1. 使用甲骨文云arm服务器安装宝塔时nginx无法卸载

    2024-06-16 04:26:01       29 阅读
  2. docker 容器 network host 模式启动

    2024-06-16 04:26:01       28 阅读
  3. Web前端align的奥秘:深入剖析与实战应用

    2024-06-16 04:26:01       37 阅读
  4. 小白月赛96

    2024-06-16 04:26:01       37 阅读
  5. mysqldump常用备份数据库命令

    2024-06-16 04:26:01       38 阅读
  6. LeetCode 1084, 135, 21

    2024-06-16 04:26:01       40 阅读
  7. AI 绘画工具详解:从基础原理到实践应用

    2024-06-16 04:26:01       33 阅读
  8. CSS概述

    CSS概述

    2024-06-16 04:26:01      37 阅读
  9. 本地生活元宇宙 “苹果之乡”的新鲜事

    2024-06-16 04:26:01       26 阅读
  10. 正式环境下的历史数据迁移方案,你知道几个?

    2024-06-16 04:26:01       34 阅读