Hudi介绍

  在数据不断写入 Hudi 期间,Hudi 会不断生成 commit、deltacommit、clean 等 Instant 记录每一次操作类型、状态及详细的元数据,这些 Instant 最终都会存到 .hoodie 元数据目录下,为了避免元数据文件数量过多,ActiveTimeline 越来越长,需要对比较久远的操作进行归档(archive),将这部分操作移到 .hoodie/archive 目录下,单独形成一个 ArchivedTimeline。

Apache Hudi中,commit、deltacommit和clean是与数据管理和维护相关的文件。

  1. Commit(提交)文件:在Hudi中,commit文件是用于记录数据写入操作的元数据文件。每次写入数据时,Hudi会生成一个commit文件,其中包含了写入数据的时间戳、数据文件的路径等信息。Commit文件的存在可以确保数据的一致性和可恢复性。

  2. DeltaCommit(增量提交)文件:DeltaCommit文件是用于记录增量数据写入操作的元数据文件。增量数据是指在已有数据的基础上进行的更新、插入或删除操作。每次进行增量操作时,Hudi会生成一个DeltaCommit文件,其中包含了增量操作的元数据信息。DeltaCommit文件的存在可以追踪到增量操作的历史,以便在需要时进行回滚或恢复。

  3. Clean(清理)文件:Clean文件是用于记录数据清理操作的元数据文件。当Hudi需要清理或删除过期或无效的数据时,会生成一个Clean文件,其中包含了要清理的数据文件的路径等信息。Clean文件的存在可以确保数据的清理操作被记录和跟踪。

这些文件的存在和管理是为了确保数据的一致性、可恢复性和清理操作的追踪。

Clean(清理)文件一般用于记录需要清理的过期或无效的数据文件的路径等信息。具体来说,Clean文件通常用于清理已经过期的旧版本数据文件,或者清理已经标记为删除的数据文件。通过清理这些文件,可以释放存储空间并保持数据的整洁性。清理的具体规则和策略可以根据实际需求进行配置和管理。

17张图带你彻底理解Hudi Upsert原理 - 知乎 (zhihu.com)

相关推荐

  1. Hudi小文件压缩

    2023-12-16 18:08:02       43 阅读
  2. Hudi extraMetadata 研究总结

    2023-12-16 18:08:02       51 阅读
  3. Hudi Spark Sql Procedures 回滚 Hudi 表数据

    2023-12-16 18:08:02       32 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2023-12-16 18:08:02       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2023-12-16 18:08:02       101 阅读
  3. 在Django里面运行非项目文件

    2023-12-16 18:08:02       82 阅读
  4. Python语言-面向对象

    2023-12-16 18:08:02       91 阅读

热门阅读

  1. PCL 计算最小包围盒OBB及其各顶点坐标

    2023-12-16 18:08:02       56 阅读
  2. 学习网址1

    2023-12-16 18:08:02       51 阅读
  3. 微服务组件Nacos的学习(2)

    2023-12-16 18:08:02       57 阅读
  4. uniapp----button按钮去除边框

    2023-12-16 18:08:02       64 阅读
  5. 在树莓派上部署个人用的Git管理自己的代码

    2023-12-16 18:08:02       38 阅读
  6. 【ssh基础知识】

    2023-12-16 18:08:02       55 阅读
  7. OpenCV开发:Mat的单通道和多通道使用

    2023-12-16 18:08:02       56 阅读
  8. CGAL 点云法向量重新定向编程

    2023-12-16 18:08:02       54 阅读
  9. Postgresql部署

    2023-12-16 18:08:02       51 阅读
  10. vue组件中的通信父传子,子传父

    2023-12-16 18:08:02       62 阅读