Hudi extraMetadata 研究总结

前言

研究总结 Hudi extraMetadata ,记录研究过程。主要目的是通过 extraMetadata 保存 source 表的 commitTime (checkpoint), 来实现增量读Hudi表写Hudi表时,保存增量读状态的事务性,实现类似于流任务中的 exactly-once

背景需求

有个需求:增量读Hudi表关联其他Hudi表然后做一些复杂的业务处理逻辑,然后将结果表保存到目标Hudi表中

然后就有问题:如何保证保存目标Hudi表和保存 endCommiTime 是事务的。具体如下
1、Spark支持增量读Hudi表,需要传入起(始) commitTime。
2、上一批数据处理完成后应该保存上次增量读的的 endCommiTime,作为下一批增量读的的 beginCommitTime
3、可以选择将上一批的 endCommiTime 保存到 HDFS 或者数据库表中,但是不能保证事务。(并且还需要借助外部表或者存储目录,如果能通过Hudi本身解决,就比较完美了)
4、也就是可能存在保存目标Hudi表成功,但是保存 endCommiTime 失败的情况

这时就想到了 DeltaStreamer 中是通过设置 checkpoint 来实现的,具体是通过将 commitTime 的值保存到目标表 .commit 元数据文件中(extraMetadata->deltastreamer.checkpoi

相关推荐

  1. Hudi extraMetadata 研究总结

    2024-06-14 09:12:05       7 阅读
  2. 跨语言摘要CLS近期论文研究总结(一)

    2024-06-14 09:12:05       12 阅读
  3. 软件工程研究生后期总结

    2024-06-14 09:12:05       26 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-06-14 09:12:05       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-06-14 09:12:05       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-06-14 09:12:05       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-06-14 09:12:05       18 阅读

热门阅读

  1. 大语言模型学习笔记-1

    2024-06-14 09:12:05       6 阅读
  2. MySQL CDC

    2024-06-14 09:12:05       8 阅读
  3. 璨与序列 题解(stl,dfs)

    2024-06-14 09:12:05       7 阅读
  4. 后端主流框架--Spring

    2024-06-14 09:12:05       5 阅读
  5. 响应式网页开发方法与实践

    2024-06-14 09:12:05       5 阅读
  6. 602. 好友申请 II :谁有最多的好友

    2024-06-14 09:12:05       6 阅读
  7. AI学习指南机器学习篇-支持向量机模型评估

    2024-06-14 09:12:05       8 阅读
  8. C语言中数组和指针的关系

    2024-06-14 09:12:05       5 阅读
  9. HTML 颜色名

    2024-06-14 09:12:05       8 阅读
  10. HTML的a标签如何做返回顶部的功能

    2024-06-14 09:12:05       6 阅读
  11. 《电力网络安全事件应急预案》

    2024-06-14 09:12:05       8 阅读