阻断血缘关系以及checkpoint文件清理

spark-sql读写同一张表,报错Cannot overwrite a path that is also being read from

1. 增加checkpoint,设置检查点阻断血缘关系

sparkSession.sparkContext.setCheckpointDir("/tmp/spark/job/OrderOnlineSparkJob")

val oldOneIdTagSql = "select one_id,tag from aaa "
val oldOneIdTagDf = sparkSession.sql(oldOneIdTagSql).checkpoint()

2. 清理checkpoint产生的文件

2.1 更改配置文件开启checkpoint文件清理

spark.cleaner.referenceTracking.cleanCheckpoints = true

2.2 可以通过getCheckpointDir.get方式读取到checkpoint的文件地址。从而自定义清理操作

val checkPointFile = sparkSession.sparkContext.getCheckpointDir.get
HdfsUtils.delete(fileSystem,checkPointFile,true)

相关推荐

  1. 阻断血缘关系以及checkpoint文件清理

    2023-12-25 04:00:02       40 阅读
  2. Linux-实现没有血缘关系的进程之间的通信

    2023-12-25 04:00:02       35 阅读
  3. 探索利用 LineageLogger 获取hive的字段级血缘关系

    2023-12-25 04:00:02       12 阅读
  4. 历史文件清理

    2023-12-25 04:00:02       7 阅读

最近更新

  1. TCP协议是安全的吗?

    2023-12-25 04:00:02       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2023-12-25 04:00:02       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2023-12-25 04:00:02       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2023-12-25 04:00:02       18 阅读

热门阅读

  1. python常用函数汇总

    2023-12-25 04:00:02       32 阅读
  2. go从0到1项目实战体系二十三:GORM

    2023-12-25 04:00:02       23 阅读
  3. C语言使用qsort和bsearch实现二分查找

    2023-12-25 04:00:02       39 阅读
  4. C++:第十讲二分查找

    2023-12-25 04:00:02       39 阅读
  5. 7-2 非递归二路归并排序

    2023-12-25 04:00:02       36 阅读
  6. 超酷的爬虫可视化界面

    2023-12-25 04:00:02       36 阅读
  7. C#字典和列表转LuaTable

    2023-12-25 04:00:02       36 阅读