spark sql上线前的调试工作实现

背景

每个公司应该都有大数据的平台的吧,平台的作用就是可以在上面执行各种spark sql以及定时任务,不过一般来说,由于这些spark sql的上线不经过测试,所以可能会影响到生产的数据,这种情况下大数据平台提供一个上线前的调试功能也就非常好了

spark sql上线前的调试工作

我们写spark sql主要是用来查询其他hive表的数据,经过数据清洗等操作后写入自己的hive目标表,但是我们hive的目标表也可能也在被别人使用,所以当我们修改spark sql后应用到hive目标表的时候风险就极大,一旦我们的hive目标表数据错误,极有可能影响到下游的任务,导致一连串的数据问题,此时,问题就来了,我怎么在修改spark sql但是正式写到hive目标表之前先看一下数据?

其实意识到这个问题后,解决的方式就显得很简单了。我们可以在spark sql修改后但是上线之前的调试阶段把结果数据先写入一张临时的hive表,等确认这张临时的hive表的数据是正确之后,再正式上线这个修改的spark sql语句。那如何把hive目标表替换成临时的hive表呢?其实对于spark sql来说也很简单,我们只需要识别insert into 后面的hive目标表即可,知道hive目标表后我们把它替换成临时hive表,问题既可得到解决。
在这里插入图片描述

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-02-07 06:24:06       98 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-02-07 06:24:06       106 阅读
  3. 在Django里面运行非项目文件

    2024-02-07 06:24:06       87 阅读
  4. Python语言-面向对象

    2024-02-07 06:24:06       96 阅读

热门阅读

  1. 零基础学Python之面向对象

    2024-02-07 06:24:06       43 阅读
  2. CGAL::2D Arrangements-3

    2024-02-07 06:24:06       50 阅读
  3. 使用lodash防抖节流

    2024-02-07 06:24:06       51 阅读
  4. Spark scala如何本地运行

    2024-02-07 06:24:06       48 阅读
  5. leetcode - 408. Valid Word Abbreviation

    2024-02-07 06:24:06       41 阅读
  6. Docker- chapter 1

    2024-02-07 06:24:06       48 阅读
  7. 谈谈mybatis的理解(一)

    2024-02-07 06:24:06       53 阅读
  8. 小程序API开发——文件FileSystemManager参数汇总

    2024-02-07 06:24:06       44 阅读
  9. 深度解析与推荐:主流Web前端开发框架

    2024-02-07 06:24:06       47 阅读
  10. Lua函数进阶

    2024-02-07 06:24:06       56 阅读
  11. LCP 30. 魔塔游戏---leetcode

    2024-02-07 06:24:06       54 阅读
  12. 嵌入式linux驱动开发之网络设备驱动

    2024-02-07 06:24:06       46 阅读
  13. 前端下载文件有哪些方式

    2024-02-07 06:24:06       54 阅读