【经验02】记录一次生产spark离线任务产生数据倾斜的问题处理

项目背景

客户需要每月生成T+1的全国数据,数据总量大概有10T的样子,资源配置是120多台的hive集群,跑脚本使用spark跑,spark因为使用RAM内存跑,所以比较快,个人也是经验不足,持续学习中。

  • 生产上的脚本如下

优化前的脚本


insert overwrite table dwd_temp_si_eei_ib02_ib03_repeat PARTITION(AAF018)
SELECT ${bdp.system.bizmonth} aae043,
       current_timestamp() aae859,a.aac002, a.AAC002_dup_110_cnt, a.AAC002_dup_110_area,a.aaf018
  FROM (SELECT a.aaf018,a.aac002,
               COUNT(distinct b.aac001) AAC002_dup_110_cnt,
               concat_ws(',', sort_array(collect_set(distinct b.AAB359))) AAC002_dup_110_area
          FROM dwd_temp_ib02 a join ods.ods_si_eei_ac60 b join ods.ods_si_eei_ac01 c                
			   ON (a.aae043 = ${bdp.system.bizmonth

相关推荐

  1. 记录关于线程池任务编排和共享数据尝试

    2024-05-10 07:54:08       38 阅读
  2. 业务批量数据任务处理优化

    2024-05-10 07:54:08       19 阅读
  3. 压测经验过程经验记录

    2024-05-10 07:54:08       46 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-05-10 07:54:08       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-05-10 07:54:08       100 阅读
  3. 在Django里面运行非项目文件

    2024-05-10 07:54:08       82 阅读
  4. Python语言-面向对象

    2024-05-10 07:54:08       91 阅读

热门阅读

  1. Python创建可点击网页

    2024-05-10 07:54:08       29 阅读
  2. 【Vue3】新组件

    2024-05-10 07:54:08       26 阅读
  3. 域名解析中,A记录和CNAME什么区别

    2024-05-10 07:54:08       37 阅读
  4. 常见的前端框架

    2024-05-10 07:54:08       28 阅读
  5. Jmeter压测问题汇总

    2024-05-10 07:54:08       34 阅读
  6. Vue 传送门

    2024-05-10 07:54:08       27 阅读
  7. Linux习题和答案

    2024-05-10 07:54:08       37 阅读
  8. 十二届蓝桥杯Python组3月中/高级试题 第四题

    2024-05-10 07:54:08       31 阅读
  9. 负载均衡总结

    2024-05-10 07:54:08       38 阅读