Spark 优化技巧-并行度设置

1. shuffle并行度:

例如,如下图所示,作业中可能不止一个Job,shuffle数据只有几十mb,但是并行度设置了2000:
在这里插入图片描述
但是设置2000可能只是为了让作业中的一个Job的瓶颈更小:
在这里插入图片描述
这种可能是一种使用上的常态,其实不太合理:
如果这种情况下,怎么使用更加合理呢:
rdd程序其实控制能力极强的,常见的瓶颈算子都可以直接单独设置并行度的
例如上述图中的算子可以由 rdd.reduceByKey(keyName) 改为 rdd.reduceByKey(keyName,3000)

2.读取数据的并行度:

什么时候需要调整呢?有一种典型的情况,就是从hadoop输入的数据在后续的stage计算可能出现了内存瓶颈(gc时间比较长)等

  • DataSource读法,特指使用SparkSession.read这种,默认128:
    spark.files.maxPartitionBytes=268435456

  • 使用rdd直接读的,例如HDFSIO.thriftSequence、直接使用rdd hadoop api等,默认256(注意这个没有合并小文件功能):
    spark.hadoop.mapred.max.split.size=268435456

相关推荐

  1. 如何设置并行 ——《OceanBase 并行执行》系列 2

    2024-07-22 07:24:03       23 阅读
  2. 掌握这些百SEO优化技巧

    2024-07-22 07:24:03       45 阅读
  3. pyflink task并行问题

    2024-07-22 07:24:03       29 阅读
  4. hive sql&spark 优化

    2024-07-22 07:24:03       58 阅读
  5. 并发场景下的httpClient使用优化技巧

    2024-07-22 07:24:03       51 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-22 07:24:03       52 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-22 07:24:03       54 阅读
  3. 在Django里面运行非项目文件

    2024-07-22 07:24:03       45 阅读
  4. Python语言-面向对象

    2024-07-22 07:24:03       55 阅读

热门阅读

  1. Symfony数据库抽象层:深入理解其工作原理

    2024-07-22 07:24:03       16 阅读
  2. 设计模式--职责链模式

    2024-07-22 07:24:03       18 阅读
  3. PXIe-6592

    PXIe-6592

    2024-07-22 07:24:03      13 阅读
  4. FPGA 中的 IOE与IO BANK

    2024-07-22 07:24:03       18 阅读
  5. 前端部署后提示用户刷新页面

    2024-07-22 07:24:03       16 阅读
  6. 编写测试用例:策略、技巧与最佳实践

    2024-07-22 07:24:03       18 阅读
  7. 自动化测试的艺术:Xcode中GUI测试的全面指南

    2024-07-22 07:24:03       18 阅读
  8. C++基础语法:STL之容器(6)--序列容器中的forward_list

    2024-07-22 07:24:03       15 阅读
  9. MongoDB Map-Reduce 简介

    2024-07-22 07:24:03       15 阅读
  10. 【SpringBoot】第3章 SpringBoot的系统配置

    2024-07-22 07:24:03       16 阅读
  11. Python中with 关键字、tell() 和 seek() 方法

    2024-07-22 07:24:03       17 阅读