Flink流式数据倾斜

 1. 流式数据倾斜

流式处理的数据倾斜和 Spark 的离线或者微批处理都是某一个 SubTask 数据过多这种数据不均匀导致的,但是因为流式处理的特性其中又有些许不同

2. 如何解决

2.1 窗口有界流倾斜

 窗口操作类似Spark的微批处理,直接两阶段聚合的方式来解决就可以

select date,
       type,
       sum(pv) as pv
from(
  select
        date,
        type,
        sum(count) as pv
  from table
        group by
        date,
        type,
        floor(rand()*100) --随机打散成100份 
    )
    group by 
    date,
    type;

2.2 数据本身不均匀

KeyBy 前数据已经不均匀了,可能是Topic 每个分区的数据不一致(较为少见),或者上游task处理以后导致的数据不均匀,导致下游operate chains的某个task压力很大

这种可以加一个随机数 redistributiing 一下之类打散

2.3 keyby类

加盐

开启minibatch 和 global,牺牲时效性,减少输出数据量

相关推荐

  1. Flink优化——数据倾斜(二)

    2024-02-08 21:52:01       40 阅读
  2. Hologres + Flink 湖仓建设

    2024-02-08 21:52:01       37 阅读
  3. Flink学习(五)-分析

    2024-02-08 21:52:01       18 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-02-08 21:52:01       19 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-02-08 21:52:01       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-02-08 21:52:01       19 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-02-08 21:52:01       20 阅读

热门阅读

  1. Mybatis源码解析之——数据源池化技术(二)

    2024-02-08 21:52:01       31 阅读
  2. 系统架构评估

    2024-02-08 21:52:01       34 阅读
  3. c++ 子进程交互 逻辑

    2024-02-08 21:52:01       35 阅读
  4. dockerfile 详细讲解

    2024-02-08 21:52:01       27 阅读
  5. redis加锁实现方式

    2024-02-08 21:52:01       36 阅读
  6. OS X(MACOS) 上面打开 utun 驱动,并且读写/C++

    2024-02-08 21:52:01       27 阅读
  7. Compose | UI组件(十五) | Scaffold - 脚手架

    2024-02-08 21:52:01       41 阅读
  8. python软件说明

    2024-02-08 21:52:01       23 阅读
  9. 2、卷积和ReLU激活函数

    2024-02-08 21:52:01       36 阅读
  10. FreeRtos任务的挂起和恢复实验示例(后续)

    2024-02-08 21:52:01       37 阅读