Flink1.18 如何配置算子级别的TTL

1. 解释

从 Flink 1.18 开始,Table API & SQL 支持配置细粒度的状态 TTL 来优化状态使用,可配置粒度为每个状态算子的入边数。具体而言,OneInputStreamOperator 可以配置一个状态的 TTL,而 TwoInputStreamOperator(例如双流 join)则可以分别为左状态和右状态配置 TTL。更一般地,对于具有 K 个输入的 MultipleInputStreamOperator,可以配置 K 个状态 TTL。

2. 使用场景

2.1 为 双流 Join 的左右流配置不同 TTL。

双流 Join 会生成拥有两条输入边TwoInputStreamOperator的状态算子,它用到了两个状态,分别来保存来自左流和右流的更新

2.2 在同一个作业中为不同的状态计算设置不同 TTL

举例来说,假设一个 ETL 作业使用 ROW_NUMBER 进行去重操作后, 紧接着使用 GROUP BY 语句进行聚合操作。 该作业会分别生成两个拥有单条输入边的 OneInputStreamOperator 状态算子。您可以为去重算子和聚合算子的状态分别设置不同的 TTL

​2.3 注意

由于基于窗口的操作(例如窗口连接、窗口聚合、窗口 Top-N 等)和 Interval Join 不依赖于 table.exec.state.ttl 来控制状态保留,因此它们的状态无法在算子级别进行配置

Interval Join 是一种流处理操作,它在两个数据流之间基于时间间隔进行连接这种连接是基于时间窗口的,而不是基于状态的保留时间。在 Interval Join 中,系统会根据两个数据流中元素的时间戳和定义的间隔来决定哪些元素应该被连接在一起

3.如何使用

3.1 生成 Compiled Plan

注意使用时的类型是insert,如果不是insert会报错 Unsupported SQL query! compilePlanSql() only accepts a single SQL statement of type INSERT

CompiledPlan compiledPlan = 
    tableEnv.compilePlanSql(
        "INSERT INTO enriched_orders \n" 
       + "SELECT a.order_id, a.order_line_id, b.order_status, ... \n" 
       + "FROM orders a JOIN line_orders b ON a.order_line_id = b.order_line_id");

compiledPlan.writeToFile("/path/to/plan.json");


在Flink Sql中使用

COMPILE PLAN '/path/to/plan.json' FOR
INSERT INTO OrdersShipInfo
SELECT a.order_id, a.line_order_id, b.ship_mode 
FROM Orders a JOIN LineOrders b  ON a.line_order_id = b.line_order_id;

3.2 修改 Compiled Plan

每个状态算子会显式地生成一个名为 “state” 的 JSON 数组,具有如下结构。 理论上一个拥有 k 路输入的状态算子拥有 k 个状态

"state": [
    {
      "index": 0,
      "ttl": "0 ms",
      "name": "${1st input state name}"
    },
    {
      "index": 1,
      "ttl": "0 ms",
      "name": "${2nd input state name}"
    },
    ...
  ]


找到您需要修改的状态算子,将 TTL 的值设置为一个正整数,注意需要带上时间单位毫秒。举例来说,如果想将当前状态算子的 TTL 设置为 1 小时,您可以按照如下格式修改 JSON:

{
  "index": 0,
  "ttl": "3600000 ms",
  "name": "${1st input state name}"
}

理论上,下游状态算子的 TTL 不应小于上游状态算子的 TTL。
保存好文件,然后使用 EXECUTE PLAN 语句来提交作业

3.3 执行Compiled Plan

tableEnv.loadPlan(PlanReference.fromFile("/path/to/plan.json")).execute().await();




在Flink Sql中使用

EXECUTE PLAN '/path/to/plan.json'

相关推荐

  1. Flink1.18 如何配置算子级别TTL

    2024-03-22 21:26:02       40 阅读
  2. Flink面试整理-Flink配置管理包含哪些?

    2024-03-22 21:26:02       35 阅读
  3. 19、Flink State Backends 配置详解

    2024-03-22 21:26:02       23 阅读
  4. 17、Flink Checkpointing 配置详解

    2024-03-22 21:26:02       28 阅读
  5. 57、Flink 项目配置概述

    2024-03-22 21:26:02       33 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-03-22 21:26:02       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-03-22 21:26:02       101 阅读
  3. 在Django里面运行非项目文件

    2024-03-22 21:26:02       82 阅读
  4. Python语言-面向对象

    2024-03-22 21:26:02       91 阅读

热门阅读

  1. 分巧克力---二分枚举

    2024-03-22 21:26:02       41 阅读
  2. 小小知识点-produce, product, production.

    2024-03-22 21:26:02       40 阅读
  3. Doris基础篇—安装部署

    2024-03-22 21:26:02       36 阅读
  4. AcWing 528. 奶酪 (并查集)

    2024-03-22 21:26:02       40 阅读
  5. 每日一题-二进制求和

    2024-03-22 21:26:02       40 阅读
  6. 客户端渲染与服务端渲染(2)

    2024-03-22 21:26:02       37 阅读
  7. LeetCode-热题100:128.最长连续序列

    2024-03-22 21:26:02       41 阅读
  8. MySQL 如何优化DISTINCT问题描述

    2024-03-22 21:26:02       42 阅读
  9. vue3<setup>中判断当前视口距离顶部的距离

    2024-03-22 21:26:02       39 阅读
  10. 学习vue3 第四章(reactive全家桶)

    2024-03-22 21:26:02       42 阅读
  11. 聊聊 IO

    聊聊 IO

    2024-03-22 21:26:02      35 阅读
  12. ORACLE LOB大字段介绍和管理

    2024-03-22 21:26:02       37 阅读
  13. 3.idea的import和open的区别

    2024-03-22 21:26:02       36 阅读