hudi开启了流读,read.streaming.enabled为true,还需要设置查询类型吗 如snapshot

在使用 Apache Hudi 时,尤其是开启了流式读取(read.streaming.enabledtrue),配置查询类型非常重要。查询类型决定了如何读取数据,尤其是在处理更新和删除操作时。

查询类型选项

在 Hudi 中,常见的查询类型包括:

  1. Snapshot 查询
  2. Incremental 查询
  3. Read Optimized 查询

Snapshot 查询

Snapshot 查询类型会读取所有历史数据,并且会应用所有的增量更新和删除操作,确保你获取的是最新的快照数据。这种查询类型在需要完整视图并确保数据一致性时非常有用。

当开启流式读取时,通常需要设置查询类型为 snapshot 以确保能够实时获取最新的数据变更。

配置示例

假设你正在使用 Flink SQL 或 DataStream API 来读取 Hudi 数据表,可以参考以下配置:

Flink SQL

在 Flink SQL 中,可以使用如下 SQL 语句来设置:

CREATE TABLE hudi_table (
  ...
) WITH (
  'connector' = 'hudi',
  'path' = 'hdfs:///path/to/hudi/table',
  'table.type' = 'MERGE_ON_READ',
  'read.streaming.enabled' = 'true',
  'read.streaming.check-interval' = '4',
  'hoodie.datasource.query.type' = 'snapshot'
);
DataStream API

在 Flink DataStream API 中,可以通过配置 FlinkOptions 来设置:

Configuration conf = new Configuration();
conf.setString(FlinkOptions.PATH, "hdfs:///path/to/hudi/table");
conf.setString(FlinkOptions.TABLE_TYPE, "MERGE_ON_READ");
conf.setBoolean(FlinkOptions.READ_STREAMING_ENABLED, true);
conf.setString(FlinkOptions.QUERY_TYPE, "snapshot");

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);

Table hudiTable = tableEnv.fromDataStream(dataStream, schema);

tableEnv.createTemporaryView("hudi_table", hudiTable);

TableResult result = tableEnv.executeSql("SELECT * FROM hudi_table");

总结

即使在开启流式读取时,明确设置查询类型(如 snapshot)仍然是一个好习惯。这样可以确保你获取到最新的数据,并且与 Hudi 的流式处理特性相配合,提供一致且准确的实时数据视图。

因此,除了设置 read.streaming.enabledtrue 之外,还应设置 hoodie.datasource.query.typesnapshot,以确保流式读取能够正确应用所有更新和删除操作。

相关推荐

  1. 有免代码开发平台,需要学习软件工程

    2024-06-06 10:22:10       27 阅读
  2. 为什么有MTU,需要MSS?

    2024-06-06 10:22:10       23 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-06-06 10:22:10       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-06-06 10:22:10       100 阅读
  3. 在Django里面运行非项目文件

    2024-06-06 10:22:10       82 阅读
  4. Python语言-面向对象

    2024-06-06 10:22:10       91 阅读

热门阅读

  1. 详解大模型微调数据集构建方法(持续更新)

    2024-06-06 10:22:10       31 阅读
  2. Flutter之旅:探索安卓与跨平台开发的无限可能

    2024-06-06 10:22:10       36 阅读
  3. Android Audio实战——音量默认值修改(一)

    2024-06-06 10:22:10       29 阅读
  4. 怎么用SU做分层轴测图?

    2024-06-06 10:22:10       27 阅读
  5. delphi Windows

    2024-06-06 10:22:10       24 阅读
  6. ubuntu蓝牙连接问题

    2024-06-06 10:22:10       34 阅读
  7. k8s使用yml文件部署

    2024-06-06 10:22:10       24 阅读
  8. debian常用命令

    2024-06-06 10:22:10       29 阅读
  9. Server did not offer supported security type!问题解决

    2024-06-06 10:22:10       31 阅读
  10. hnust 湖南科技大学 2022 软件测试报告+代码

    2024-06-06 10:22:10       28 阅读