大数据系列之:读取parquet文件统计数据量

一、Spark读取parquet文件统计数据量

  1. 首先,创建一个 SparkSession 对象:
val spark = SparkSession.builder()
  .appName("Parquet Data Count")
  .getOrCreate()
  1. 然后,使用 SparkSession 读取 Parquet 文件并将其转换为 DataFrame:
val data = spark.read
  .format("parquet")
  .load("/path/to/hdfs/parquet/file")
  1. 最后,使用 DataFrame 的 count 方法进行数据量统计:
val count = data.count()

二、parquet-tools统计parquet文件数据量

下载parquet-tools工具

使用 Hadoop 命令行工具:

  1. 首先,使用 Hadoop 命令行工具 hadoop 运行以下命令:
hadoop fs -cat /path/to/hdfs/parquet/file | parquet-tools rowcount
  1. 该命令将读取 Parquet 文件并使用 parquet-tools 工具来统计数据量,并输出结果。

三、实际应用案例

读取hdfs上的parquet文件:

%spark
  val data = spark.read
  .format("parquet")
  .load("/optics/ods_optics_prod/packing_data_item_1h_a/datetime=2023122514/part-00000-2675f81c-3c90-4af7-a489-bd8ce5cfec2c-c000.zstd.parquet")

查看数据量:

%spark
val count = data.count()

count: Long = 433173

相关推荐

  1. 数据系列读取parquet文件统计数据

    2024-01-03 15:30:02       37 阅读
  2. Iceberg: 列式读取Parquet数据

    2024-01-03 15:30:02       47 阅读
  3. Spark SQL数据源 - Parquet文件

    2024-01-03 15:30:02       10 阅读
  4. 针对oracle系列数据库数据的问题

    2024-01-03 15:30:02       8 阅读
  5. mysql根据datetime统计每日数据

    2024-01-03 15:30:02       12 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-01-03 15:30:02       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-01-03 15:30:02       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-01-03 15:30:02       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-01-03 15:30:02       20 阅读

热门阅读

  1. Mac 彻底删除 node 和 npm

    2024-01-03 15:30:02       37 阅读
  2. 详解汇编cll ret push pop 并附源码

    2024-01-03 15:30:02       43 阅读
  3. MySQL5.7更新的内容

    2024-01-03 15:30:02       33 阅读
  4. 微服务(12)

    2024-01-03 15:30:02       36 阅读
  5. bash脚本从ini文件读取设置

    2024-01-03 15:30:02       41 阅读
  6. Word2Vec原理+gensim实现

    2024-01-03 15:30:02       45 阅读
  7. MyBatis_传入参数的问题

    2024-01-03 15:30:02       37 阅读
  8. 云主机存储网络相关技术概念及网络拓扑介绍

    2024-01-03 15:30:02       39 阅读
  9. 断言assert

    2024-01-03 15:30:02       31 阅读