大数据系列之：读取parquet文件统计数据量

2024-01-03 15:30:02
开发
36

大数据系列之：读取parquet文件统计数据量

一、Spark读取parquet文件统计数据量
二、parquet-tools统计parquet文件数据量
三、实际应用案例

一、Spark读取parquet文件统计数据量

首先，创建一个 SparkSession 对象：

val spark = SparkSession.builder()
  .appName("Parquet Data Count")
  .getOrCreate()

然后，使用 SparkSession 读取 Parquet 文件并将其转换为 DataFrame：

val data = spark.read
  .format("parquet")
  .load("/path/to/hdfs/parquet/file")

最后，使用 DataFrame 的 count 方法进行数据量统计：

val count = data.count()

二、parquet-tools统计parquet文件数据量

下载parquet-tools工具

使用 Hadoop 命令行工具：

首先，使用 Hadoop 命令行工具 hadoop 运行以下命令：

hadoop fs -cat /path/to/hdfs/parquet/file | parquet-tools rowcount

该命令将读取 Parquet 文件并使用 parquet-tools 工具来统计数据量，并输出结果。

三、实际应用案例

读取hdfs上的parquet文件：

%spark
  val data = spark.read
  .format("parquet")
  .load("/optics/ods_optics_prod/packing_data_item_1h_a/datetime=2023122514/part-00000-2675f81c-3c90-4af7-a489-bd8ce5cfec2c-c000.zstd.parquet")

查看数据量：

%spark
val count = data.count()

count: Long = 433173

原文地址:https://blog.csdn.net/zhengzaifeidelushang/article/details/135345586 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1742448213715193856.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部