Spark的timestamp 数据时间问题

使用Spark来处理国际业务数据,涉及到数据时区转换,在实际项目中出现时区转换问题。
使用代码:

spark.conf.set("spark.sql.session.timeZone", "Asia/Hong_Kong")
spark.selectExpr("date_format(eff_dt, 'yyyyMMdd') as df_eff_dt").collect()

但在实际Cluster 去run job的时候,如果给一个eff_dt为2024-02-01T00:00:00+0800的时间,但是往往会出现df_eff_dt为20240131的日期。

解决方案

通过参考databricks的一篇对timestamp的文档介绍,在databricks3.0以后的版本,就从之前的hybrid calendar(Julian和Gregorian calendar的合并),转换成使用Proleptic Gregorian calendar为规范来生成date和timestamp。但是本身如果使用dataframe的collect()方法, spark为了兼容性问题,仍然会返回hybrid calendar(java.sql.Date and java.sql.Timestamp)。
为了解决日历问题返回的时间错误:

Java 8 API 能够通过设置spark.sql.datetime.java8API.enabled来解决时间问题。

PySpark可以采用pandas的方式,解决问题,解决function如下。

spark.selectExpr("date_format(eff_dt, 'yyyyMMdd') as df_eff_dt").toPandas()['df_eff_dt']

参考内容

A Comprehensive Look at Dates and Timestamps in Apache Spark™ 3.0

相关推荐

  1. Sparktimestamp 数据时间问题

    2024-02-08 07:28:01       60 阅读
  2. Hive时间处理函数from_unixtime和unix_timestamp

    2024-02-08 07:28:01       60 阅读
  3. python datetime库与时间timestamp转换

    2024-02-08 07:28:01       26 阅读
  4. RabbitMQ时空之旅:rabbitmq_message_timestamp奇妙世界

    2024-02-08 07:28:01       57 阅读
  5. mysqlDATETIME和TIMESTAMP数据类型有什么区别

    2024-02-08 07:28:01       67 阅读
  6. hive将时间字符串转换为timestamp几种写法

    2024-02-08 07:28:01       36 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-02-08 07:28:01       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-02-08 07:28:01       101 阅读
  3. 在Django里面运行非项目文件

    2024-02-08 07:28:01       82 阅读
  4. Python语言-面向对象

    2024-02-08 07:28:01       91 阅读

热门阅读

  1. ORACLE的 软 软 软 解析!

    2024-02-08 07:28:01       56 阅读
  2. 【大数据面试题】005 谈一谈 Flink Watermark 水印

    2024-02-08 07:28:01       49 阅读
  3. FolkMQ “单线程“消息中间件(开源) v1.0.32 发布

    2024-02-08 07:28:01       52 阅读
  4. [AIGC] 开源流程引擎哪个好,如何选型?

    2024-02-08 07:28:01       46 阅读
  5. 1.2 Verilog 简介及发展历史

    2024-02-08 07:28:01       62 阅读
  6. visual studio注册码

    2024-02-08 07:28:01       54 阅读
  7. pydantic了解学习

    2024-02-08 07:28:01       48 阅读
  8. ThreadLocal在项目中的简单使用

    2024-02-08 07:28:01       55 阅读