PySpark正在删除列中的无效日期时间格式

2024-04-28 22:16:41 发布

您现在位置:Python中文网/ 问答频道 /正文

我的日期时间字段格式为:2016-10-15 00:00:00 在将数据保存到parquet文件时使用了推断模式之后,我有一些行不符合这种格式。在

如何在PySpark中集体删除它们?在

它给我的UDF带来了麻烦


Tags: 文件数据格式时间模式pyspark集体parquet
1条回答
网友
1楼 · 发布于 2024-04-28 22:16:41

假设您正在分析日期列,并且具有无效日期的行为null,通常是这样:

df.filter(col('date').isNotNull())

或者,如果将日期读取为字符串,则可以使用unix_timestamp对其进行解析:

^{pr2}$

相关问题 更多 >