Spark SQL到配置单元表Datetime字段小时错误

from datetime import datetime from pyspark.sql.functions import udf df = spark.read.csv("hdfs:/user/../MyFile.csv", header=True) #Use a user defined function to convert date format def DateConvert(x): x_augm = str(x)+" 00:00:00" datetime_object = datetime.strptime(x_augm,'%d/%m/%Y %H:%M:%S') return datetime_object.strftime('%Y-%m-%d %H:%M:%S') DateConvert_udf = udf(DateConvert) df= df.withColumn("Trans_Date", DateConvert_udf("Trans_Date"))

+-------------------+ |Trans_Date | +-------------------+ |2017-10-16 00:00:00| |2017-10-16 00:00:00| |2017-10-16 00:00:00| |2017-10-16 00:00:00| |2017-10-16 00:00:00| |2017-10-16 00:00:00| |2017-10-16 00:00:00| |2017-10-16 00:00:00| |2017-10-16 00:00:00| |2017-10-16 00:00:00| +-------------------+

2条回答

网友

1楼 · 编辑于 2024-04-25 14:21:40

通过在Spark中创建时间戳时添加浮点数字，我可以解决这个问题。我只需将小时设置为HH:MM:不锈钢ff配置单元表中的格式和时间现在显示为00:00:00，这是我想要的。在

我的新日期转换程序是：

def DateConvert(x):
    x_augm = str(x)+" 00:00:00.0"
    datetime_object = datetime.strptime(x_augm,'%d/%m/%Y %H:%M:%S.%f')
    return datetime_object.strftime('%Y-%m-%d %H:%M:%S.%f')

网友

2楼 · 编辑于 2024-04-25 14:21:40

这是将数据保存到具有时间戳数据类型的配置单元表中时的常见问题。在

将数据保存到配置单元表中时，时间戳值表示写入数据的主机的本地时区。在

这里将2017-10-16 00:00:00-UTC（默认）转换为2017-10-16 21:00:00-配置单元主机的本地时区。在

为了避免意外的时区问题产生不希望出现的结果，在Impala中，时间戳在写入或读取数据文件时都会相对于UTC进行存储和解释。在

您可以参考下面的文档了解必要的配置设置。 https://www.cloudera.com/documentation/enterprise/5-9-x/topics/impala_timestamp.html#timestamp

相关问题更多 >

编程相关推荐

热门问题

热门文章