如何优化python脚本到pyspark def函数

import pandas as pd import numpy as np with open df = pd.read_csv("/home/path/Sample Text Files/sample5.txt", delimiter = ",") df=pd.DataFrame(df) df.insert(loc=0, column='Creation_DT', value=pd.to_datetime('today')) df.insert(loc=1, column='Create_BY',value="Sean") df.write("/home/path/new/new_file.txt")

2条回答

网友

1楼 · 编辑于 2024-04-19 15:38:10

我看不到您在代码中使用任何pyspark，所以我将这样使用pandas：

cols = df.columns
df['Creation_DT'] =pd.to_datetime('today')
df['Create_BY']="Sean"
cols = cols.insert(0, 'Create_BY')
cols = cols.insert(0, 'Creation_DT') 
df.columns = cols
df.write("/home/path/new/new_file.txt")

网友

2楼 · 编辑于 2024-04-19 15:38:10

是的，转换成pyspark代码相对容易

from pyspark.sql import DataFrame, functions as sf
import datetime
# read in using dataframe reader
# path here if you store your csv in local, should use file:///
# or use hdfs:/// if you store your csv in a cluster/HDFS.
spdf = (spark.read.format("csv").option("header","true")
.load("file:///home/path/Sample Text Files/sample5.txt"))

spdf2 = (
    spdf
    .withColumn("Creation_DT", sf.lit(datetime.date.today().strftime("%Y-%m-%d")))
    .withColumn("Create_BY", sf.lit("Sean"))

spdf2.write.csv("file:///home/path/new/new_file.txt")

此代码假定您正在附加creation\u dt或使用相同的值创建\u。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何优化python脚本到pyspark def函数

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >