我有一个动态生成的大文件,下面给出了一个小示例:
ID,FEES,I_CLSS
11,5555,00000110
12,5555,654321
13,5555,000030
14,5555,07640
15,5555,14550
17,5555,99070
19,5555,090090
我的问题是,在这个文件中,我总是有一个像I_CLSS
这样以0
s开头的列。我想将文件读到spark dataframe,其中I_CLSS
列为StringType。在
为此,在python中我可以做一些类似的事情
df = pandas.read_csv('INPUT2.csv',dtype={'I_CLSS': str})
但是在pyspark中有没有替代这个命令的方法呢?在
我知道我可以在Pyspark中手动指定文件的模式。但是对于一个列是动态生成的文件来说,这是非常困难的。在
如果有人能帮我,我会很感激的。在
目前没有回答
相关问题 更多 >
编程相关推荐