在PySp中以字符串形式读取CSV文件

2024-06-16 14:59:47 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个动态生成的大文件,下面给出了一个小示例:

ID,FEES,I_CLSS
11,5555,00000110
12,5555,654321
13,5555,000030
14,5555,07640
15,5555,14550
17,5555,99070
19,5555,090090

我的问题是,在这个文件中,我总是有一个像I_CLSS这样以0s开头的列。我想将文件读到spark dataframe,其中I_CLSS列为StringType。在

为此,在python中我可以做一些类似的事情

df = pandas.read_csv('INPUT2.csv',dtype={'I_CLSS': str})

但是在pyspark中有没有替代这个命令的方法呢?在

我知道我可以在Pyspark中手动指定文件的模式。但是对于一个列是动态生成的文件来说,这是非常困难的。在

如果有人能帮我,我会很感激的。在


Tags: 文件csvid示例dataframepandasdfread