在PySp中以字符串形式读取CSV文件

2024-06-16 14:59:47 发布

男 | 程序猿一只，喜欢编程写python代码。

我有一个动态生成的大文件，下面给出了一个小示例：

ID,FEES,I_CLSS
11,5555,00000110
12,5555,654321
13,5555,000030
14,5555,07640
15,5555,14550
17,5555,99070
19,5555,090090

我的问题是，在这个文件中，我总是有一个像I_CLSS这样以0s开头的列。我想将文件读到spark dataframe，其中I_CLSS列为StringType。在

为此，在python中我可以做一些类似的事情

df = pandas.read_csv('INPUT2.csv',dtype={'I_CLSS': str})

但是在pyspark中有没有替代这个命令的方法呢？在

我知道我可以在Pyspark中手动指定文件的模式。但是对于一个列是动态生成的文件来说，这是非常困难的。在

如果有人能帮我，我会很感激的。在

Tags：文件 csv id 示例 dataframe pandas df read

0条回答

目前没有回答