如何在spark中只使用rdd而不是datafram从csv中获取第N列

2024-05-14 17:06:10 发布

男 | 程序猿一只，喜欢编程写python代码。

我想从csv文件中选择一个列，只使用rdd函数，而不是spark中的dataframe。我已经为它编写了代码。在

其他一些列的值为空。在

rdd = spark.sparkContext.textFile(filename)    
rdd_parc = rdd.map(lambda x: x.split(","))
rdd1 = rdd_parc.map(lambda x: x[6] != "")

但是这个解决方案似乎不会选择第6列，而是选择映射的元素6。在

样本数据：

^{pr2}$

您可以看到一些值是空的。我想我的答案是

SUMMERLEA, PARC
SUMMERLEA, PARC

Tags：文件 csv lambda 函数代码 map dataframe filename

1条回答

网友

1楼 · 发布于 2024-05-14 17:06:10

完成尝试先使用to转换为rdd

rdd = spark.read.csv(filename, header=True).rdd

然后提取第六列

^{pr2}$

您将得到所需的输出