如何在spark中只使用rdd而不是datafram从csv中获取第N列

2024-05-14 17:06:10 发布

您现在位置:Python中文网/ 问答频道 /正文

我想从csv文件中选择一个列,只使用rdd函数,而不是spark中的dataframe。我已经为它编写了代码。在

其他一些列的值为空。在

rdd = spark.sparkContext.textFile(filename)    
rdd_parc = rdd.map(lambda x: x.split(","))
rdd1 = rdd_parc.map(lambda x: x[6] != "")

但是这个解决方案似乎不会选择第6列,而是选择映射的元素6。在

样本数据:

^{pr2}$

您可以看到一些值是空的。 我想我的答案是

SUMMERLEA, PARC
SUMMERLEA, PARC

Tags: 文件csvlambda函数代码mapdataframefilename

热门问题