我想从csv文件中选择一个列,只使用rdd函数,而不是spark中的dataframe。我已经为它编写了代码。在
其他一些列的值为空。在
rdd = spark.sparkContext.textFile(filename)
rdd_parc = rdd.map(lambda x: x.split(","))
rdd1 = rdd_parc.map(lambda x: x[6] != "")
但是这个解决方案似乎不会选择第6列,而是选择映射的元素6。在
样本数据:
^{pr2}$您可以看到一些值是空的。 我想我的答案是
SUMMERLEA, PARC
SUMMERLEA, PARC
完成尝试先使用to转换为rdd
然后提取第六列
^{pr2}$您将得到所需的输出
相关问题 更多 >
编程相关推荐