我是Spark/Pyspark/HDFS的新手,我尝试直接从HDFS加载一个.json文件,代码如下:
import json
file = sc.textFile('/path/to/HDFS/my.json')
data = file.map(lambda x: json.loads(x))
lis = data.collect()
... a lot of Python functions.
dictionary_output = {'key1': 'value1', 'key2': 'value2', ...}
加载文件后,我使用一些Python函数来处理数据。所有这些函数之后的输出是dictionary,如代码所示。我现在无法将其保存回HDFS
^{pr2}$不适用于字典。我还尝试了“并行化”字典,但是输出文件只包含键而没有值。在
所以我的问题是:什么命令可以将字典输出格式化为“RDD”或其他可以用pyspark/python保存在HDFS上的文件格式。在
目前没有回答
相关问题 更多 >
编程相关推荐