PySpark/Python:将字典Python输出转换为RDD/或其他可保存(HDFS)格式

2024-03-28 09:21:25 发布

您现在位置:Python中文网/ 问答频道 /正文

我是Spark/Pyspark/HDFS的新手,我尝试直接从HDFS加载一个.json文件,代码如下:

import json

file = sc.textFile('/path/to/HDFS/my.json')
data = file.map(lambda x: json.loads(x))
lis = data.collect()

... a lot of Python functions.
dictionary_output = {'key1': 'value1', 'key2': 'value2', ...}

加载文件后,我使用一些Python函数来处理数据。所有这些函数之后的输出是dictionary,如代码所示。我现在无法将其保存回HDFS

^{pr2}$

不适用于字典。我还尝试了“并行化”字典,但是输出文件只包含键而没有值。在

所以我的问题是:什么命令可以将字典输出格式化为“RDD”或其他可以用pyspark/python保存在HDFS上的文件格式。在


Tags: 文件函数代码importjsondatadictionary字典