我有很多json文件,但是它们的格式不适合Spark。我不想编写代码,通过规范化每行上的每个dict,将它们具体地转换为正确的格式。你知道吗
相反,我希望使用spark来解析它们的内容。我有以下几点
import json
import os
json_dir = '/data/original/TEMP'
df = sc.wholeTextFiles(os.path.join(json_dir,'*.json'))
j_docs = df.map(lambda x: json.loads(x[1])).cache()
这很好,ju文档本质上是一个列表列表。例如,ju文档中的第一项是来自第一个文件的dict列表。你知道吗
我想把所有这些单独的列表合并成一个大的RDD。理想情况下,无需对数据运行collect。你知道吗
谢谢
使用下面的平面图而不是地图
相关问题 更多 >
编程相关推荐