合并来自错误JSON的Spark RDD

2024-04-24 14:57:50 发布

您现在位置:Python中文网/ 问答频道 /正文

我有很多json文件,但是它们的格式不适合Spark。我不想编写代码,通过规范化每行上的每个dict,将它们具体地转换为正确的格式。你知道吗

相反,我希望使用spark来解析它们的内容。我有以下几点

import json

import os

json_dir = '/data/original/TEMP'
df = sc.wholeTextFiles(os.path.join(json_dir,'*.json'))
j_docs = df.map(lambda x: json.loads(x[1])).cache()

这很好,ju文档本质上是一个列表列表。例如,ju文档中的第一项是来自第一个文件的dict列表。你知道吗

我想把所有这些单独的列表合并成一个大的RDD。理想情况下,无需对数据运行collect。你知道吗

谢谢


Tags: 文件代码文档importjsondf列表os