合并来自错误JSON的Spark RDD

2024-04-24 14:57:50 发布

您现在位置：Python中文网/ 问答频道 /正文

3826

网友

男 | 程序猿一只，喜欢编程写python代码。

我有很多json文件，但是它们的格式不适合Spark。我不想编写代码，通过规范化每行上的每个dict，将它们具体地转换为正确的格式。你知道吗

相反，我希望使用spark来解析它们的内容。我有以下几点

import json

import os

json_dir = '/data/original/TEMP'
df = sc.wholeTextFiles(os.path.join(json_dir,'*.json'))
j_docs = df.map(lambda x: json.loads(x[1])).cache()

这很好，ju文档本质上是一个列表列表。例如，ju文档中的第一项是来自第一个文件的dict列表。你知道吗

我想把所有这些单独的列表合并成一个大的RDD。理想情况下，无需对数据运行collect。你知道吗

谢谢

Tags：文件代码文档 import json df 列表 os

1条回答

网友

1楼 · 发布于 2024-04-24 14:57:50

使用下面的平面图而不是地图

j_docs = df.flatMap(lambda x: json.loads(x[1])).cache()

合并来自错误JSON的Spark RDD

相关问题更多 >

编程相关推荐

热门问题

热门文章

合并来自错误JSON的Spark RDD

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >