如何保存没有列的数据帧?

2024-05-29 04:10:24 发布

您现在位置:Python中文网/ 问答频道 /正文

我有以下数据帧

+--------------------+
|                  _1|
+--------------------+
|{"entry": {"@type...|
|{"entry": {"@type...|
|{"entry": {"@type...|
|{"entry": {"@type...|
|{"entry": {"@type...|
|{"entry": {"@type...|
|{"entry": {"@type...|
|{"entry": {"@type...|
|{"entry": {"@type...|
|{"entry": {"@type...|
|{"entry": {"@type...|
|{"entry": {"@type...|
|{"entry": {"@type...|
|{"entry": {"@type...|
|{"entry": {"@type...|
+--------------------+
only showing top 20 rows

每行包含有效的JSON。我希望保存这个文件,这样我就有了一个文件,最好是JSON,它只是一个对象的嵌套(上面的这些行)。不过,我得到了一个JSON对象

{"_1":"{"entry": {"@type...}

我只想

{"entry": {"@type...}
{"entry": {"@type...}
{"entry": {"@type...}

Tags: 文件数据对象jsononlytoptyperows
1条回答
网友
1楼 · 发布于 2024-05-29 04:10:24

最简单的方法之一是将转换为rdd并仅选择值作为

rdd = df.rdd.map(lambda row: row._1)

然后您可以将rdd转换为dataframe并将它们保存为

sqlContext.read.json(rdd).write.json('output path to json')

或者您可以将它们直接保存到文本json文件

rdd.saveAsTextFile('path to text json file')

我希望答案是有帮助的

相关问题 更多 >

    热门问题