如何在Sp中检查或保存大矩阵文件

2024-06-16 12:45:08 发布

您现在位置:Python中文网/ 问答频道 /正文

我在PySpark中创建了一个大的块矩阵,称为mtm,维数为85K×85K。我想检查矩阵,以确保它是按我想要的方式创建的。我尝试过不同的路径,但都失败了,退出代码143或92。在

到目前为止我尝试过的选择: 1要将矩阵转换为rdd并查看第一个条目:

mtm_coor = mtm.toCoordinateMatrix()
mtm_rdd = mtm_coor.entries
mtm_rdd.take(1)
  1. 将其保存到文本文件

    mtm公司_rdd.saveAsTextFile文件('./mtm.txt文件')

  2. 将其转换为数据帧

    mtm_df=mtm_rdd.toDF公司()

我的问题是在PySpark中找出一个工作流。如何在不耗尽内存的情况下检查大型矩阵,以及如何在不遇到内存问题的情况下将大型矩阵保存到文件中?在


Tags: 文件内存代码路径方式情况公司条目
1条回答
网友
1楼 · 发布于 2024-06-16 12:45:08

问题是,当执行“savetotext file”或“.take(5)”时,前面定义的操作都将在此步骤中运行。OOM错误意味着操作太大,无法放入内存中。唯一的解决办法是寻找更有效的操作。在

相关问题 更多 >