我在PySpark中创建了一个大的块矩阵,称为mtm,维数为85K×85K。我想检查矩阵,以确保它是按我想要的方式创建的。我尝试过不同的路径,但都失败了,退出代码143或92。在
到目前为止我尝试过的选择: 1要将矩阵转换为rdd并查看第一个条目:
mtm_coor = mtm.toCoordinateMatrix()
mtm_rdd = mtm_coor.entries
mtm_rdd.take(1)
将其保存到文本文件
mtm公司_rdd.saveAsTextFile文件('./mtm.txt文件')
将其转换为数据帧
mtm_df=mtm_rdd.toDF公司()
我的问题是在PySpark中找出一个工作流。如何在不耗尽内存的情况下检查大型矩阵,以及如何在不遇到内存问题的情况下将大型矩阵保存到文件中?在
问题是,当执行“savetotext file”或“.take(5)”时,前面定义的操作都将在此步骤中运行。OOM错误意味着操作太大,无法放入内存中。唯一的解决办法是寻找更有效的操作。在
相关问题 更多 >
编程相关推荐