我在pyspark中有一个稠密矩阵(100*100),我想把它分成十组,每组包含10行。在
from pyspark import SparkContext, SparkConf
from pyspark.mllib import *
sc = SparkContext("local", "Simple App")
dm2 = Matrices.dense(100, 100, RandomRDDs.uniformRDD(sc, 10000).collect())
newRdd = sc.parallelize(dm2.toArray())
rerdd = newRdd.repartition(10)
上面的代码导致rerdd
包含100个元素。我想把这个矩阵dm2
表示为按行分区的块(例如,一个分区中有10行)。在
我说不出什么道理,但你可以这样做
检查每个分区的分区数和行数:
^{pr2}$检查第一行是否包含所需数据:
相关问题 更多 >
编程相关推荐