pysp中稠密矩阵的重划分

from pyspark import SparkContext, SparkConf from pyspark.mllib import * sc = SparkContext("local", "Simple App") dm2 = Matrices.dense(100, 100, RandomRDDs.uniformRDD(sc, 10000).collect()) newRdd = sc.parallelize(dm2.toArray()) rerdd = newRdd.repartition(10)

1条回答

网友

1楼 · 发布于 2024-04-18 13:46:38

我说不出什么道理，但你可以这样做

mat =  Matrices.dense(100, 100, np.arange(10000))

n_par = 10
n_row = 100

rdd = (sc
    .parallelize(
        # Add indices
        enumerate(
            # Extract and reshape values
            mat.values.reshape(n_row, -1)))
    # Partition and sort by row index
    .repartitionAndSortWithinPartitions(n_par, lambda i: i // n_par))

检查每个分区的分区数和行数：

^{pr2}$

检查第一行是否包含所需数据：

assert np.all(rdd.first()[1] == np.arange(100))

编程相关推荐

java Android USB重新连接打开的应用程序，即使该应用程序已在运行
关于数组的java新手问题
cmd通过配置文件在Java中运行系统命令
继承这种java接口策略合理吗？
java如何将循环长度设置为2D数组长度？
java简单歌曲列表，使用数组列表和对象
java解释Wicket调试条输出
JavaSpringBeanDefinition类名包含实例化bean的null
爪哇安卓菜刀
java i无法运行数据规范化maxmin的代码

相关问题更多 >

编程相关推荐

热门问题

热门文章

pysp中稠密矩阵的重划分

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >