我想要每组中最常上的课。 每个组中可以有多行,也可以有多个类。 我们可以忽略tie的问题,因为这个python应该自动接受第一个类。你知道吗
我尝试将rdd更改为spark数据帧,然后使用下面链接pyspark: aggregate on the most frequent value in a column中的代码
不过,我尝试在不将数据转换为SparkDataframe的情况下执行此操作
下面是数据集
Data= sc.parallelize([(1, 'class1', 0.0),
(1, 'class1', 2.9870435922860854),
(1, 'class1', 3.1390539564237088),
(2, 'class1', 1.8147552294243288),
(2, 'class1', 2.2762141107738643),
(2, 'class1', 2.3276650040679754),
(3, 'class1', 2.1916602976063415),
(3, 'class2', 2.8092745089004265),
(3, 'class2', 2.962653217205646),
(4, 'class2', 1.9684050295783773),
(4, 'class2', 2.6954556024643974),
(4, 'class1', 2.849277442723792),
(5, 'class2', 2.42178294501635),
(5, 'class2', 3.650846798310411),
(5, 'class1', 4.209012410198228),
(6, 'class1', 1.942895930291406),
(6, 'class1', 2.3133629778496676),
(6, 'class2', 3.0147225096785264),
(7, 'class1', 1.7185194340256884),
(7, 'class1', 2.91322741107079),
(7, 'class1', 3.5767422323347633),
(8, 'class1', 2.4711392945465893),
(8, 'class1', 3.436547108084221),
(8, 'class1', 3.937683211352823),
(9, 'class1', 3.800013103330196),
(9, 'class1', 4.632413017908266),
(9, 'class1', 5.191184050603831),
预期产量
[(1, Class1),(2,Class1),(3,Class2),(4,Class2),(5,Class2),(6,Class1),(7,Class1),(8,Class1),(9,Class1)]
此外,我可能有多个类。你知道吗
每行中的第一个元素是group id,第二个元素是class,第三个元素是distance,我认为这没有多大用处。你知道吗
这是pyspark的RDD解决方案
退货:
随时给我斯卡拉!你知道吗
领带不符合规定。不知道你会怎么做,无论如何,如果做了什么真正的好处是不那么明显。你知道吗
相关问题 更多 >
编程相关推荐