将不同大小元组的RDD转换为Sp中的数据帧

1条回答

网友

1楼 · 发布于 2024-04-17 20:09:28

有了这样的数据：

rdd = sc.parallelize([
    ['usr1',('itm1',2),('itm3',3)], ['usr2',('itm2',3), ('itm3',5),('itm22',6)]
])

整理记录：

^{pr2}$

转换为DataFrame：

df = records.toDF(["user", "item", "value"])

数据透视：

result = df.groupBy("item").pivot("user").sum()

result.show()
## +  -+  +  +
## | item|usr1|usr2|
## +  -+  +  +
## | itm1|   2|null|
## | itm2|null|   3|
## | itm3|   3|   5|
## |itm22|null|   6|
## +  -+  +  +

注意：SparkDataFrames设计用于处理较长且相对较薄的数据。如果您想生成宽列联表，DataFrames就没有用了，特别是当数据密集并且您希望为每个特性保留单独的列时。在

编程相关推荐

java调优G1GC参数以进行积极的垃圾收集？
java我的应用程序在我更改webview大小时崩溃
java如何在netbeans中为JPanel设置背景图像？
java RabbitMQ如何作为消费微服务处理2条异步消息？
java如何修改初始化方法是Selenium页面对象模型基类来调用Selenium网格中心和节点？
eclipse在命令提示符下运行jar文件。Java在类路径中找不到库
ConcurrentHashMap值对象的java同步读写
java无法计算数组列表的输出
java Huffman代码树解码
java ImageJ（斐济）编译插件

相关问题更多 >

编程相关推荐

热门问题

热门文章

将不同大小元组的RDD转换为Sp中的数据帧

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >