Python rdd_专题 - Python中文网

当前热门话题： Python rdd: 本站为您提供最新、最全的rdd的Python教程、文档、代码、资源等相关内容，Python中文网技术交流社区同时还提供学习资源下载，如：电子书、IDE编辑器软件、编程视频、代码规范标准、WEB开发、GUI、科学计算与人工智能等相关内容。

本文网址：https://www.cnpython.com/tags/260170
欢迎加入QQ群-->： 979659372

关于rdd 相关联的Python项目和问题：

将PipelinedRDD转换为datafram

我正在尝试将pyspark中的pipelinedRDD转换为数据帧。这是代码片段： newRDD = rdd.map(lambda row: Row(row.__fields__ + ["tag"]) ...

2024-04-19 已阅读: n次

为什么我的Spark数据帧比RDD慢得多？

我有一个非常简单的Spark DataFrame，当运行dataframegroupby时，性能非常糟糕-大约比（在我脑海中）等效的RDD reduceByKey慢8倍。。。在我缓存的DF只有两列， ...

2024-04-19 已阅读: n次

pyspark-一个RDD和一个输出fi中有多个输入文件

我在Python中有一个wordcount，我想在Spark上运行它，它包含多个文本文件，并得到一个输出文件，因此单词在所有文件中都被计算在内。我尝试了一些解决方案，例如找到了here和here，但它 ...

2024-04-19 已阅读: n次

如何用Sp求中值和分位数

如何使用分布式方法IPython和Spark找到整数的RDD中值？RDD大约是700000个元素，因此太大，无法收集和找到中位数。这个问题和这个问题类似。但是，问题的答案是使用Scala，我不知道。 ...

2024-04-19 已阅读: n次

如何在HDFS上将spark数据帧保存为csv？

Spark版本：1.6.1，我使用pyspark API。数据帧：df，它有两个列。我试过： 1: df.write.format('csv').save("hdfs://path/bdt_sum ...

2024-04-19 已阅读: n次

PySpark：如何在dataframe中为特定列填充值？

我有以下示例数据框： a | b | c | 1 | 2 | 4 | 0 | null | null| null | 3 | 4 | 我只想替换 ...

2024-04-19 已阅读: n次

检查RDD中是否存在值

我用python编写了一个正常工作的Spark程序。但是，从内存消耗的角度来看，它是低效的，我正在尝试优化它。我在AWS EMR上运行它，EMR因为消耗太多内存而终止了工作。 Lost execu ...

2024-04-19 已阅读: n次

如何在pySpark数据帧中添加行id

我有一个csv文件；我在pyspark中将其转换为DataFrame（df）；经过一些转换之后；我想在df中添加一个列；该列应该是简单的行id（从0或1开始到N）。我在rdd中转换了df并使用“z ...

2024-04-19 已阅读: n次

Pyspark将标准列表转换为数据fram

这个例子非常简单，我需要用以下代码将python列表转换成数据帧 from pyspark.sql.types import StructType from pyspark.sql.types im ...

2024-04-19 已阅读: n次

如何在PySp中查找RDD中某列的标准差

我有一个RDD，我想在数据中找到standard deviation，它是RDD的列之一。我现在的代码是： def extract(line): # line[11] is the colum ...

2024-04-19 已阅读: n次

使用partitionby的pyspark分区数据

我知道partitionBy函数对我的数据进行分区。如果我使用rdd.partitionBy(100)，它将按键将数据分成100个部分。i、 e.与相似键相关的数据将被组合在一起我的理解正确吗？ ...

2024-04-19 已阅读: n次

在Spark DataFram中查找每个组的最大行数

我尝试使用Spark数据帧而不是rdd，因为它们看起来比rdd更高级，并且倾向于生成更可读的代码。在一个14个节点的Google Dataproc集群中，我有大约600万个名字被两个不同的系统翻译成 ...

2024-04-19 已阅读: n次

on_the_fl

on-the-fly:pyspark和python迭代器的核心外学习on-the-fly是一个机器学习工具包，旨在有效地在rdd和python迭代器上执行在线特征提取和学习。 ...

2024-04-19 已阅读: n次

pysparkling

闪烁 pysparkling为开发程序提供了一种更快、更灵敏的方法为了Pyspark。它使Spark应用程序的代码能够执行完全在python中，不会引起初始化和通过jvm和hadoop传递数 ...

2024-04-19 已阅读: n次

rdd

RDD rdd是一套在python中实现回归不连续性设计的工具。目前，它只允许输入熊猫系列或数据帧。查看教程here以获得使用此包的指南。安装：要使用pip安装，请运行pip install rd ...

2024-04-19 已阅读: n次

pyspark-utils

Pyspark实用程序失踪的小精灵。用法要安装： pip install pyspark-utils 助手 import pyspark_utils.helper as spark_helpe ...

2024-04-19 已阅读: n次

spark-partition-server

#Spark分区服务器 spark partition server是一组轻量级的python组件，用于在spark集群的执行器上启动服务器。 ##概述 spark设计用于在集群内操作和分发数据，但不 ...

2024-04-19 已阅读: n次

pyspark-flame

python上spark的低开销分析器 PixBar火焰钩到PyScar的现有分析能力提供一个低开销的堆栈采样分析器，输出性能数据格式与Brendan Gregg’s FlameGraph Vi ...

2024-04-19 已阅读: n次

dummyrdd

dummyrdd [！[覆盖状态]（https://coveralls.io/repos/github/wdm0006/DummyRDD/badge.svg?branch=master)](http ...

2024-04-19 已阅读: n次

ElasticSearchSparkLoader

利用python elasticsearch模块在给定的spark rdd或dataframe上执行分布式并行elasticsearch批量加载。 ...

2024-04-19 已阅读: n次

sparkit-learn

Sparkit学习 pyspark+scikit learn=sparkit学习 github:https://github.com/lensacom/sparkit-learn 关于 spa ...

2024-04-19 已阅读: n次

dummy_spark

dummyrdd [！[覆盖状态]（https://coveralls.io/repos/github/wdm0006/DummyRDD/badge.svg?branch=master)](http ...

2024-04-19 已阅读: n次

mockrdd

模拟RDD 测试pyspark代码的python3模块。 mockrdd类提供了类似于pyspark.RDD的行为，如下所示额外福利。广泛的健全性检查以识别无效输入有关调试问题的更有意义的错误 ...

2024-04-19 已阅读: n次