Python sqlcontext_专题 - Python中文网

如何在pyspark中读取带有“]|[”delimi的文件

2024-04-20 已阅读: n次

我有以下示例数据框： a | b | c | 1 | 2 | 4 | 0 | null | null| null | 3 | 4 | 我只想替换 ...

2024-04-20 已阅读: n次

我有一个使用创建的pyspark.sql.dataframe.DataFrame实例 dataframe = sqlContext.sql("select * from table"). 其中一列是 ...

2024-04-20 已阅读: n次

我有一个csv文件；我在pyspark中将其转换为DataFrame（df）；经过一些转换之后；我想在df中添加一个列；该列应该是简单的行id（从0或1开始到N）。我在rdd中转换了df并使用“z ...

2024-04-20 已阅读: n次

我正在使用Pyspark在Jupyter笔记本中运行一些命令，但它正在抛出错误。我尝试了此链接中提供的解决方案（Pyspark: Exception: Java gateway process exi ...

2024-04-20 已阅读: n次

我知道我们可以用Window function in pyspark来计算累积和。但Window仅在HiveContext中受支持，而在SQLContext中不受支持。我需要使用SQLContext， ...

2024-04-20 已阅读: n次

我有以下使用Spark的Python代码： from pyspark.sql import Row def simulate(a, b, c): dict = Row(a=a, b=b, c=c ...

2024-04-20 已阅读: n次

在这里点燃新人的火花。我试着用Spark在我的数据帧上做一些pandas操作，令人惊讶的是它比纯Python慢（即在Python中使用pandas包）。以下是我所做的：（一）在Spark中： tr ...

2024-04-20 已阅读: n次

我有一个Spark 1.5.0 DataFrame在同一列中混合了null和空字符串。我想将所有列中的所有空字符串转换为null（None，在Python中）。数据帧可能有数百列，因此我试图避免对每列 ...

2024-04-20 已阅读: n次

我们正在用Spark加载文件目录的层次结构，并将它们转换为Parquet。数百个管道分隔的文件中有数十GB。有些本身就很大。比如说，每100个文件都有一两行有一个额外的分隔符，使整个进程（或文件）中 ...

2024-04-20 已阅读: n次

我的问题是如何将一列拆分为多列。我不知道为什么df.toPandas()不起作用。例如，我想将“df_test”更改为“df_test2”。我看到许多使用pandas模块的例子。还有别的办法吗？ ...

2024-04-20 已阅读: n次

输入我有一列Parameters类型map的表单： >>> from pyspark.sql import SQLContext >>> sqlContext = ...

2024-04-20 已阅读: n次