“PipelinedRDD”对象在PySp中没有属性“toDF”

Traceback (most recent call last): File "/home/fred-spark/spark-1.5.0-bin-hadoop2.6/pipeline_teste_original.py", line 34, in <module> data = MLUtils.loadLibSVMFile(sc, "/home/fred-spark/svm_capture").toDF() AttributeError: 'PipelinedRDD' object has no attribute 'toDF'

1条回答

网友

1楼 · 发布于 2024-06-08 04:12:39

toDF方法是一个猴子补丁executed inside ^{} (^{} constructor in 1.x) constructor，因此要使用它，必须首先创建一个SQLContext（或SparkSession）：

# SQLContext or HiveContext in Spark 1.x
from pyspark.sql import SparkSession
from pyspark import SparkContext

sc = SparkContext()

rdd = sc.parallelize([("a", 1)])
hasattr(rdd, "toDF")
## False

spark = SparkSession(sc)
hasattr(rdd, "toDF")
## True

rdd.toDF().show()
## +---+---+
## | _1| _2|
## +---+---+
## |  a|  1|
## +---+---+

更不用说你首先需要一个SQLContext或SparkSession来处理DataFrames。

编程相关推荐

java regexreplacetextoutsidehtml<a>标记
java日期选择器Selenium
java在依赖注入方面有人能帮我吗？
在java中，滚动背景时swing图像不会移动
sql查询宝数据数据库，带有简单的Java客户端代码
java是否可以使用数据库中的值部分填充Jtable
不执行java方面
java Mockito thenReturn始终返回空对象
java使用带有自定义分隔符的Scanner跳过尾随的空标记
Java如何将输入字符串放入随机字母的2d数组中？

相关问题更多 >

编程相关推荐

热门问题

热门文章

“PipelinedRDD”对象在PySp中没有属性“toDF”

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >