我想对csv中的数据集执行决策树回归。我需要使用RDD来完成它。我尝试了以下方法将数据帧转换为RDD:
pp_df = spark.read.csv("/usr/local/spark/data/hour.csv",header=True,inferSchema=True)
pp_df = pp_df.rdd.map(lambda x: LabeledPoint(x[10], x[:10])).collect()
然后我试着分割数据以进行训练和测试:
(trainingData, testData) = pp_df.randomSplit([0.7, 0.3])
我得到了以下错误:
AttributeError: 'list' object has no attribute 'randomSplit'
为什么它会返回一个列表,如何正确地将csv转换为RDD标记的数据?你知道吗
pp_df = pp_df.rdd.map(lambda x: LabeledPoint(x[10], x[:10])).collect()
返回数组而不是RDD。因此,不能在这个问题上使用randomSplit
方法。你知道吗激发动作:https://spark.apache.org/docs/latest/rdd-programming-guide.html
相关问题 更多 >
编程相关推荐