如何将标记点的csv转换为RDD？ - 问答 - Python中文网

如何将标记点的csv转换为RDD？

2024-04-25 13:14:20 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我想对csv中的数据集执行决策树回归。我需要使用RDD来完成它。我尝试了以下方法将数据帧转换为RDD：

pp_df = spark.read.csv("/usr/local/spark/data/hour.csv",header=True,inferSchema=True)
pp_df = pp_df.rdd.map(lambda x: LabeledPoint(x[10], x[:10])).collect()

然后我试着分割数据以进行训练和测试：

(trainingData, testData) = pp_df.randomSplit([0.7, 0.3])

我得到了以下错误：

AttributeError: 'list' object has no attribute 'randomSplit'

为什么它会返回一个列表，如何正确地将csv转换为RDD标记的数据？你知道吗

Tags： csv 数据方法决策树 true df read data

1条回答

网友

1楼 · 发布于 2024-04-25 13:14:20

pp_df = pp_df.rdd.map(lambda x: LabeledPoint(x[10], x[:10])).collect()返回数组而不是RDD。因此，不能在这个问题上使用randomSplit方法。你知道吗

激发动作：https://spark.apache.org/docs/latest/rdd-programming-guide.html

相关问题更多 >

编程相关推荐

热门问题

热门文章