我正在尝试将下面的流水线RDD转换为数据帧。在
流水线式RDD->;用户RDD
['new_user1',
'new_user2',
'Onlyknows',
'Icetea',
'_coldcoffee_']
我试图用下面的代码进行转换
^{pr2}$我得到以下错误:
ValueError: Unexpected tuple 'new_user1' with StructType
我还尝试使用toDF():
user_df=user_rdd.toDF()
这次遇到的错误是:
TypeError: Can not infer schema for type: <type 'str'>
请告诉我是否有方法使用pyspark将其转换为dataframe。在
您拥有的rdd是一个字符串列表,本质上是1d数据;数据帧需要2d数据;将rdd中的每个元素转换为元组应该可以解决以下问题:
相关问题 更多 >
编程相关推荐