我有一个PySpark数据框
+-------+--------------+----+----+
|address| date|name|food|
+-------+--------------+----+----+
|1111111|20151122045510| Yin|gre |
|1111111|20151122045501| Yin|gre |
|1111111|20151122045500| Yln|gra |
|1111112|20151122065832| Yun|ddd |
|1111113|20160101003221| Yan|fdf |
|1111111|20160703045231| Yin|gre |
|1111114|20150419134543| Yin|fdf |
|1111115|20151123174302| Yen|ddd |
|2111115| 20123192| Yen|gre |
+-------+--------------+----+----+
我要转换为与pyspark.ml一起使用。我可以使用StringIndexer将名称列转换为数字类别:
indexer = StringIndexer(inputCol="name", outputCol="name_index").fit(df)
df_ind = indexer.transform(df)
df_ind.show()
+-------+--------------+----+----------+----+
|address| date|name|name_index|food|
+-------+--------------+----+----------+----+
|1111111|20151122045510| Yin| 0.0|gre |
|1111111|20151122045501| Yin| 0.0|gre |
|1111111|20151122045500| Yln| 2.0|gra |
|1111112|20151122065832| Yun| 4.0|ddd |
|1111113|20160101003221| Yan| 3.0|fdf |
|1111111|20160703045231| Yin| 0.0|gre |
|1111114|20150419134543| Yin| 0.0|fdf |
|1111115|20151123174302| Yen| 1.0|ddd |
|2111115| 20123192| Yen| 1.0|gre |
+-------+--------------+----+----------+----+
如何使用StringIndexer转换多个列(例如,name
和food
,每个列都有自己的StringIndexer
),然后使用VectorAssembler生成特征向量?还是必须为每个列创建一个StringIndexer
?
**EDIT**:这不是一个重复,因为我需要以编程的方式为多个具有不同列名的数据帧执行此操作。我不能使用VectorIndexer
或VectorAssembler
,因为列不是数字列。
**编辑2**:暂定的解决方案是
indexers = [StringIndexer(inputCol=column, outputCol=column+"_index").fit(df).transform(df) for column in df.columns ]
在这里,我现在创建一个包含三个数据帧的列表,每个数据帧都与原始数据帧相同,外加转换后的列。现在我需要加入,然后形成最终的数据框架,但这是非常低效的。
我发现最好的方法是将列表中的几个
StringIndex
组合起来,并使用Pipeline
来执行它们:相关问题 更多 >
编程相关推荐