将StringIndexer应用于PySpark Datafram中的多个列

+-------+--------------+----+----+ |address| date|name|food| +-------+--------------+----+----+ |1111111|20151122045510| Yin|gre | |1111111|20151122045501| Yin|gre | |1111111|20151122045500| Yln|gra | |1111112|20151122065832| Yun|ddd | |1111113|20160101003221| Yan|fdf | |1111111|20160703045231| Yin|gre | |1111114|20150419134543| Yin|fdf | |1111115|20151123174302| Yen|ddd | |2111115| 20123192| Yen|gre | +-------+--------------+----+----+

indexer = StringIndexer(inputCol="name", outputCol="name_index").fit(df) df_ind = indexer.transform(df) df_ind.show() +-------+--------------+----+----------+----+ |address| date|name|name_index|food| +-------+--------------+----+----------+----+ |1111111|20151122045510| Yin| 0.0|gre | |1111111|20151122045501| Yin| 0.0|gre | |1111111|20151122045500| Yln| 2.0|gra | |1111112|20151122065832| Yun| 4.0|ddd | |1111113|20160101003221| Yan| 3.0|fdf | |1111111|20160703045231| Yin| 0.0|gre | |1111114|20150419134543| Yin| 0.0|fdf | |1111115|20151123174302| Yen| 1.0|ddd | |2111115| 20123192| Yen| 1.0|gre | +-------+--------------+----+----------+----+

1条回答

网友

1楼 · 发布于 2024-05-16 03:25:19

我发现最好的方法是将列表中的几个StringIndex组合起来，并使用Pipeline来执行它们：

from pyspark.ml import Pipeline
from pyspark.ml.feature import StringIndexer

indexers = [StringIndexer(inputCol=column, outputCol=column+"_index").fit(df) for column in list(set(df.columns)-set(['date'])) ]


pipeline = Pipeline(stages=indexers)
df_r = pipeline.fit(df).transform(df)

df_r.show()
+-------+--------------+----+----+----------+----------+-------------+
|address|          date|food|name|food_index|name_index|address_index|
+-------+--------------+----+----+----------+----------+-------------+
|1111111|20151122045510| gre| Yin|       0.0|       0.0|          0.0|
|1111111|20151122045501| gra| Yin|       2.0|       0.0|          0.0|
|1111111|20151122045500| gre| Yln|       0.0|       2.0|          0.0|
|1111112|20151122065832| gre| Yun|       0.0|       4.0|          3.0|
|1111113|20160101003221| gre| Yan|       0.0|       3.0|          1.0|
|1111111|20160703045231| gre| Yin|       0.0|       0.0|          0.0|
|1111114|20150419134543| gre| Yin|       0.0|       0.0|          5.0|
|1111115|20151123174302| ddd| Yen|       1.0|       1.0|          2.0|
|2111115|      20123192| ddd| Yen|       1.0|       1.0|          4.0|
+-------+--------------+----+----+----------+----------+-------------+

相关问题更多 >

编程相关推荐

热门问题

热门文章