pyspark dataframe从字符串列中提取每个不同的字，并将它们放入新的数据帧中

import pyspark.sql.functions as F from pyspark.sql.types import ArrayType, StringType import re def my_f(col): if not col: return s = '' if isinstance(col, str): s = re.sub('[^a-zA-Z0-9]+', ' ', col).split() return s my_udf = F.udf(my_f, ArrayType(StringType())) df = spark.createDataFrame([(1, 'book bike car'), (18, 'car TV bike')], ['id', 'val']) df = df.withColumn('val_new', my_udf(F.col('val')))

1条回答

网友

1楼 · 发布于 2024-04-25 07:23:20

这对您来说是一个可行的解决方案-在构建函数中使用spark而不是使用udf，这最终会使您的应用程序变慢。功能 explode()groupBy()与collect_set()将帮助您实现所需的结果

在这里创建DF

df = spark.createDataFrame([(1, 'book bike car'), (18, 'car TV bike')], ['id', 'val'])
df = df.withColumn("dummy_col", F.lit(1))
df.show()
+ -+      -+    -+
| id|          val|dummy_col|
+ -+      -+    -+
|  1|book bike car|        1|
| 18|  car TV bike|        1|
+ -+      -+    -+

这里的逻辑

#Add a dummy column to groupBy & in a single line
df = df.withColumn("array_col", F.split("val", " "))
#Collect_set will return you an array without duplicates
df_grp = df.groupBy("dummy_col").agg(F.collect_set("array_col").alias("array_col"))
#explode to transpoe the column
df_grp = df_grp.withColumn("explode_col", F.explode("array_col"))
df_grp = df_grp.withColumn("explode_col", F.explode("explode_col"))
#Distince to remove the duplicates
df_grp = df_grp.select("explode_col").distinct()
#another dummy column to create the row number
df_grp = df_grp.withColumn("dummy_col", F.lit("A"))
_w = W.partitionBy("dummy_col").orderBy("dummy_col")
df_grp = df_grp.withColumn("rnk", F.row_number().over(_w))
df_grp.show(truncate=False)

最终产量

+     -+    -+ -+
|explode_col|dummy_col|rnk|
+     -+    -+ -+
|TV         |A        |1  |
|car        |A        |2  |
|bike       |A        |3  |
|book       |A        |4  |
+     -+    -+ -+

在这里创建DF

这里的逻辑

最终产量

相关问题更多 >

编程相关推荐

热门问题

热门文章