如果列表中的值位于另一列中，则Pyspark会更改列值

1条回答

网友

1楼 · 发布于 2024-05-16 14:25:27

根据您的要求，可以使用左连接或内连接解决此问题：

from pyspark.sql.functions import broadcast

slugs = ['clientA', 'clientB', 'c-abc', 'f-gd']
sdf = spark.createDataFrame(slugs, "string").withColumnRenamed("value", "slug")

df = spark.createDataFrame([
  ["Tom", "clientA-incoming"],
  ["Dick", "clientB-incoming"],
  ["Harry", "c-abc-incoming"],
  ["Harry", "c-dgl-incoming"]
], ["Name", "Source"])

df.join(broadcast(sdf), df["Source"].contains(sdf["slug"]), "left").show()

# +  -+        +   -+
# | Name|          Source|   slug|
# +  -+        +   -+
# |  Tom|clientA-incoming|clientA|
# | Dick|clientB-incoming|clientB|
# |Harry|  c-abc-incoming|  c-abc|
# |Harry|  c-dgl-incoming|   null|
# +  -+        +   -+

注意，我们广播较小的df以防止混洗

相关问题更多 >

编程相关推荐

热门问题

热门文章

如果列表中的值位于另一列中，则Pyspark会更改列值

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >