如何在pyspark中筛选出列表列表中的值

1条回答

网友

1楼 · 发布于 2024-05-13 04:12:21

对于spark2.4，使用Dataframes，可以使用高阶函数transform and filter对数组或其他嵌套数据结构进行过滤

#sample dataframe
df.show()
+                                                     +
|list                                                                                                      |
+                                                     +
|[[componenţa, parlamentului:, a, se, vedea, procesul-verbal], [membership, of, parliament:, see, minutes]]|
+                                                     +

df.withColumn("list", F.expr("""transform(list,x-> filter(x, y-> y!='vedea'))""")).show(truncate=False)

+                                                 -+
|list                                                                                               |
+                                                 -+
|[[componenţa, parlamentului:, a, se, procesul-verbal], [membership, of, parliament:, see, minutes]]|
+                                                 -+

在这种情况下，如果您想要remove{}{}包含单词'vedea'，您可以使用filter和{}

from pyspark.sql import functions as F
df.withColumn("list",\
F.expr("""filter(list,x-> array_contains(x,'vedea')!=True)""")).show(truncate=False)
#+                      -+
#|list                                         |
#+                      -+
#|[[membership, of, parliament:, see, minutes]]|
#+                      -+

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在pyspark中筛选出列表列表中的值

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >