在Pyspark中筛选具有空数组的列

> df.groupby('fruits').count().sort(F.desc('count')).show() | fruits | count | | ----------- | ----------- | | [Apples] | 123 | | [] | 344 | | [Apples, plum]| 444 |

import pyspark.sql.types as T is_apples = F.udf(lambda arr: arr == ['Apples'], T.BooleanType()) df.filter(is_apples(df.fruits).count() # WORKS! shows 123 correctly. is_empty = F.udf(lambda arr: arr == [], T.BooleanType()) df.filter(is_empty(df.fruits).count() # Doesn't work! Should show 344 but shows zero.

2条回答

网友

1楼 · 编辑于 2024-05-13 16:08:52

您可以通过检查数组的长度来执行此操作

is_empty = F.udf(lambda arr: len(arr) == 0, T.BooleanType())
df.filter(is_empty(df.fruits).count()

网友

2楼 · 编辑于 2024-05-13 16:08:52

它可能是包含空字符串的数组：

is_empty = F.udf(lambda arr: arr == [''], T.BooleanType())

或者它可能是一个空数组：

is_empty = F.udf(lambda arr: arr == [None], T.BooleanType())

要一次检查所有数据，您可以使用：

is_empty = F.udf(lambda arr: arr in [[], [''], [None]], T.BooleanType())

但实际上，您不需要自定义项，例如，您可以：

df.filter("fruits = array() or fruits = array('') or fruits = array(null)")

相关问题更多 >

编程相关推荐

热门问题

热门文章