在Pyspark中筛选具有空数组的列

2024-05-13 16:08:52 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个数据帧,它包含很多重复的值。它的聚合、不同计数如下所示

> df.groupby('fruits').count().sort(F.desc('count')).show()


| fruits        | count       |
| -----------   | ----------- |
| [Apples]      | 123         |
| []            | 344         |
| [Apples, plum]| 444         |

我的目标是筛选值为[Apples][]的所有行

令人惊讶的是,以下内容适用于非空数组,但对于空数组则不适用

import pyspark.sql.types as T

is_apples = F.udf(lambda arr: arr == ['Apples'], T.BooleanType())
df.filter(is_apples(df.fruits).count() # WORKS! shows 123 correctly.

is_empty = F.udf(lambda arr: arr == [], T.BooleanType())
df.filter(is_empty(df.fruits).count() # Doesn't work! Should show 344 but shows zero.

知道我做错了什么吗


Tags: lambdadfisshowcount数组filtershows
2条回答

您可以通过检查数组的长度来执行此操作

is_empty = F.udf(lambda arr: len(arr) == 0, T.BooleanType())
df.filter(is_empty(df.fruits).count()

它可能是包含空字符串的数组:

is_empty = F.udf(lambda arr: arr == [''], T.BooleanType())

或者它可能是一个空数组:

is_empty = F.udf(lambda arr: arr == [None], T.BooleanType())

要一次检查所有数据,您可以使用:

is_empty = F.udf(lambda arr: arr in [[], [''], [None]], T.BooleanType())

但实际上,您不需要自定义项,例如,您可以:

df.filter("fruits = array() or fruits = array('') or fruits = array(null)")

相关问题 更多 >