我有一个数据帧,它包含很多重复的值。它的聚合、不同计数如下所示
> df.groupby('fruits').count().sort(F.desc('count')).show()
| fruits | count |
| ----------- | ----------- |
| [Apples] | 123 |
| [] | 344 |
| [Apples, plum]| 444 |
我的目标是筛选值为[Apples]
或[]
的所有行
令人惊讶的是,以下内容适用于非空数组,但对于空数组则不适用
import pyspark.sql.types as T
is_apples = F.udf(lambda arr: arr == ['Apples'], T.BooleanType())
df.filter(is_apples(df.fruits).count() # WORKS! shows 123 correctly.
is_empty = F.udf(lambda arr: arr == [], T.BooleanType())
df.filter(is_empty(df.fruits).count() # Doesn't work! Should show 344 but shows zero.
知道我做错了什么吗
您可以通过检查数组的长度来执行此操作
它可能是包含空字符串的数组:
或者它可能是一个空数组:
要一次检查所有数据,您可以使用:
但实际上,您不需要自定义项,例如,您可以:
相关问题 更多 >
编程相关推荐