2024-04-25 10:26:13 发布
网友
我有一个pyspark.sql.dataframe.DataFrame,我想保留(过滤)我的一列(称为text)有超过10个单词的所有行
pyspark.sql.dataframe.DataFrame
我试过了 df = df.filter(len(df.text.split())>10)但这会引发一个异常
df = df.filter(len(df.text.split())>10)
我该怎么做才对呢? 非常感谢
使用来自pyspark.sql.functions的split和size函数:
split
size
df.filter(size(split(col('text'), ' ')) > 10).show()
使用来自pyspark.sql.functions的
split
和size
函数:相关问题 更多 >
编程相关推荐