当列文本包含超过10个字时筛选pyspark数据帧

2024-04-25 10:26:13 发布

您现在位置：Python中文网/ 问答频道 /正文

6334

网友

男 | 程序猿一只，喜欢编程写python代码。

我有一个pyspark.sql.dataframe.DataFrame，我想保留（过滤）我的一列（称为text）有超过10个单词的所有行

我试过了 df = df.filter(len(df.text.split())>10)但这会引发一个异常

我该怎么做才对呢？非常感谢

Tags： text dataframe df sql len filter 单词 pyspark

1条回答

网友

1楼 · 发布于 2024-04-25 10:26:13

使用来自pyspark.sql.functions的split和size函数：

df.filter(size(split(col('text'), ' ')) > 10).show()

编程相关推荐

在Java中设置SMPP服务器
java如何使用Apache Santuario xmlsec库加密/解密（旧版本）
java如何使用double数组生成forloop？
java如何使用SwingWorker避免冻结GUI
java我面临一个问题，即在recycler视图中设置数据，我已经测试过数据来自API
java如何在php中显示http_post？
从php页面中的java DataOutputStream接收输出
java如何使用swing打印jframe？
处理json和表单参数的JavaSpringMVC方法
java在一个大的二维数组中存储布尔值

热门问题

是什么导致导入库时出现这种延迟？
7 个回答
是什么导致导入时提交大内存
5 个回答
是什么导致导入错误：“没有名为modules的模块”？
1 个回答
是什么导致局部变量引用错误？
3 个回答
是什么导致循环中的属性错误以及如何解决此问题
11 个回答
是什么导致我使用kivy的代码内存泄漏？
10 个回答
是什么导致我在python2.7中的代码中出现这种无意的无限循环？
3 个回答
是什么导致我的ATLAS工具在尝试构建时失败？
1 个回答
是什么导致我的Brainfuck transpiler的输出C文件中出现中止陷阱？
2 个回答
是什么导致我的Django文件上载代码内存峰值？
8 个回答
是什么导致我的json文件在添加kivy小部件后重置？
5 个回答
是什么导致我的python 404检查脚本崩溃/冻结？
9 个回答
是什么导致我的Python脚本中出现这种无效语法错误？
3 个回答
是什么导致我的while循环持续时间延长到12分钟？
1 个回答
是什么导致我的代码膨胀文本文件的大小？
1 个回答
是什么导致我的函数中出现“ValueError:cannot convert float NaN to integer”
4 个回答
是什么导致我的安跑的时间大大减少了？
8 个回答
是什么导致我的延迟触发，除了添加回调、启动反应器和连接端点之外什么都没做？
11 个回答
是什么导致我的条件[Python]中出现缩进错误
3 个回答
是什么导致我的游戏有非常低的fps
3 个回答

当列文本包含超过10个字时筛选pyspark数据帧

相关问题更多 >

编程相关推荐

热门问题

热门文章

当列文本包含超过10个字时筛选pyspark数据帧

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >