在基于Spark数据帧的API中对多个列进行筛选

2024-03-28 14:50:41 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个像这样的数据帧:

+--------+-------+--------------------+-------------------+
|     id1|    id2|                body|         created_at|
+--------+-------+--------------------+-------------------+
|1       |      4|....................|2017-10-01 00:00:05|
|2       |      3|....................|2017-10-01 00:00:05|
|3       |      2|....................|2017-10-01 00:00:05|
|4       |      1|....................|2017-10-01 00:00:05|
+--------+-------+--------------------+-------------------+

我想使用id1id2来过滤表。例如,获取id1=1, id2=4id1=2, id2=3的行。在

目前,我正在使用loop为df.filter()生成一个巨大的查询字符串,即((id1 = 1) and (id2 = 4)) or ((id1 = 2) and (id2 = 3))。只是想知道有没有更合适的方法来达到这个目的?在


Tags: orand数据方法字符串目的loopdf