根据列表中的值筛选pyspark数据帧

| id | brand | Count | |:---:|:-------:|:-----:| | 143 | AD-ABC | 3 | | 314 | AX-DEFG | 8 | | 381 | AD-ABC | 6 | | 425 | AD-XYZP | 7 | | 432 | AD-GAF | 8 | | 102 | AD-GAF | 1 | | 331 | AX-ABC | 10 | | 191 | AD-GAF | 9 | | 224 | AD-GAF | 6 |

+-----+---------+-------+--------+ | id | brand | Count | brand2 | +-----+---------+-------+--------+ | 143 | AD-ABC | 3 | ABC | | 314 | AX-DEFG | 8 | DEFG | | 381 | AD-ABC | 6 | ABC | | 425 | AD-XYZP | 7 | XYZP | | 432 | AD-GAF | 8 | GAF | | 102 | AD-GAF | 1 | GAF | | 331 | AX-ABC | 10 | ABC | | 191 | AD-GAF | 9 | GAF | | 224 | AD-GAF | 6 | GAF | +-----+---------+-------+--------+

+-----+---------+-------+--------+ | id | brand | Count | brand2 | +-----+---------+-------+--------+ | 143 | AD-ABC | 3 | ABC | | 381 | AD-ABC | 6 | ABC | | 425 | AD-XYZP | 7 | XYZP | | 331 | AX-ABC | 10 | ABC | +-----+---------+-------+--------+

1条回答

网友

1楼 · 发布于 2024-05-13 13:04:56

拆分brand列并获取第二个元素，然后使用isin检查brand2是否在列表中：

import pyspark.sql.functions as F
brand_subset = ['ABC', 'DEF', 'XYZP']

(df.withColumn("brand2",F.split("brand","-")[1]).where(F.col("brand2")
                                          .isin(brand_subset))).show()

或：

(df.withColumn("brand2",F.split("brand","-")[1]).filter(F.col("brand2")
                                            .isin(brand_subset)).show()

+ -+   -+  -+   +
| id|  brand|Count|brand2|
+ -+   -+  -+   +
|143| AD-ABC|    3|   ABC|
|381| AD-ABC|    6|   ABC|
|425|AD-XYZP|    7|  XYZP|
|331| AX-ABC|   10|   ABC|
+ -+   -+  -+   +

相关问题更多 >

编程相关推荐

热门问题

热门文章