如何过滤pyspark数据帧

+----------+-------------+-------+--------------------+--------------+---+ |purch_date| purch_class|tot_amt| serv-provider|purch_location| id| +----------+-------------+-------+--------------------+--------------+---+ |03/11/2017|Uncategorized| -17.53| HOVER | | 0| |02/11/2017| Groceries| -70.05|1774 MAC'S CONVEN...| BRAMPTON | 1| |31/10/2017|Gasoline/Fuel| -20| ESSO | | 2| |31/10/2017| Travel| -9|TORONTO PARKING A...| TORONTO | 3| |30/10/2017| Groceries| -1.84| LONGO'S # 2| | 4|

2条回答

网友

1楼 · 编辑于 2024-05-23 17:03:32

您可以使用df["purch_location"]

df = spark.read.csv("/some/path/to/file", sep=',')
df = df.filter(df["purch_location"] == "BRAMPTON")

网友

2楼 · 编辑于 2024-05-23 17:03:32

如果坚持使用反斜杠，可以执行以下操作：

from pyspark.sql.functions import col

df = spark.read.csv('/some/path/to/file', sep=',') \
     .filter(col('purch_location') == 'BRAMPTON')

第一次尝试失败，因为括号不平衡

此外，字符串BRAMPTON后面似乎有一些空格，因此您可能希望首先trim列：

from pyspark.sql.functions import col, trim

df = spark.read.csv('/some/path/to/file', sep=',') \
     .filter(trim(col('purch_location')) == 'BRAMPTON')

相关问题更多 >

编程相关推荐

热门问题

热门文章