如果文本列包含指定lis中的单词，则筛选pyspark数据帧

2条回答

网友

1楼 · 编辑于 2024-05-14 23:17:46

我认为filter不起作用，因为它需要lambda函数的布尔输出，而isin只与列进行比较。您正在尝试将单词列表与单词列表进行比较。我试着给你一些指导-

# prepare some test data ==> 

words = [x.lower() for x in ['starbucks', 'Nvidia', 'IBM', 'Dell']]
data = [['i love Starbucks'],['dell laptops rocks'],['help me I am stuck!']]
df = spark.createDataFrame(data).toDF('text')


from pyspark.sql.types import *

def intersect(row):
    # convert each word in lowecase
    row = [x.lower() for x in row.split()]
    return True if set(row).intersection(set(words)) else False


filterUDF = udf(intersect,BooleanType())
df.where(filterUDF(df.text)).show()

输出：

+------------------+
|              text|
+------------------+
|  i love Starbucks|
|dell laptops rocks|
+------------------+

网友

2楼 · 编辑于 2024-05-14 23:17:46

您的.filter返回一个错误，因为它是dataframes上的sql filter函数（需要BooleanType()列），而不是rdd上的filter函数。如果要使用RDD，只需添加.rdd：

small_DF.rdd.filter(lambda x: any(word in x.text for word in test_list))

您不必使用UDF，您可以在pyspark中使用正则表达式，列上有.rlike：

from pyspark.sql import HiveContext
hc = HiveContext(sc)
import pyspark.sql.functions as psf

words = [x.lower() for x in ['starbucks', 'Nvidia', 'IBM', 'Dell']]
data = [['i love Starbucks'],['dell laptops rocks'],['help me I am stuck!']]
df = hc.createDataFrame(data).toDF('text')
df.filter(psf.lower(df.text).rlike('|'.join(words)))

相关问题更多 >

编程相关推荐

热门问题

热门文章

如果文本列包含指定lis中的单词，则筛选pyspark数据帧

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >