Pyspark基于languag过滤行

2条回答

网友

1楼 · 编辑于 2024-04-20 04:39:51

@ags29谢谢你的建议。在

答案如下：

在通过读取上面提到的文件来创建数据帧之后，我们必须用一些值替换空值，在本例中，我将其替换为NA。在

InfoWoNull = Info.fillna({'Comments':'NA'})

然后，使用ORD函数创建UDF以查找字符串中每个字符的ASCII值。输出将是整数数组。在

^{pr2}$

创建过滤器函数，根据大于127的ASCII字符过滤出值。在

def russian_filter(x):
for index in range(len(x)):
    if x[index] > 127:
    return True
return False

filter_udf = F.udf(russian_filter, BooleanType())

在下面的最后一步中使用它。在

Info_rus = InfoWoNull.filter(filter_udf(russ_ord('SearchParams')) == 'true')
Info_rus.show()

网友

2楼 · 编辑于 2024-04-20 04:39:51

这还没有经过测试，但以下几点应该是可行的：

from pyspark.sql.functions import udf
from pyspark.sql.types import IntegerType

# create user defined function from ord
spark_ord=udf(lambda x: ord(x), IntegerType())

Info=Info.withColumn('ord', spark_ord('Comments'))
Info=Info.filter('ord<128')

基本上，要将ord函数用于数据帧，您需要一个用户定义的函数。您尝试的方法需要RDD，而不是DataFrame

相关问题更多 >

编程相关推荐

热门问题

热门文章

Pyspark基于languag过滤行

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >