Pyspark NLP - CountVectorizer最大DF或TF。如何从数据中过滤常见的出现。 - 问答

1条回答

网友

1楼 · 发布于 2024-06-16 11:35:56

我想您需要CountVectorizer参数，但现在看来还没有该参数。这不是一个简单或实用的方法来做它在一个简单的，但它是有效的。我希望这对你有帮助：

from pyspark.sql.types import *
from pyspark.sql import functions as F

df = spark.createDataFrame(
[(0, ["a", "b", "c","b"]), (1, ["a", "b", "b", "c", "a"])],
["label", "raw"])

counts_df = df \
    .select(F.explode('raw').alias('testCol')) \
    .groupby('testCol') \
    .agg(F.count('testCol').alias('count')).persist() # this will be used multiple times

total = counts_df \
    .agg(F.sum('count').alias('total')) \
    .rdd.take(1)[0]['total']
min_times = 3
max_times = total * 0.4
filtered_elements = counts_df \
    .filter((min_times>F.col('count')) | (F.col('count')>max_times)) \
    .select('testCol') \
    .rdd.map(lambda row: row['testCol']) \
    .collect()

def removeElements(arr):
    return list(set(arr) - set(filtered_elements))

remove_udf = F.udf(removeElements, ArrayType(StringType()))
filtered_df = df \
    .withColumn('raw', remove_udf('raw'))

结果：

^{pr2}$

Pyspark NLP - CountVectorizer最大DF或TF。如何从数据中过滤常见的出现。

相关问题更多 >

编程相关推荐

热门问题

热门文章

Pyspark NLP - CountVectorizer最大DF或TF。如何从数据中过滤常见的出现。

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >