我使用CountVectorizer
为ML准备一个数据集。我想过滤掉稀有单词,并使用CountVectorizer
、minDF或minTF的参数。我还想删除数据集中“经常”出现的项。我看不到可以设置的maxTF或maxDF参数。有什么好办法吗?在
df = spark.createDataFrame(
[(0, ["a", "b", "c","b"]), (1, ["a", "b", "b", "c", "a"])],
["label", "raw"])
所以在本例中,如果我想删除出现“4”次或40%的参数,以及出现2次或更少的参数。这将删除“b”和“c”。在
目前,我运行CountVectorizer(minDf=3......)
作为下限请求。如何筛选出出现频率超过我想要的模型的项目。在
我想您需要CountVectorizer参数,但现在看来还没有该参数。这不是一个简单或实用的方法来做它在一个简单的,但它是有效的。我希望这对你有帮助:
结果:
^{pr2}$相关问题 更多 >
编程相关推荐