我试着处理文本,其中有很多重复。我以前在SKLearn中使用过tf-idf矢量器,它有一个参数max_df=0.5
。这意味着如果单词出现在超过50%的输入中,它就不会使用它。我想知道在Python中是否有类似的函数,或者Doc2Vec或NLTK:我想删除数据集中超过50%的单词,而不进行向量化。在
例如,我想从一个数据帧生成:
0 | This is new: A puppy ate cheese! See?
1 | This is new: A cat was found. See?
2 | This is new: Problems arise. See?
这样的输出:
^{pr2}$我已经完成了去大写和停止字删除,现在我只想删除最常见的单词。我还想存储这些信息,因为可能会有新的输入,我想从新输入中删除那些在原始语料库中频繁出现的单词。在
你可以的
其次是
^{pr2}$在预处理中?在
如果你调查
我想你会找到你需要的一切。在
相关问题 更多 >
编程相关推荐