从数据中删除最常用的单词

2024-04-26 22:36:15 发布

您现在位置:Python中文网/ 问答频道 /正文

我试着处理文本,其中有很多重复。我以前在SKLearn中使用过tf-idf矢量器,它有一个参数max_df=0.5。这意味着如果单词出现在超过50%的输入中,它就不会使用它。我想知道在Python中是否有类似的函数,或者Doc2Vec或NLTK:我想删除数据集中超过50%的单词,而不进行向量化。在

例如,我想从一个数据帧生成:

0 | This is new: A puppy ate cheese! See?
1 | This is new: A cat was found. See?
2 | This is new: Problems arise. See?

这样的输出:

^{pr2}$

我已经完成了去大写和停止字删除,现在我只想删除最常见的单词。我还想存储这些信息,因为可能会有新的输入,我想从新输入中删除那些在原始语料库中频繁出现的单词。在


Tags: 数据函数文本dfnew参数istf
1条回答
网友
1楼 · 发布于 2024-04-26 22:36:15

你可以的

import nltk 
allWords = nltk.tokenize.word_tokenize(text)
allWordDist = nltk.FreqDist(w.lower() for w in allWords) 

其次是

^{pr2}$

在预处理中?在

如果你调查

allWordDist .items()

我想你会找到你需要的一切。在

相关问题 更多 >