从数据中删除最常用的单词

2024-04-26 22:36:15 发布

男 | 程序猿一只，喜欢编程写python代码。

我试着处理文本，其中有很多重复。我以前在SKLearn中使用过tf-idf矢量器，它有一个参数max_df=0.5。这意味着如果单词出现在超过50%的输入中，它就不会使用它。我想知道在Python中是否有类似的函数，或者Doc2Vec或NLTK：我想删除数据集中超过50%的单词，而不进行向量化。在

例如，我想从一个数据帧生成：

0 | This is new: A puppy ate cheese! See?
1 | This is new: A cat was found. See?
2 | This is new: Problems arise. See?

这样的输出：

^{pr2}$

我已经完成了去大写和停止字删除，现在我只想删除最常见的单词。我还想存储这些信息，因为可能会有新的输入，我想从新输入中删除那些在原始语料库中频繁出现的单词。在

Tags：数据函数文本 df new 参数 is tf

1条回答

网友

1楼 · 发布于 2024-04-26 22:36:15

你可以的

import nltk 
allWords = nltk.tokenize.word_tokenize(text)
allWordDist = nltk.FreqDist(w.lower() for w in allWords)

其次是

^{pr2}$

在预处理中？在

如果你调查

allWordDist .items()

我想你会找到你需要的一切。在

从数据中删除最常用的单词

相关问题更多 >

编程相关推荐

热门问题

热门文章

从数据中删除最常用的单词

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >