如何从文本文档中找到常用短语

2024-05-19 17:37:56 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个包含大量评论/句子的文本文件,我想以某种方式找到文档中重复出现的最常见短语。我试着用NLTK来处理它,我发现了这个线程:How to extract common / significant phrases from a series of text entries

然而,尝试之后,我得到了这样奇怪的结果:

>>> finder.apply_freq_filter(3)
>>> finder.nbest(bigram_measures.pmi, 10)
[('m', 'e'), ('t', 's')]

在另一个文件中,“这很有趣”这个短语很常见,我得到了一个空列表[]。在

我该怎么做?在

以下是我的完整代码:

^{pr2}$

Tags: tofrom文档finder方式评论extractcommon
1条回答
网友
1楼 · 发布于 2024-05-19 17:37:56

我没有使用nltk,但我怀疑问题是from_words接受一个字符串或标记(?)对象。在

类似的东西

with open('MkXVM6ad9nI.txt') as wordfile:
    text = wordfile.read)

tokens = nltk.wordpunct_tokenize(text)
finder = BigramCollocationFinder.from_words(tokens)

可能会工作,尽管可能也有专门的文件API。在

相关问题 更多 >