我有一个包含大量评论/句子的文本文件,我想以某种方式找到文档中重复出现的最常见短语。我试着用NLTK来处理它,我发现了这个线程:How to extract common / significant phrases from a series of text entries
然而,尝试之后,我得到了这样奇怪的结果:
>>> finder.apply_freq_filter(3)
>>> finder.nbest(bigram_measures.pmi, 10)
[('m', 'e'), ('t', 's')]
在另一个文件中,“这很有趣”这个短语很常见,我得到了一个空列表[]。在
我该怎么做?在
以下是我的完整代码:
^{pr2}$
我没有使用
nltk
,但我怀疑问题是from_words
接受一个字符串或标记(?)对象。在类似的东西
可能会工作,尽管可能也有专门的文件API。在
相关问题 更多 >
编程相关推荐