如何从文本文档中找到常用短语 - 问答 - Python中文网

如何从文本文档中找到常用短语

2024-05-19 17:37:56 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有一个包含大量评论/句子的文本文件，我想以某种方式找到文档中重复出现的最常见短语。我试着用NLTK来处理它，我发现了这个线程：How to extract common / significant phrases from a series of text entries

然而，尝试之后，我得到了这样奇怪的结果：

>>> finder.apply_freq_filter(3)
>>> finder.nbest(bigram_measures.pmi, 10)
[('m', 'e'), ('t', 's')]

在另一个文件中，“这很有趣”这个短语很常见，我得到了一个空列表[]。在

我该怎么做？在

以下是我的完整代码：

^{pr2}$

Tags： to from 文档 finder 方式评论 extract common

1条回答

网友

1楼 · 发布于 2024-05-19 17:37:56

我没有使用nltk，但我怀疑问题是from_words接受一个字符串或标记（？）对象。在

类似的东西

with open('MkXVM6ad9nI.txt') as wordfile:
    text = wordfile.read)

tokens = nltk.wordpunct_tokenize(text)
finder = BigramCollocationFinder.from_words(tokens)

可能会工作，尽管可能也有专门的文件API。在

相关问题更多 >

编程相关推荐

热门问题

热门文章