仅保留领域特定关键词?

5 投票
2 回答
1143 浏览
提问于 2025-04-17 05:32

我想找出我收藏的某类文档中最常用的关键词。假设这个领域是“计算机科学”(当然,这里面还包括网络、计算机架构等)。我想知道有什么好的方法可以从文本中保留这些特定领域的关键词。我试过使用Wordnet,但不太清楚怎么用它来提取这些信息。

有没有什么知名的词汇表可以作为白名单,因为我并不知道所有特定领域的关键词?或者有没有什么好的自然语言处理(NLP)或机器学习的方法来识别这些领域特定的关键词?

2 个回答

3

我用过一些简单的语言模型(LMs,1, 3),在类似的任务上取得了一些成功。这些模型可以把特定文档中的词汇和一般文档中的词汇分开。它们比tf-idf统计方法更强大,但在使用时需要设置一个参数。

你可以在这里找到我的Python实现这里;使用时,把每个主题下的所有文档合并成一个文档,然后从不同的主题中构建一个ParsimoniousLM,接着就可以获取每个文档的.top(K)词汇。

6

你需要一大堆文档来进行训练。这个文档集合中要有一小部分(但仍然要是一个很大的文档集)能够代表你所关注的领域。可以使用nltk这个工具来计算单词的统计数据,记得要考虑到词形变化,并且过滤掉一些常见的无用词。一个好的统计方法是TF*IDF,这个值大致是某个单词在你关注的文档集合中出现的次数,除以这个单词在整个文档集合中出现的文档数量。关键词就是那些TF*IDF值最高的单词。

撰写回答