使用Python从上下文自动选取标记

2024-04-28 05:42:41 发布

您现在位置:Python中文网/ 问答频道 /正文

如何使用Python从文章或用户帖子中选择标记?在

以下方法可以吗?在

  1. 从文本中建立词频列表并对其进行排序。

  2. 删除一些常见的单词,并选择列表中保留的前10个单词作为标记。

如果上面的方法是正确的,什么库可以检测出哪些词是常见的,比如“the,If,you,etc”,哪些是描述性词?在


Tags: the方法用户标记文本you列表if
3条回答

Natural Language Toolkit为这类内容提供了多种方法。我不能给你实际的建议,因为我不熟悉这个主题,但我认为在你开始之前,先读一些关于这个主题的articles是值得的:直接从文本中挑选单词不会让你走得太远,我想,你应该试着找到与那些已经存在的标签相似的单词。当然,你需要过滤掉语言中常见的单词,比如“the”之类的。同样,这个Python库可以帮助您实现这一点,至少对于一些通用语言来说是这样。在

我建议你。在那里你可以看到很多真实世界的帖子,带有适当的标签,来测试不同的标签选择算法。在

但总的来说,我怀疑这会不会太好。对于你自己的问题,“单词”是单词数的最大赢家,后面是一个单词列表,每个单词出现两次,比如“common”、“list”、“method”、“pick”和“tags”。你会自动选择哪一个作为标签?另外,您手动选择的标记包含“python”和“context”,它们都不会以较高的词频出现。在

这是一篇关于removing stop words的文章。到文章中停止词列表的链接已断开,但是here's another one。在

相关问题 更多 >