使用Python自动从上下文中选择标签
我怎么能用Python从一篇文章或用户的帖子中提取标签呢?
下面这个方法可以吗?
先从文本中统计每个单词出现的频率,然后把它们排序。
去掉一些常见的词,然后从剩下的词中选出前10个作为标签。
如果这个方法可以的话,有什么库可以帮我识别哪些词是常见词,比如“the, if, you”等等,哪些是描述性词呢?
5 个回答
2
我建议你去下载Stack Overflow的数据包。里面有很多真实的帖子,还有合适的标签,可以用来测试不同的标签选择算法。
不过我觉得效果可能不会太好。就你自己的问题来看,“words”这个词的出现次数明显最多,接下来是一些出现两次的词,比如“common”、“list”、“method”、“pick”和“tags”。你会自动选择其中哪个作为标签呢?而且你手动选择的标签里有“python”和“context”,但这些词的出现频率并不高。