2024-04-28 05:42:41 发布
网友
如何使用Python从文章或用户帖子中选择标记?在
以下方法可以吗?在
从文本中建立词频列表并对其进行排序。
删除一些常见的单词,并选择列表中保留的前10个单词作为标记。
如果上面的方法是正确的,什么库可以检测出哪些词是常见的,比如“the,If,you,etc”,哪些是描述性词?在
Natural Language Toolkit为这类内容提供了多种方法。我不能给你实际的建议,因为我不熟悉这个主题,但我认为在你开始之前,先读一些关于这个主题的articles是值得的:直接从文本中挑选单词不会让你走得太远,我想,你应该试着找到与那些已经存在的标签相似的单词。当然,你需要过滤掉语言中常见的单词,比如“the”之类的。同样,这个Python库可以帮助您实现这一点,至少对于一些通用语言来说是这样。在
我建议你。在那里你可以看到很多真实世界的帖子,带有适当的标签,来测试不同的标签选择算法。在
但总的来说,我怀疑这会不会太好。对于你自己的问题,“单词”是单词数的最大赢家,后面是一个单词列表,每个单词出现两次,比如“common”、“list”、“method”、“pick”和“tags”。你会自动选择哪一个作为标签?另外,您手动选择的标记包含“python”和“context”,它们都不会以较高的词频出现。在
这是一篇关于removing stop words的文章。到文章中停止词列表的链接已断开,但是here's another one。在
Natural Language Toolkit为这类内容提供了多种方法。我不能给你实际的建议,因为我不熟悉这个主题,但我认为在你开始之前,先读一些关于这个主题的articles是值得的:直接从文本中挑选单词不会让你走得太远,我想,你应该试着找到与那些已经存在的标签相似的单词。当然,你需要过滤掉语言中常见的单词,比如“the”之类的。同样,这个Python库可以帮助您实现这一点,至少对于一些通用语言来说是这样。在
我建议你。在那里你可以看到很多真实世界的帖子,带有适当的标签,来测试不同的标签选择算法。在
但总的来说,我怀疑这会不会太好。对于你自己的问题,“单词”是单词数的最大赢家,后面是一个单词列表,每个单词出现两次,比如“common”、“list”、“method”、“pick”和“tags”。你会自动选择哪一个作为标签?另外,您手动选择的标记包含“python”和“context”,它们都不会以较高的词频出现。在
这是一篇关于removing stop words的文章。到文章中停止词列表的链接已断开,但是here's another one。在
相关问题 更多 >
编程相关推荐