文本中最常用的词，不包括一定长度的词

2条回答

网友

1楼 · 编辑于 2024-04-26 20:56:39

Counter只是一个字典，所以我们可以使用dict理解来过滤我们需要的结果：

{ k: v for k, v in most_common.items() if v > 5 }

网友

2楼 · 编辑于 2024-04-26 20:56:39

如果“短于5”的意思是“少于5个字符长”，您可以将regex更改为不首先返回这些单词，使用{5,}（五个或更多）而不是+（一个或多个）：

words = re.findall(r'\w{5,}', open('some_poem.txt').read().lower())

下面的不是你想要的，而是取决于你真正想要的，它可能更有用，得到一个^{cd3>}的stop words并从单词列表中筛选出来，因为很可能有少于5个字母的“相关”单词，而有更多字母的不相关单词。你知道吗

stop_words = set("a,able,about,across,...,you,your".split(","))
words = re.findall(r'\w+', open('some_poem.txt').read().lower())
words = [word for word in words if word not in stop_words]

此外，为了完整起见，如注释中所述，您应该养成习惯，使用with打开文件，以确保文件在之后正确关闭。你知道吗

with open('some_poem.txt') as f:
    words = re.findall(r'\w{5,}', f.read().lower())

相关问题更多 >

编程相关推荐

热门问题

热门文章

文本中最常用的词，不包括一定长度的词

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >