计算文档中的标记

2条回答

网友

1楼 · 编辑于 2024-04-26 20:34:27

假设你说下面的方法行得通

s = df.Text.str.split(expand=True).stack().value_counts()

那你就可以了

s[s>=15].index

获取至少有15个计数的令牌

但是，第一行没有给出与nltk.word_tokenize相同的标记化。如果需要后者的输出，可以将第一行替换为：

s = df.Text.apply(lambda row: word_tokenize(row)).explode().value_counts()

从您的示例数据中可以得出以下信息：

Have               1
you                1
what               1
a                  1
Describe           1
've                1
non-programming    1
tried              1
some               1
code               1
?                  1
links              1
Show               1
helpful            1
More               1
question           1
Name: Text, dtype: int64

网友

2楼 · 编辑于 2024-04-26 20:34:27

您可以使用计数器集合执行所需操作，然后仅使用根据限制筛选的单词创建辅助列表。以限制2为例，检查以下代码：

from collections import Counter
test_list = ["test", "test", "word", "hello"]

counter = Counter(test_list)
filtered_counter = {k:v for k, v in counter.items() if v >= 2}

相关问题更多 >

编程相关推荐

热门问题

热门文章

计算文档中的标记

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >