用python的NLTK计算动词、名词和其他词类

1条回答

网友

1楼 · 发布于 2024-06-01 03:33:50

pos_tag方法返回（标记、标记）对的列表：

tagged = [('the', 'DT'), ('dog', 'NN'), ('sees', 'VB'), ('the', 'DT'), ('cat', 'NN')]

如果您使用的是Python2.7或更高版本，那么您只需使用：

>>> from collections import Counter
>>> counts = Counter(tag for word,tag in tagged)
>>> counts
Counter({'DT': 2, 'NN': 2, 'VB': 1})

要使计数正常化（给出每个计数的比例），请执行以下操作：

>>> total = sum(counts.values())
>>> dict((word, float(count)/total) for word,count in counts.items())
{'DT': 0.4, 'VB': 0.2, 'NN': 0.4}

注意，在较旧版本的Python中，您必须自己实现Counter：

>>> from collections import defaultdict
>>> counts = defaultdict(int)
>>> for word, tag in tagged:
...  counts[tag] += 1

>>> counts
defaultdict(<type 'int'>, {'DT': 2, 'VB': 1, 'NN': 2})

编程相关推荐

java如何使用文件路径获取文件位置？
java XPath从某个元素后的元素获取文本
具有多个名称空间的JavaDOM
使用hibernate在表别名处出现java意外令牌错误
springdatajpa中的java交叉连接
在firebase中循环时使用java空指针
如何使用java驱动程序执行mongodb getShardDistribution（）
swing Java GUI在另一个方法的新窗口中显示文本
java如何使用Google Guava为每个新地图条目设置不同的过期超时？
在视图寻呼机中将数据从活动传递到片段时，找不到id片段的java视图

相关问题更多 >

编程相关推荐

热门问题

热门文章

用python的NLTK计算动词、名词和其他词类

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >