NLTK布朗语料库标签

2024-04-20 02:31:33 发布

您现在位置:Python中文网/ 问答频道 /正文

当我打印nltk.corpus.brown.tagged_words()时,它会打印大约1161192个元组,其中包含单词及其相关标记。

我想区分不同的词有不同的标记。一个单词可以有多个标记。

append-list-items-by-number-of-hyphens-available/26248255#26248255">Append list items by number of hyphens available我用这个线程尝试了所有的代码,但是我得到的任何单词都不超过3个标记。据我所知,有些单词甚至有8或9个标签。

我的方法哪里错了?如何解决这个问题?我有两个不同的问题:

  1. 如何计算不同标记下语料库中不同词的数量?语料库中有8个不同标记的不同单词的数量。

  2. 再说一次,我想知道有最多不同标记的单词。

而且,我只对文字感兴趣。我正在删除标点符号。


Tags: of标记number数量byitemscorpus单词