当我打印nltk.corpus.brown.tagged_words()
时,它会打印大约1161192个元组,其中包含单词及其相关标记。
我想区分不同的词有不同的标记。一个单词可以有多个标记。
append-list-items-by-number-of-hyphens-available/26248255#26248255">Append list items by number of hyphens available我用这个线程尝试了所有的代码,但是我得到的任何单词都不超过3个标记。据我所知,有些单词甚至有8或9个标签。
我的方法哪里错了?如何解决这个问题?我有两个不同的问题:
如何计算不同标记下语料库中不同词的数量?语料库中有8个不同标记的不同单词的数量。
再说一次,我想知道有最多不同标记的单词。
而且,我只对文字感兴趣。我正在删除标点符号。
目前没有回答
相关问题 更多 >
编程相关推荐