词性标注是确定性的吗？

2条回答

网友

1楼 · 编辑于 2024-06-01 00:21:22

我尽力从一个不使用整个棕色语料库的人那里了解未发现的this：

Note that words that the tagger has not seen before, such as decried, receive a tag of None.

所以，我想看起来像ae1.111的东西一定会出现在语料库文件中，但不会出现ae0.842。这有点奇怪，但这就是给出-NONE-标记的原因。在

编辑：我非常好奇，downloaded the Brown corpus我自己，在里面搜索了纯文本。数字111出现了34次，而数字842只出现了4次。842只出现在美元金额的中间或是一年的最后3位数字，而{}则多次作为页码出现。775也作为页码出现一次。在

所以，我要做一个猜想，因为Benford's Law，你最终匹配以1、2、3开头的数字比以8或9开头的数字要频繁得多，因为这些通常是书中引用的随机页的页码。我真的很想知道这是不是真的（当然，我自己也不感兴趣！）。在

网友

2楼 · 编辑于 2024-06-01 00:21:22

“确定性”是指同一个句子每次使用相同的算法以相同的方式进行标记，但是由于你的单词不在nltk的数据中（事实上，甚至不是真实句子中的真实单词），它将使用一些算法来推断标记是什么。这意味着，当单词改变时，你可以有不同的标记（即使改变的数字和你一样不同），而且这些标记无论如何都没有什么意义。在

这让我想知道你为什么要在非自然语言结构中使用NLP。在