我是否应该为命名实体识别提取域名词？

2条回答

网友

1楼 · 编辑于 2024-05-26 07:45:17

你的问题其实只有一个答案：两种方法都试，测试（在你没有用于培训的数据上），然后选择最有效的。在

一般来说，最好的方法取决于域，取决于训练数据的数量，等等，试试看吧。没有人能确切地预测它。在

网友

2楼 · 编辑于 2024-05-26 07:45:17

我可能不是最有资格回答这个问题的人，但从我看来，这取决于你的目标。我使用NLTK对我的文本执行词干分析，以减少我的总词汇量（创建文档向量并根据其内容比较文档）。我还以词干命名实体，例如"Al Bundy"和{}可以被识别为同一事物。但是我看到了在你的同义词中添加词干版本的风险。考虑以下示例：

"ferry names": [
    {
      "stena line": [
        "stena line",
        "stena",
        "sten"     # Supposed to represent a stemmed version of Stena
      ]
    },

如果你要进入"sten"、"stenar"、"stenarna"，或者任何其他词根可能是"sten"的单词，你就有问题了。它将被识别为"Stena Line"。希望有帮助。：）

相关问题更多 >

编程相关推荐

热门问题

热门文章

我是否应该为命名实体识别提取域名词？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >