如何使用多语言POS标记解决问题

2024-04-19 14:54:47 发布

您现在位置:Python中文网/ 问答频道 /正文

我希望尽可能多地为不同的语言制作词性标记,但我知道它的局限性,所以如果它适用于一些流行语言,如德语、西班牙语、法语、英语等,那就太好了

首先,我想在python中使用nltk和一些额外的语料库来训练某些语言的标记者,但我发现没有太多的可能性,当然,我只找到了一些西班牙语和英语的语料库。然后我找到了TreeTagger和RDRPOSTTagger,但是这些帖子和文章都很旧,特别是关于第一个(TreeTagger)

也许我应该用python编写自己的Tagger? 你推荐什么?这两个(TreeTagger和rdrposttager)是如何工作的?我可以在Python3中使用它吗

我的目标只是做词性标注,然后将某些词性提取到列表或文件中(通常是一些单独的组),我不打算做进一步的分析。我只想按词性排序。 现在你推荐什么


Tags: 标记语言文章可能性tagger帖子python3语料库