我正在努力学习如何用NLTK标记西班牙语单词。
从nltk book中,使用英语单词的示例标记它们是相当容易的。因为我对nltk和所有语言处理都不熟悉,所以我对如何处理感到困惑。
我已经下载了cess_esp
语料库。有没有办法在nltk.pos_tag
中指定一个语料库。我查看了pos_tag
文档,没有看到任何暗示我可以的东西。我觉得我遗漏了一些关键概念。我需要在cess-esp语料库中手动标记文本中的单词吗?(我所说的手动是指标记我的哨兵,并在语料库中运行它)或者我完全偏离了目标。谢谢你
Tags:
首先,您需要从语料库中读取标记的句子。NLTK提供了一个很好的界面,不用担心来自不同语料库的不同格式;您只需使用语料库对象函数来访问数据即可导入语料库。见http://nltk.googlecode.com/svn/trunk/nltk_data/index.xml。
然后您必须选择标记器并训练标记器。有更多花哨的选择,但你可以从N-gram标记开始。
然后你可以用标记器来标记你想要的句子。下面是一个示例代码:
在一个大的语料库上训练一个标记可能需要很长时间。不是每次需要时都训练一个标记器,而是将一个经过训练的标记器保存在一个文件中以便以后重用。
请查看http://nltk.googlecode.com/svn/trunk/doc/book/ch05.html中存储标记符的部分
下面的脚本为您提供了一个快速的方法来获取西班牙语句子中的“单词包”。请注意,如果要正确执行此操作,必须在标记前标记句子,因此“religiosas.”必须用两个标记“religiosas”分隔
给出:
根据前面答案中的教程,这里有一个来自意大利面条标记器的更面向对象的方法:https://github.com/alvations/spaghetti-tagger
相关问题 更多 >
编程相关推荐