泰米尔兰语组块

2024-05-29 05:08:36 发布

您现在位置:Python中文网/ 问答频道 /正文

我想把NLTK chunker用于泰米尔语(一种印度语)。However, it says that it doesn't support Unicode because it uses the 'pre' module for regular expressions.

Unresolved Issues

If we use the re module for regular expressions, Python's regular expression engine generates "maximum recursion depth exceeded" errors when processing very large texts, even for regular expressions that should not require any recursion. We therefore use the pre module instead. But note that pre does not include Unicode support, so this module will not work with unicode strings.

有什么建议可以解决这个问题或者用其他方法来完成它?在


Tags: thesupportforthatuseunicodenotit
2条回答

您可以将LTRCShallow Parser用于泰米尔语。在

你可以查看在线演示,here。在

chunker是特定语言的,所以你无论如何都需要为泰米尔语训练一个。当然,如果你对现成的解决方案感到满意(我不知道是否有,例如,如果现在删除的答案中的链接是好的),你可以停止阅读这里。如果没有,你可以训练你自己,但是你需要一个语料库,上面标注你想要识别的语块:也许你在寻找NP语块(通常情况下),但可能是其他的东西。在

一旦有了带注释的语料库,请仔细阅读NLTK书的第6章和第7章,尤其是section 7.3, Developing and evaluating chunkers.。第7章从nltk的regexp chunker开始,继续阅读,您将看到如何构建一个不依赖nltk基于regexp的分块引擎的“序列分类器”。(Chapter 6对于这一点很重要,所以不要跳过它)。在

这不是一项简单的任务:您需要理解分类器方法,将各个部分组合起来,可能会将您的语料库转换为IOB format,最后选择能够给您带来满意性能的特性。但它非常简单,可以用于任何语言或分块任务,其中您有一个带注释的语料库。唯一开放的部分是想出上下文线索,你可以转换成特征,以帮助分类器正确决定,并进行试验,直到你找到一个好的组合。(从好的方面来说,这是一种比纯基于regexp的解决方案更强大的方法,即使对于ascii文本也是如此)。在

相关问题 更多 >

    热门问题