如何在stanfordrnlp python包中使用不带音调符号的阿拉伯单词引理?

2024-04-23 20:33:09 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用stanford nlp Python包在一个阿拉伯语句子中应用了标记化和引理化,结果如下:

文本:العراق 引理:عِرَاق
文本:بلد 引理:بَلَد
文本:رائع 引理:رَائِع

我怎样才能去掉单词中的音调符号


Tags: 标记文本nlp符号单词句子stanford音调
1条回答
网友
1楼 · 发布于 2024-04-23 20:33:09

根据github

Blockquote ArabicTokenizer supports various orthographic normalization options that can be configured in ArabicSegmenter using the -orthoOptions flag. The argument to -orthoOptions is a comma-separated list of normalization options. The following options are supported:

...

removeDiacritics : Strip all diacritics

removeTatweel : Strip tatweel elongation character

removeQuranChars : Remove diacritics that appear in the Quran

...

这有用吗

相关问题 更多 >