一个[Getting]Wonderfull包,用于预处理波斯语文本以进行搜索、标准化和NLP过程
persianutils的Python项目详细描述
persianutils
a\[获取]Wonderfull软件包,用于预处理波斯语文本进行搜索、标准化和NLP过程
波斯语有很多重复的阿拉伯字符,但有不同的Unicode码位。这可能会导致一个单词的书写方式不同,显示方式几乎完全相同。除此之外,文本中也可以使用字符的上下文形式,这不会改变单词的形状,但会造成上述问题。不幸的是,许多非标准的波斯语键盘不遵守这些规则,这使得问题更加严重。
这个包有助于使您的波斯语文本成为标准文本,使用原始波斯语字符。
将阿拉伯字符替换为对应的波斯语字符。就像从波斯尼亚人那里输入alef_maksura```到从波斯尼亚人那里输入'````一样。波斯尼亚人那里输入ye```
2。移除_、_和&;等tanveen
3。将字符的上下文形式替换为其原始形式。例如“__”到“_”。
4。将西方和东方的数字替换为波斯语对应的数字。``` 2```到```````
示例:
````
将波斯土作为pu导入
已处理的文本=pu.标准化(原始文本)
打印(已处理的文本)
`````
,这将导致:
````
````
standardize4word2vec()具有以下特点:
1。与standard()相同。与standard()2
3相同。与standard()3
4相同。将所有数字(东方、西方和波斯语)替换为波斯语文字。``` 2 ``到``到``到``到````
5。用单个空格替换所有标点符号。刺穿是:```[!”#%\'()*+,-./:;<;=>;?@\[\]^ `{{}~''''''\\]` `
示例:
```
```
处理后的文本=pu.标准化4word2vec(原始文本)
打印(处理后的文本)
````
这将导致:
````
```
可从`````````````````````````````````````````
```````
`````,be,pe,te
`````````````````````````````````````>