一个[Getting]Wonderfull包,用于预处理波斯语文本以进行搜索、标准化和NLP过程

persianutils的Python项目详细描述



persianutils

a\[获取]Wonderfull软件包,用于预处理波斯语文本进行搜索、标准化和NLP过程





波斯语有很多重复的阿拉伯字符,但有不同的Unicode码位。这可能会导致一个单词的书写方式不同,显示方式几乎完全相同。除此之外,文本中也可以使用字符的上下文形式,这不会改变单词的形状,但会造成上述问题。不幸的是,许多非标准的波斯语键盘不遵守这些规则,这使得问题更加严重。
这个包有助于使您的波斯语文本成为标准文本,使用原始波斯语字符。

将阿拉伯字符替换为对应的波斯语字符。就像从波斯尼亚人那里输入alef_maksura```到从波斯尼亚人那里输入'````一样。波斯尼亚人那里输入ye```

2。移除_、_和&;等tanveen


3。将字符的上下文形式替换为其原始形式。例如“__”到“_”。


4。将西方和东方的数字替换为波斯语对应的数字。``` 2```到```````

示例:

````


将波斯土作为pu导入
已处理的文本=pu.标准化(原始文本)
打印(已处理的文本)

`````

,这将导致:

````




````



standardize4word2vec()具有以下特点:

1。与standard()相同。与standard()2

3相同。与standard()3

4相同。将所有数字(东方、西方和波斯语)替换为波斯语文字。``` 2 ``到``到``到``到````

5。用单个空格替换所有标点符号。刺穿是:```[!”#%\'()*+,-./:;<;=>;?@\[\]^ `{{}~''''''\\]` `

示例:

```

```



处理后的文本=pu.标准化4word2vec(原始文本)
打印(处理后的文本)

````

这将导致:

````


```
可从`````````````````````````````````````````



```````







`````,be,pe,te


`````````````````````````````````````>







欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
Java程序运行时错误   JavaAndroidStudio:与往常一样,四舍五入到next.5或.0   apache使用Java以表单数据形式上载文件   带矢量的java Freeflight相机如何正确旋转?   java如何以编程方式检索有关当前项目的语言、操作系统、体系结构等信息   java Twitter4J tweet实体?   java PdfBox编码异常   java在拖动未装饰的舞台时,如何强制光标停留在窗口上   JavaSpring注释扫描优化   java无法通过IntelliJ Idea在tomcat上运行服务   java在生命周期中如何拦截请求?   java中的数组返回错误