一个[Getting]Wonderfull包,用于预处理波斯语文本以进行搜索、标准化和NLP过程

persianutils的Python项目详细描述



persianutils

a\[获取]Wonderfull软件包,用于预处理波斯语文本进行搜索、标准化和NLP过程





波斯语有很多重复的阿拉伯字符,但有不同的Unicode码位。这可能会导致一个单词的书写方式不同,显示方式几乎完全相同。除此之外,文本中也可以使用字符的上下文形式,这不会改变单词的形状,但会造成上述问题。不幸的是,许多非标准的波斯语键盘不遵守这些规则,这使得问题更加严重。
这个包有助于使您的波斯语文本成为标准文本,使用原始波斯语字符。

将阿拉伯字符替换为对应的波斯语字符。就像从波斯尼亚人那里输入alef_maksura```到从波斯尼亚人那里输入'````一样。波斯尼亚人那里输入ye```

2。移除_、_和&;等tanveen


3。将字符的上下文形式替换为其原始形式。例如“__”到“_”。


4。将西方和东方的数字替换为波斯语对应的数字。``` 2```到```````

示例:

````


将波斯土作为pu导入
已处理的文本=pu.标准化(原始文本)
打印(已处理的文本)

`````

,这将导致:

````




````



standardize4word2vec()具有以下特点:

1。与standard()相同。与standard()2

3相同。与standard()3

4相同。将所有数字(东方、西方和波斯语)替换为波斯语文字。``` 2 ``到``到``到``到````

5。用单个空格替换所有标点符号。刺穿是:```[!”#%\'()*+,-./:;<;=>;?@\[\]^ `{{}~''''''\\]` `

示例:

```

```



处理后的文本=pu.标准化4word2vec(原始文本)
打印(处理后的文本)

````

这将导致:

````


```
可从`````````````````````````````````````````



```````







`````,be,pe,te


`````````````````````````````````````>







欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java使用prepared语句在oracle中插入日期   对点具有双重值的java   使用多个通配符的java请求映射   java Springboot为什么要设置springbootstartertomcat   除了对JavaBean的请求之外,还使用servletContext的servlet   java如何清除OCSID。返回到池的连接时的CLIENTID JDBC客户端信息属性   将整型数组转换为光栅Java   java使用对象引用作为互斥锁   java为什么在编程语言中使用sin函数返回奇怪的sin值不像计算器   java如何将JButton链接到对象并调用相关方法   php用Java发送POST数据   导航属性的java模拟加载   java多个活动错误Android试图对空对象引用调用虚拟方法“”   java Android更改ActionBar文本颜色   如何使用带有java反射且不带开关的parant引用创建子类