Python persianutils包_程序模块 - PyPI

一个[Getting]Wonderfull包，用于预处理波斯语文本以进行搜索、标准化和NLP过程

persianutils的Python项目详细描述

persianutils

a\[获取]Wonderfull软件包，用于预处理波斯语文本进行搜索、标准化和NLP过程

波斯语有很多重复的阿拉伯字符，但有不同的Unicode码位。这可能会导致一个单词的书写方式不同，显示方式几乎完全相同。除此之外，文本中也可以使用字符的上下文形式，这不会改变单词的形状，但会造成上述问题。不幸的是，许多非标准的波斯语键盘不遵守这些规则，这使得问题更加严重。
这个包有助于使您的波斯语文本成为标准文本，使用原始波斯语字符。

将阿拉伯字符替换为对应的波斯语字符。就像从波斯尼亚人那里输入alef_maksura```到从波斯尼亚人那里输入'````一样。波斯尼亚人那里输入ye```

2。移除_、_和&；等tanveen

3。将字符的上下文形式替换为其原始形式。例如“__”到“_”。

4。将西方和东方的数字替换为波斯语对应的数字。``` 2```到```````

示例：

````

将波斯土作为pu导入
已处理的文本=pu.标准化（原始文本）
打印（已处理的文本）

`````

，这将导致：

````

````

standardize4word2vec（）具有以下特点：

1。与standard（）相同。与standard（）2

3相同。与standard（）3

4相同。将所有数字（东方、西方和波斯语）替换为波斯语文字。``` 2 ``到``到``到``到````

5。用单个空格替换所有标点符号。刺穿是：```[！”#%\'（）*+，-./：；<；=>；？@\[\]^ `{{}~''''''\\]` `

示例：

```

```

处理后的文本=pu.标准化4word2vec（原始文本）
打印（处理后的文本）

````

这将导致：

````

```
可从`````````````````````````````````````````

```````

`````，be，pe，te

`````````````````````````````````````>

欢迎加入QQ群-->： 979659372

persianutils 0.1.2

persianutils的Python项目详细描述

推荐PyPI第三方库

python-greeklish

appomatic_cms_tagging

logicmonitor

octopus-ci

aiokraken

qth-darksk

dash-color-picker

lando-util

einindex

graphite

firewatch

onetoken-trade-system

which-fonts-support

runjob

vapour_linux_amd64

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

persianutils 0.1.2

persianutils的Python项目详细描述

推荐PyPI第三方库

python-greeklish

appomatic_cms_tagging

logicmonitor

octopus-ci

aiokraken

qth-darksk

dash-color-picker

lando-util

einindex

graphite

firewatch

onetoken-trade-system

which-fonts-support

runjob

vapour_linux_amd64

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签