没有项目描述

segments的Python项目详细描述


Build StatuscodecovPyPI

DOI

Segments包提供Unicode标准的标记化例程和正字法分段, 实现正交轮廓规范中描述的线性算法 Unicode食谱(Moran and Cysouw 2018DOI)。

命令行用法

创建文本文件:

$ echo "aäaaöaaüaa" > text.txt

现在请查看配置文件:

$ cat text.txt | segments profile
Grapheme        frequency       mapping
a       7       a
ä       1       ä
ü       1       ü
ö       1       ö

将配置文件写入文件:

$ cat text.txt | segments profile > profile.prf

编辑配置文件:

$ more profile.prf
Grapheme        frequency       mapping
aa      0       x
a       7       a
ä       1       ä
ü       1       ü
ö       1       ö

现在标记不带配置文件的文本:

$ cat text.txt | segments tokenize
a ä a a ö a a ü a a

以及配置文件:

$ cat text.txt | segments --profile=profile.prf tokenize
a ä aa ö aa ü aa

$ cat text.txt | segments --mapping=mapping --profile=profile.prf tokenize
a ä x ö x ü x

API

>>>from__future__importunicode_literals,print_function>>>fromsegmentsimportProfile,Tokenizer>>>t=Tokenizer()>>>t('abcd')'a b c d'>>>prf=Profile({'Grapheme':'ab','mapping':'x'},{'Grapheme':'cd','mapping':'y'})>>>print(prf)Graphememappingabxcdy>>>t=Tokenizer(profile=prf)>>>t('abcd')'ab cd'>>>t('abcd',column='mapping')'x y'

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java在EclipseIndigo上安装新的Glassfish服务器   java打印组织的最短方法是什么。w3c。多姆。文件发送到stdout?   安卓 java。lang.NullPointerException:尝试在oncreate方法中的null对象引用上调用virtual方法   linux java,我的线程无一例外地终止了,为什么?   JSON和Lombok构造函数的java问题Jackson反序列化   Spring引导升级后,java无法实例化自定义库的数据源   输入Kotlin中Java Scanner的等价物是什么?   列表vs数组作为java中递归的参数   创建名为“FilterService”的bean时发生java错误:通过字段“filterDAO”表示的未满足的依赖关系   如何在Java(基本上是Android)中将指纹图像的字节数组转换为iso 19794_2?   java如何使用基本适配器单击每个位置   java如何更新数据库显示消息“您的数据库已更新,没有任何错误,但实际上我的数据库未更新”   不同比例的安卓屏幕设备的java程序   java Android For循环,全局静态列表与本地列表