没有项目描述

segments的Python项目详细描述


Build StatuscodecovPyPI

DOI

Segments包提供Unicode标准的标记化例程和正字法分段, 实现正交轮廓规范中描述的线性算法 Unicode食谱(Moran and Cysouw 2018DOI)。

命令行用法

创建文本文件:

$ echo "aäaaöaaüaa" > text.txt

现在请查看配置文件:

$ cat text.txt | segments profile
Grapheme        frequency       mapping
a       7       a
ä       1       ä
ü       1       ü
ö       1       ö

将配置文件写入文件:

$ cat text.txt | segments profile > profile.prf

编辑配置文件:

$ more profile.prf
Grapheme        frequency       mapping
aa      0       x
a       7       a
ä       1       ä
ü       1       ü
ö       1       ö

现在标记不带配置文件的文本:

$ cat text.txt | segments tokenize
a ä a a ö a a ü a a

以及配置文件:

$ cat text.txt | segments --profile=profile.prf tokenize
a ä aa ö aa ü aa

$ cat text.txt | segments --mapping=mapping --profile=profile.prf tokenize
a ä x ö x ü x

API

>>>from__future__importunicode_literals,print_function>>>fromsegmentsimportProfile,Tokenizer>>>t=Tokenizer()>>>t('abcd')'a b c d'>>>prf=Profile({'Grapheme':'ab','mapping':'x'},{'Grapheme':'cd','mapping':'y'})>>>print(prf)Graphememappingabxcdy>>>t=Tokenizer(profile=prf)>>>t('abcd')'ab cd'>>>t('abcd',column='mapping')'x y'

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java JPA。Eclipselink没有为mySQL提供密码,但它应该提供   我的Servlet和@FormDataParam存在java问题   java将什么作为上下文参数传递到文件I/O方法中?   如果两个值相同,java无法找到其中一个单选按钮   java在变量和方法名中使用下划线   JavaSpringMVC单线程安全?   klazz类的java Arraylist(反射Api)   java如何在数字字符串中查找最频繁的数字?   JavaAPI设计:使数据更易于阅读与强制更多API调用   JavaHadoopMapReduceforGoogleWebGraph   java无法启动gauge API:Runner意外退出   java如何在bluemix上使用ibm工作负载调度器?   拉取一年中某一周特定日期的所有日期   java为什么是我的角节点。js应用程序将图像上传到S3� 邮递员正确上传时的符号?   在不使用任何第三方jar的情况下将文件从本地传输到linux系统(java代码)   java将现有文件夹复制到Eclipse工作区中新创建的项目中   Java中的regex RegExp帮助   当使用“系统”外观时,Java组合框setSelectedItem会出现故障   JavaASM:在类的方法中获取局部变量名和值