没有项目描述
segments的Python项目详细描述
段
Segments包提供Unicode标准的标记化例程和正字法分段, 实现正交轮廓规范中描述的线性算法 Unicode食谱(Moran and Cysouw 2018)。
命令行用法
创建文本文件:
$ echo "aäaaöaaüaa" > text.txt
现在请查看配置文件:
$ cat text.txt | segments profile
Grapheme frequency mapping
a 7 a
ä 1 ä
ü 1 ü
ö 1 ö
将配置文件写入文件:
$ cat text.txt | segments profile > profile.prf
编辑配置文件:
$ more profile.prf
Grapheme frequency mapping
aa 0 x
a 7 a
ä 1 ä
ü 1 ü
ö 1 ö
现在标记不带配置文件的文本:
$ cat text.txt | segments tokenize
a ä a a ö a a ü a a
以及配置文件:
$ cat text.txt | segments --profile=profile.prf tokenize
a ä aa ö aa ü aa
$ cat text.txt | segments --mapping=mapping --profile=profile.prf tokenize
a ä x ö x ü x
API
>>>from__future__importunicode_literals,print_function>>>fromsegmentsimportProfile,Tokenizer>>>t=Tokenizer()>>>t('abcd')'a b c d'>>>prf=Profile({'Grapheme':'ab','mapping':'x'},{'Grapheme':'cd','mapping':'y'})>>>print(prf)Graphememappingabxcdy>>>t=Tokenizer(profile=prf)>>>t('abcd')'ab cd'>>>t('abcd',column='mapping')'x y'