杰森杨的工具。
young-tools的Python项目详细描述
年轻工具
这个软件包包含几个有用的工具,其中一些工具处理自然语言处理中的问题。
安装
- 通过PIP
pip install young-tools
- 克隆到本地
git clone https://github.com/Jason-Young-NLP/YoungTools.git
cd YoungTools
python setup.py build develop
主框架
- 底座模块
- 可执行模块
- 编译程序
- 指标
可执行模式
通过运行commandyoung tools-{module\u name}
到目前为止,Young Tools提供了三种可执行模式:
- 青年工具语料库
- 年轻工具Levenshtein
- 年轻工具XML
编译器
语料库
它是一个语料库编译器,可以通过运行young tools corpus
来执行。该命令仅接收包含您设置的所有参数的1个参数-p
或--configuration path
。配置文件是用一种基本配置语言编写的,它提供了一种类似于Microsoft Windows ini文件的结构。
您必须提供main
部分,您应该在其中配置:
管道
语料库目录
语料库名称
语言
编码
每次运行之前,young tools corpus
将读取配置路径
并解析main
部分。young tools corpus
可以一次处理多个设置不同的语料库。在main
部分中,不同语料库的配置由分隔符分隔。
pipeline
表示子语料库编译模块的运行顺序。不同模块的每个名称都由分隔符分隔。如果某个模块的另一个实例具有不同的配置,只需定义一个新的节,该节的名称将附加后缀{index}
likemoduel\u name\u 10
。module_name必须是子语料库编译器模块的名称之一。
corpus目录
指定原始和编译的语料库的位置。
在每个语料库目录中,可能包含多个语料库(
语料库名称
),并且每个语料库可能有多个语言(语言
),其编译的文件编码可以由编码
来定义
young tools corpus
有5个子语料库编译模块:
清洁剂
它可以删除dumplicate行(
remove\u dumplicate行
)并将语料库小写(小写
)。粒度
可以设置为句子或文档。当粒度
是文档时,表示文档中每个文档的起点的文档索引是写文档名称
+文档索引后缀
规格化器
规范化语料库的标点。
分段器
使用thulac对中文句子进行分段。如果您需要词性标记,请将
词性标记的part_设置为true。
传统的简化版
在某些情况下可能有用。标记器
标记不同语言的句子,您可能需要将
split\u aggressive\u连字符设置为true,将连字符
-
char转换为@-@
。子词
这是SIM卡多个封装子词nmt。
learn_file_index
和apply_file_index
指示应在语料库名称中学习/应用的语料库的索引,而
子词索引
指示应由bpe执行的语料库的语言。symbols\u number
是合并操作的编号,联合学习
是在语料库名称的
学习文件索引的
子词索引之间是否联合学习bpe
normalizer和tokenizer是mosesdecoder的脚本的重新实现
左旋施泰因
它通过计算levenshtein距离,生成语料库假设和参考文献之间的操作序列,并通过得到对齐假设和参考文献的规则,合成参考文献的假设。这些函数可以通过运行young tools corpus
和gen seqs
的子命令来执行
XML
young tools xml
可以将xml文件转换为普通文件,也可以通过分别将子命令指定为xml2plain
或scape
来转义/deescape文件。
指标
待完成。
底座模型
只需导入 计时器记录系统/进程经过的时间。 常量是一种类,它存储无限个常量。 InstanceChecker是一个基本的decorator,它可以检查传递给方法的参数是否合法。 Ansiformatter控制ANSI颜色字符串。一个使用这个类来格式化终端输出字符串。 记录器记录进程的日志并将其发送到日志文件或终端。 参数是argparser的简单封装。 configurator是configparser的简单封装,但configurator区分大小写 unicodehandler有几种方法可以处理unicode字符串并检测编码类型。 简单的类可以将stdout/stderr流重定向到文件。底座即可使用
import young_tools.pedestal as pedestal
基座
包中每个模块的用法如下所述:计时器
常数
实例检查器
ansiformatter
记录器
参数
配置程序
独角兽手
重定向流
推荐PyPI第三方库