Python young-tools包_程序模块 - PyPI

杰森杨的工具。

young-tools的Python项目详细描述

年轻工具

这个软件包包含几个有用的工具，其中一些工具处理自然语言处理中的问题。

安装

通过PIP

pip install young-tools

克隆到本地

git clone https://github.com/Jason-Young-NLP/YoungTools.git
cd YoungTools
python setup.py build develop

主框架

底座模块
可执行模块
- 编译程序
- 指标

可执行模式

通过运行commandyoung tools-{module\u name}

到目前为止，Young Tools提供了三种可执行模式：

青年工具语料库
年轻工具Levenshtein
年轻工具XML

编译器

语料库

它是一个语料库编译器，可以通过运行young tools corpus来执行。该命令仅接收包含您设置的所有参数的1个参数-p或--configuration path。配置文件是用一种基本配置语言编写的，它提供了一种类似于Microsoft Windows ini文件的结构。

您必须提供main部分，您应该在其中配置：

管道
语料库目录
语料库名称
语言
编码

每次运行之前，young tools corpus将读取配置路径并解析main部分。young tools corpus可以一次处理多个设置不同的语料库。在main部分中，不同语料库的配置由分隔符分隔。

pipeline表示子语料库编译模块的运行顺序。不同模块的每个名称都由分隔符分隔。如果某个模块的另一个实例具有不同的配置，只需定义一个新的节，该节的名称将附加后缀{index}likemoduel\u name\u 10。module_name必须是子语料库编译器模块的名称之一。

corpus目录指定原始和编译的语料库的位置。

在每个语料库目录中，可能包含多个语料库（语料库名称），并且每个语料库可能有多个语言（语言），其编译的文件编码可以由编码来定义

young tools corpus有5个子语料库编译模块：

清洁剂
它可以删除dumplicate行（remove\u dumplicate行）并将语料库小写（小写）。粒度可以设置为句子或文档。当粒度是文档时，表示文档中每个文档的起点的文档索引是写文档名称+文档索引后缀
规格化器
规范化语料库的标点。
分段器
使用thulac对中文句子进行分段。如果您需要词性标记，请将词性标记的part_设置为true。传统的简化版在某些情况下可能有用。
标记器
标记不同语言的句子，您可能需要将split\u aggressive\u连字符设置为true，将连字符-char转换为@-@。
子词
这是SIM卡多个封装子词nmt。learn_file_index和apply_file_index指示应在语料库名称中学习/应用的语料库的索引，而子词索引指示应由bpe执行的语料库的语言。symbols\u number是合并操作的编号，联合学习是在语料库名称的学习文件索引的子词索引之间是否联合学习bpe

normalizer和tokenizer是mosesdecoder的脚本的重新实现

左旋施泰因
它通过计算levenshtein距离，生成语料库假设和参考文献之间的操作序列，并通过得到对齐假设和参考文献的规则，合成参考文献的假设。这些函数可以通过运行young tools corpus和gen seqs的子命令来执行
 XML 
young tools xml可以将xml文件转换为普通文件，也可以通过分别将子命令指定为xml2plain或scape来转义/deescape文件。
指标
待完成。
底座模型
只需导入底座即可使用
import young_tools.pedestal as pedestal
基座包中每个模块的用法如下所述：
计时器
计时器记录系统/进程经过的时间。
常数
常量是一种类，它存储无限个常量。
实例检查器
InstanceChecker是一个基本的decorator，它可以检查传递给方法的参数是否合法。
ansiformatterAnsiformatter控制ANSI颜色字符串。一个使用这个类来格式化终端输出字符串。
记录器
记录器记录进程的日志并将其发送到日志文件或终端。
参数
参数是argparser的简单封装。
配置程序
configurator是configparser的简单封装，但configurator区分大小写
独角兽手
unicodehandler有几种方法可以处理unicode字符串并检测编码类型。
重定向流
简单的类可以将stdout/stderr流重定向到文件。
标签：
模块
文件
工具
文档
名称
语言
corpus
tools
语料库
young
欢迎加入QQ群-->： 979659372
                                    
推荐PyPI第三方库
punt
监视文件更改，并对更改运行脚本。
borsdata-sdk
博斯达API软件开发包
pylpconcat
PYLP的连接插件
FauxIdent
一个简单的、伪造的ident守护进程
uservice-logging
微服务的日志记录实用程序。
redflask
基于无蓝图烧瓶的restful框架
markdown-notebook
python标记扩展以呈现jupyter输出表示法
py3DSeedEditor
彩色种子的三维浏览与编辑
odoo9-addon-stock-quant-manual-assign
库存-手动数量分配
openerp-l10n-cr
哥斯达黎加-会计
gen_rst_readme
从MD自述生成第一个自述文件。
tinynetrc
读写.netrc文件。
dis3
Python3.5中“dis”模块的Python2.7后端口+
cfutils
色谱文件用途
timeslicer
用于从延时创建时间间隔图像的包

导 航 栏

                                            项目 描述
                                        

                                            版本历史
                                        
项目 链接
首页
                                    
标 签
许可证: BSD许可证（BSD 3条款）
作者信息:: 暂无
                                
                            
维护者

                                  JoooYa
                                
最新PyPI项目
italian_vip_says
UFx
vofs
fake_item_generator
NerEva
django-monologue
fio_product_attribute_strict
climailsystem
pyshape
tbb-devel
npy-append-arra
anthill.tal.macrorenderer
odoo11-addon-stock-a
uuuu
contextil
fyl_nester
appomatic_renderable
teacher
chuletas
slackbot_ce
最新Python常见问题
我是否正确构建了这个递归神经网络
我是否正确理解acquire和realease是如何在python库“线程化”中工作的
我是否正确理解Keras中的批次大小？
我是否正确理解PyTorch的加法和乘法？
我是否正确组织了我的Django应用程序？
我是否正确计算执行时间？如果是这样，那么并行处理将花费更长的时间。这看起来很奇怪
我是否每次创建新项目时都必须在PyCharm中安装numpy？（安装而不是导入）
我是否每次运行jupyter笔记本时都必须重新启动内核？
我是否用python安装了socks模块？
我是否真的需要知道超过一种语言，如果我想要制作网页应用程序？
我是否缺少spaCy柠檬化中的预处理功能？
我是否缺少给定状态下操作的检查？
我是否能够使用函数“count（）”来查找密码中大写字母的数量(（Python）
我是否能够使用用户输入作为colorama模块中的颜色？
我是否能够创建一个能够添加新Django.contrib.auth公司没有登录到管理面板的用户？

young-tools 0.0.2a7

young-tools的Python项目详细描述

年轻工具

安装

主框架

可执行模式

编译器

语料库

XML

指标

底座模型

计时器

常数

实例检查器

Ansiformatter控制ANSI颜色字符串。一个使用这个类来格式化终端输出字符串。

记录器 记录器记录进程的日志并将其发送到日志文件或终端。

参数

配置程序 configurator是configparser的简单封装，但configurator区分大小写

独角兽手 unicodehandler有几种方法可以处理unicode字符串并检测编码类型。

重定向流

推荐PyPI第三方库

punt

borsdata-sdk

pylpconcat

FauxIdent

uservice-logging

redflask

markdown-notebook

py3DSeedEditor

odoo9-addon-stock-quant-manual-assign

openerp-l10n-cr

gen_rst_readme

tinynetrc

dis3

cfutils

timeslicer

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

`计时器`

`常数`

`实例检查器`

记录器
记录器记录进程的日志并将其发送到日志文件或终端。

配置程序
configurator是configparser的简单封装，但configurator区分大小写

独角兽手
unicodehandler有几种方法可以处理unicode字符串并检测编码类型。

导航栏

项目链接

标签