Python natlang包_程序模块 - PyPI

自然语言数据加载工具

natlang的Python项目详细描述

natlang：自然语言数据加载工具

主人：开发：

数据加载器/通用数据结构和其他工具

大多数代码与python2/3兼容。对于特定模块的python版本，请检查每个源文件。

0个。用法

使用pip安装将获得最新的测试版本natlang。

> pip install natlang

或者，也可以使用以下命令从源代码安装：

> python setup.py install

如果要加载数据集，请执行以下操作：

> import natlang as nl
> data = nl.load(filePattern, format=ChoosenFormat)
> # ChoosenFormat here can be an actual imported format or string.
> # Alternatively, you can also pass a loader func in using nl.load(filePatttern, loader=func)

对于并行数据集：

> import natlang as nl
> data = nl.biload(srcPattern, tgtPattern, srcFormat, tgtFormat)
> # Loader option similar to nl.load also applies here. src stands for source, tgt stands for target.

一。格式

所有支持的格式都放在src/format下。目前正在测试以下格式：

txt：简单文本格式。句子由\n分隔，标记/单词是用空白隔开。
tree：选区树格式。运行python -i format/tree.py播放在附近。
semanticFrame：propbank/nombank帧加载器。返回帧束用于分析。
AMR：抽象意义表示。运行python -i format/AMR.py到到处玩。
conll：通用conll格式加载程序。默认为conll_.run python -i format/conll.py四处玩耍。

1.1推荐功能

对于支持从文件加载的格式，应该实现load 格式文件中的函数（见2.1）。

对于支持导出的格式，该格式的每个实例都应该输出字符串的export方法。

2.装载机

2.1单个装载机

每个格式都有自己的加载程序。它被定义为format.FORMAT.load。 load函数具有以下接口：

def load(file, linesToLoad=sys.maxsize)

在测试时，load函数需要解析文件描述和阅读。它将以列表的形式返回第一个linesToLoad条目。

例如，如果希望使用“加载选区树”格式的文件（请参见例如在tests/sampleTree.txt中，可以执行以下操作：

from datatool.format import tree
x = tree.load("datatool/tests/sampleTree.txt")

2.2类`ParallelDataLoader`

这个类允许以任何格式加载并行语料库（l1，l2）。可以分别为l1和l2端指定格式。

from datatool.loader import ParallelDataLoader
loader = ParallelDataLoader(srcFormat='txtOrTree', tgtFormat='txtOrTree')

这里，'txtOrTree'是srcFormat和tgtFormat的默认值。注意，在format文件夹下，除了格式，也只有加载程序，'txtOrTree'可以处理无论是tree还是txt。

初始化加载程序后，可以继续运行：

loader.load(fFile, eFile, linesToLoad)

加载程序将自动对齐平行文本并输出元组，每个元组在l1和l2中都包含一个条目。 l1或l2为None或长度为0的条目将被忽略。

三。出口商

用法：

from datatool.exporter import exportToFile, RealtimeExporter

3.1功能`exportToFile`

导出txt格式数据集或tree格式数据集（不是单个条目，但是而是一个数据集）。

3.2类`RealtimeExporter`

代码很简单。如果一个特定格式的导出功能需要相当长的时间，那么建议使用方法。

欢迎加入QQ群-->： 979659372

natlang 0.3a29

natlang的Python项目详细描述

natlang：自然语言数据加载工具

0个。用法

一。格式

1.1推荐功能

2.装载机

2.1单个装载机

2.2类`ParallelDataLoader`

三。出口商

3.1功能`exportToFile`

3.2类`RealtimeExporter`

推荐PyPI第三方库

keras-bert-tpu

redis-event-tracker

pygcrypt

odoo11-addon-stock-picking-purchase-propagate

pdftabextract

OpenGLContext_qt

raspador

astrotoyz

PyKat

osssdk

facturae

mastercard-api-core-py3

sgdhfdhfjjfk

sli4server

fts3-rest-A

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

natlang 0.3a29

natlang的Python项目详细描述

natlang：自然语言数据加载工具

0个。用法

一。格式

1.1推荐功能

2.装载机

2.1单个装载机

2.2类ParallelDataLoader

三。出口商

3.1功能exportToFile

3.2类RealtimeExporter

推荐PyPI第三方库

keras-bert-tpu

redis-event-tracker

pygcrypt

odoo11-addon-stock-picking-purchase-propagate

pdftabextract

OpenGLContext_qt

raspador

astrotoyz

PyKat

osssdk

facturae

mastercard-api-core-py3

sgdhfdhfjjfk

sli4server

fts3-rest-A

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

2.2类`ParallelDataLoader`

3.1功能`exportToFile`

3.2类`RealtimeExporter`

导航栏

项目链接

标签