自然语言数据加载工具

natlang的Python项目详细描述


natlang:自然语言数据加载工具

主人:Build Status 开发:Build Status

数据加载器/通用数据结构和其他工具

大多数代码与python2/3兼容。 对于特定模块的python版本,请检查 每个源文件。

0个。用法

使用pip安装将获得最新的测试版本natlang

> pip install natlang

或者,也可以使用以下命令从源代码安装:

> python setup.py install

如果要加载数据集,请执行以下操作:

> import natlang as nl
> data = nl.load(filePattern, format=ChoosenFormat)
> # ChoosenFormat here can be an actual imported format or string.
> # Alternatively, you can also pass a loader func in using nl.load(filePatttern, loader=func)

对于并行数据集:

> import natlang as nl
> data = nl.biload(srcPattern, tgtPattern, srcFormat, tgtFormat)
> # Loader option similar to nl.load also applies here. src stands for source, tgt stands for target.

一。格式

所有支持的格式都放在src/format下。 目前正在测试以下格式:

  1. txt:简单文本格式。句子由\n分隔,标记/单词是 用空白隔开。

  2. tree:选区树格式。运行python -i format/tree.py播放 在附近。

  3. semanticFrame:propbank/nombank帧加载器。返回帧束 用于分析。

  4. AMR:抽象意义表示。运行python -i format/AMR.py到 到处玩。

  5. conll:通用conll格式加载程序。默认为conll_.run python -i format/conll.py四处玩耍。

1.1推荐功能

对于支持从文件加载的格式,应该实现load 格式文件中的函数(见2.1)。

对于支持导出的格式,该格式的每个实例都应该 输出字符串的export方法。

2.装载机

2.1单个装载机

每个格式都有自己的加载程序。 它被定义为format.FORMAT.loadload函数具有以下接口:

def load(file, linesToLoad=sys.maxsize)

在测试时,load函数需要解析文件 描述和阅读。 它将以列表的形式返回第一个linesToLoad条目。

例如,如果希望使用“加载选区树”格式的文件(请参见 例如在tests/sampleTree.txt中,可以执行以下操作:

from datatool.format import tree
x = tree.load("datatool/tests/sampleTree.txt")

2.2类ParallelDataLoader

这个类允许以任何格式加载并行语料库(l1,l2)。 可以分别为l1和l2端指定格式。

from datatool.loader import ParallelDataLoader
loader = ParallelDataLoader(srcFormat='txtOrTree', tgtFormat='txtOrTree')

这里,'txtOrTree'srcFormattgtFormat的默认值。 注意,在format文件夹下,除了 格式,也只有加载程序,'txtOrTree'可以处理 无论是tree还是txt

初始化加载程序后,可以继续运行:

loader.load(fFile, eFile, linesToLoad)

加载程序将自动对齐平行文本并输出 元组,每个元组在l1和l2中都包含一个条目。 l1或l2为None或长度为0的条目将被忽略。

三。出口商

用法:

from datatool.exporter import exportToFile, RealtimeExporter

3.1功能exportToFile

导出txt格式数据集或tree格式数据集(不是单个条目,但是 而是一个数据集)。

3.2类RealtimeExporter

代码很简单。 如果一个特定格式的导出功能需要相当长的时间,那么 建议使用方法。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何获得要渲染的纹理   java如何动态确定对象类型的文本的实际类型   java如何用方括号解析参数数组?   java与ECC公钥的长度混淆   JavaLWJGL包括GUI类吗?   java如何打印所有收件箱电子邮件   java在片段中使用RecyclerView而不是活动会导致E/RecyclerView:没有连接适配器;跳过布局错误   为位于系统托盘中的Java程序创建键盘挂钩   使用java将三个json对象合并为一个   java获取范围(x,y)内的随机整数?   java定制primaryStage标题:以图标为中心   命令行无法使用运行java应用程序。jar依赖性“错误:无法找到或加载主类”   java LuaJava编译错误“未解析的外部符号”   如何修复java函数   java文件。Listfile()强制关闭(NullPointerException)   java调试模式在IDEA和Kotlin中停止工作   当使用命名空间STD的C++头文件上运行Sigg时,java丢失分号错误   java如何在使用DBUnit时防止数据删除   找不到java类org/apache/zookeeper/server/NIOServerCnxn$工厂   java无法在上启动jbpmhttp://localhost:8080/businesscentral