Python sdgym包_程序模块 - PyPI

一种非时态表格式数据综合生成器性能的测试框架

sdgym的Python项目详细描述

sdgym 麻省理工学院从数据到人工智能实验室的开源项目。

SDGym-合成数据健身房

许可证：麻省理工学院
文档：https://dai-lab.github.io/sdgym/" rel="nofollow">https://dai-lab.github.io/sdgym/
主页：https://github.com/dai-lab/sdgym" rel="nofollow">https://github.com/dai-lab/sdgym

概述

synthetic data gym（sdgym）是一个测试合成数据生成器性能的框架对于非时态表格数据。SDGym基于一篇论文，该论文使用条件建模表格数据 gan，该项目是人工智能数据的一部分。麻省理工学院的实验室

合成器的基准测试是由合成器。然后，对每一对真实和合成数据进行多重评分。

什么是合成器功能？

为了使用sdgym，您需要一个合成器功能。这是一个函数，它接受一个包含真实数据的numpy矩阵作为输入，并输出另一个numpy 用合成数据填充相同形状的矩阵。

此外，除了实际数据之外，还有一些其他变量通知列内容将被传递，这意味着函数的确切签名如下：

defmy_synthesizer_function(real_data:numpy.ndarray,categorical_columns:list,ordinal_columns:list)->syntehtesized_data:numpy.ndarray

如果您的合成器实现了不同的接口，您可以将其包装成这样的函数：

defmy_synthesizer_function(real_data,categorical_columns,ordinal_columns):# ...do all necessary steps here...returnsynthesized_data

此函数应包含使用合成器，并调用它根据实际数据生成新的合成数据，即正在通过。

你的合成器应该使用什么数据？

如前一节所述，sdgym的主要输入是基准化的，预期是一个函数，它具有作为唯一输入和输出的数据：

合成器功能的输入应为：

真实数据:2dnumpy.ndarray合成器将尝试模拟真实数据。
分类列:a列表包含应考虑的任何列的索引根据类型独立分类。
序数列：a列表包含应视为序数值。

输出应该是单个2dnumpy.ndarray与真实数据的形状完全相同矩阵<＜P>

`基准数据集`

用于基准测试的所有数据集都可以在sgdym s3 bucket中找到。以.npznumpy矩阵存档和包含信息的.json元数据文件的形式关于数据集结构及其列。

为了以相同的格式加载这些数据集，它们将被传递给合成器函数您可以使用sdgym.loadataset函数传递要加载的数据集的名称。

在本例中，我们将加载成人数据集：

fromsdgymimportload_datasetdata,categorical_columns,ordinal_columns=load_dataset('adult')

这将返回一个numpy矩阵，其中包含将传递给合成器函数的数据，以及分类列和序号列的索引列表：

>>>dataarray([[2.70000e+01,0.00000e+00,1.77119e+05,...,4.40000e+01,0.00000e+00,0.00000e+00],[2.70000e+01,0.00000e+00,2.16481e+05,...,4.00000e+01,0.00000e+00,0.00000e+00],[2.50000e+01,0.00000e+00,2.56263e+05,...,4.00000e+01,0.00000e+00,0.00000e+00],...,[4.50000e+01,0.00000e+00,2.07540e+05,...,4.00000e+01,0.00000e+00,1.00000e+00],[5.10000e+01,0.00000e+00,1.80807e+05,...,4.00000e+01,0.00000e+00,0.00000e+00],[6.10000e+01,4.00000e+00,1.86451e+05,...,4.00000e+01,0.00000e+00,1.00000e+00]],dtype=float32)>>>categorical_columns[1,5,6,7,8,9,13,14]>>>ordinal_columns[3]

`演示合成器`

为了开始使用基准测试工具，已经包含了一些演示合成器在图书馆里。

这些合成器是可以从sdgym.synthesizers模块导入的类，并且以下方法：

fit：在数据上匹配合成器。需要以下参数：数据（numpy.ndarray）：二维numpy矩阵，包含要学习的实际数据。分类列（列表或元组）：数据集中分类列的索引列表。序号列（列表或元组）：数据集中序号列的索引列表。
sample：生成与原始数据集相似的新数据。需要以下参数： n_samples（int）：要生成的样本数。
fit_sample：适合数据集上的合成器，然后采样数据集中的所有行原始数据集。它需要与fit方法相同的参数，并且可以直接传递到基准函数以评估合成器性能。

有关如何使用它们的完整示例，请参见下面的"用法"部分。

`安装`

`要求`

sdgym已经在python 3.5和3.6上开发和测试

此外，尽管不是严格要求，但使用avirtualenv 强烈建议使用，以避免干扰系统中安装的其他软件在运行sdgym的地方。

以下是使用python3.6为sdgym创建virtualenv所需的最少命令：

pip install virtualenv
virtualenv -p $(which python3.6) sdgym-venv

之后，必须执行此命令才能激活virtualenv：

source sdgym-venv/bin/activate

记住每次启动一个新的控制台来处理sdgym时都要执行它！

`使用PIP安装`

创建并激活virtualenv之后，我们建议使用 pip以便安装sdgym：

pip install sdgym

这将从pypi中拉取并安装最新的稳定版本。

`从源安装`

或者，激活virtualenv后，可以克隆存储库并从通过在stable分支上运行make install进行源代码：

git clone git@github.com:DAI-Lab/SDGym.git
cd SDGym
git checkout stable
make install

`安装用于开发`

如果您想对项目做出贡献，则需要执行一些步骤来准备项目为了发展。

首先，请转到项目的github页面并通过单击页面的右上角。

然后，克隆fork并从master创建一个具有描述性名称的分支，该名称包括您要处理的问题的编号：

git clone git@github.com:{your username}/SDGym.git
cd SDGym
git branch issue-xx-cool-new-feature master
git checkout issue-xx-cool-new-feature

最后，使用以下命令安装项目，该命令将安装一些代码行和测试的依赖关系。

defmy_synthesizer_function(real_data:numpy.ndarray,categorical_columns:list,ordinal_columns:list)->syntehtesized_data:numpy.ndarray

0
确保在开发时定期使用它们，方法是运行命令make lint和
进行测试
< H2>编译C++依赖项为了能够对我们从SDCype中获取所有特性，用C++编写的一些依赖项需要
编译。
为此：
确保安装了所有必要的依赖项来编译C++。在Linux发行版中
基于ubuntu，这可以通过以下命令来完成：< > >defmy_synthesizer_function(real_data:numpy.ndarray,categorical_columns:list,ordinal_columns:list)->syntehtesized_data:numpy.ndarray1
执行：
< > >defmy_synthesizer_function(real_data:numpy.ndarray,categorical_columns:list,ordinal_columns:list)->syntehtesized_data:numpy.ndarray2
用法
基准
要使用sdgym基准，只需导入并调用sdgym.benchmark
将合成器函数传递给它的函数：
defmy_synthesizer_function(real_data:numpy.ndarray,categorical_columns:list,ordinal_columns:list)->syntehtesized_data:numpy.ndarray
3
基准函数的输出将是包含所有分数的pd.dataframe
由不同的评估者计算：
defmy_synthesizer_function(real_data:numpy.ndarray,categorical_columns:list,ordinal_columns:list)->syntehtesized_data:numpy.ndarray
4
使用演示合成器
要使用sdgym中包含的合成器类，需要执行以下步骤：
从sdgym.synthesizers导入合成器类
< > >defmy_synthesizer_function(real_data:numpy.ndarray,categorical_columns:list,ordinal_columns:list)->syntehtesized_data:numpy.ndarray5
创建合成器的实例，传递任何需要的参数。在这种情况下，我们将使用
可以在没有初始化参数的情况下实例化的独立合成器：
< > >defmy_synthesizer_function(real_data:numpy.ndarray,categorical_columns:list,ordinal_columns:list)->syntehtesized_data:numpy.ndarray6
加载一些数据以适合您的合成器。在这种情况下，我们将加载成人
数据集：
< > >fromsdgymimportload_datasetdata,categorical_columns,ordinal_columns=load_dataset('adult')
调用其fit方法传递数据以及分类列和顺序列的列表：
< > >defmy_synthesizer_function(real_data:numpy.ndarray,categorical_columns:list,ordinal_columns:list)->syntehtesized_data:numpy.ndarray8
调用其sample方法，传递要采样的行数：
< > >defmy_synthesizer_function(real_data:numpy.ndarray,categorical_columns:list,ordinal_columns:list)->syntehtesized_data:numpy.ndarray9
这将返回一个包含与原始数据相同列的sampeld数据的numpy矩阵，并且
我们要求的行数：
defmy_synthesizer_function(real_data,categorical_columns,ordinal_columns):# ...do all necessary steps here...returnsynthesized_data0
对演示合成器进行基准测试
简单地评估任何演示合成器的性能：
创建合成器实例：
< > >defmy_synthesizer_function(real_data:numpy.ndarray,categorical_columns:list,ordinal_columns:list)->syntehtesized_data:numpy.ndarray6
将实例的fit_sample方法传递给benchmark函数作为
合成器功能：
< > >defmy_synthesizer_function(real_data,categorical_columns,ordinal_columns):# ...do all necessary steps here...returnsynthesized_data2
接下来是什么？< >有关sdgym及其所有可能性和功能的详细信息，请查看
文档站点
在那里你可以了解更多
如何为sdgym做出贡献
以帮助我们开发新功能或新创意。
相关项目
 SDV
对于synthetic data vault，sdv是
在hdi项目下合成开发中的数据。
sdv允许您使用copulas（一个简单的api）轻松地建模和采样关系数据集。
其他功能包括个人身份信息的匿名化（PII）和保存
采样记录上的关系完整性。
tgan
tgan是一个基于gan的表格数据合成模型。
它也是由麻省理工学院的人工智能实验室数据开发的。
积极发展。
历史记录
V0.1.0-2019-08-07
pypi的第一个版本
标签：
columns
数据
numpy
框架
data
格式
性能
ndarray
时态
欢迎加入QQ群-->： 979659372
                                    
推荐PyPI第三方库
py-efs-mounter
装载和卸载到EFS
gluish
路易吉助手。
dawa-facade
Danmarks Adressers Web API的Python客户端
osgeo4w-installer
下载osgeo4w发行版并在其python解释器上安装软件包的工具
swing
配置切换器的环境变量灵感来自common lisp的envy
dash_callback_chain
显示回调链的Dash组件
nesterOu
一个简单的嵌套列表打印机
vaex-astro
天文学相关转换和fits文件支持
email-bundle
applauncher的电子邮件支持
ldapper
蟒蛇LDAP接口
isadoraazevedo-pypi
使用python发行版
oneoppa
嵌套列表的简单打印机
pNbod
PNBody模块
hlmm
异方差线性（混合）模型与遗传数据的拟合函数
py-applescript
用于nsapplescript的易于使用的python包装器，允许python脚本与applescripts和applescriptable应用程序通信。

导 航 栏

                                            项目 描述
                                        

                                            版本历史
                                        

                                                下载文件
                                            
项目 链接
首页
                                    
标 签
许可证: BSD许可证（BSD 3条款）
作者信息:: 暂无
                                
                            
维护者

                                  mit_dai_lab
                                
最新PyPI项目
italian_vip_says
UFx
vofs
fake_item_generator
NerEva
django-monologue
fio_product_attribute_strict
climailsystem
pyshape
tbb-devel
npy-append-arra
anthill.tal.macrorenderer
odoo11-addon-stock-a
uuuu
contextil
fyl_nester
appomatic_renderable
teacher
chuletas
slackbot_ce
最新Python常见问题
如何在Excel中读取公式并将其转换为Python中的计算？
如何在excel中读取嵌入的excel，并将嵌入文件中的信息存储在主excel文件中？
如何在Excel中返回未知列长度的非空顶行列值？
如何在excel中选择数据列？
如何在Excel中通过脚本自动为一列中的所有单元格创建公共别名
如何在excel中高效格式化范围AttributeError:“tuple”对象没有属性“fill”
如何在excel单元格中编写python函数
如何在excel单元格中自动执行此python代码？
如何在excel工作表中创建具有相应值的新列
如何在Excel工作表中复制条件为单元格颜色的python数据框？
如何在Excel工作表中循环
如何在excel工作表中打印嵌套词典？
如何在excel工作表中绘制所有类的继承树？
如何在Excel工作表中自动调整列宽？
如何在excel工作表中追加并进一步处理

sdgym 0.1.0

sdgym的Python项目详细描述

SDGym-合成数据健身房

概述

什么是合成器功能？

你的合成器应该使用什么数据？

基准数据集

演示合成器

安装

要求

使用PIP安装

从源安装

安装用于开发

用法

基准

使用演示合成器

对演示合成器进行基准测试

接下来是什么？< >有关sdgym及其所有可能性和功能的详细信息，请查看 文档站点在那里你可以了解更多 如何为sdgym做出贡献 以帮助我们开发新功能或新创意。

相关项目

SDV

tgan

历史记录

V0.1.0-2019-08-07

推荐PyPI第三方库

py-efs-mounter

gluish

dawa-facade

osgeo4w-installer

swing

dash_callback_chain

nesterOu

vaex-astro

email-bundle

ldapper

isadoraazevedo-pypi

oneoppa

pNbod

hlmm

py-applescript

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题