Python datapackage-pipelines-fiscal包_程序模块 - PyPI

数据包管道的财务数据包扩展

datapackage-pipelines-fiscal的Python项目详细描述

财政数据包管道

数据包管道的扩展，用于将财务数据包加载到：

S3（或兼容）存储器，非标准化形式
规范化的数据库。
元数据将通过操作系统包注册表存储在ElasticSearch实例（如果可用）中
还将生成一个babbage模型并将其写入数据包中，以便使用其api查询数据库

此扩展可用于自定义源规范和一组处理器。生成器将把源规范转换为一组相互依赖的管道，当按顺序运行时，这些管道将执行数据处理并加载到选定的端点（基于环境变量）。

此扩展由操作系统导体和操作系统数据导入器使用。

环境变量

dpp_db_engine-用于将数据转储到SQL数据库的连接字符串

elasticsearch_address[可选]-elasticsearch实例的连接字符串（用于包注册表更新）

s3_bucket_name[可选]-用于上载数据的s3 bucket。如果没有提供，将创建本地zip文件。

aws_access_key_id-s3凭证（如果指定了s3 bucket，则为必需）

aws_secret_access_key-s3凭证（如果指定了s3 bucket，则为必需）

依赖关系

为了完全运行财务数据包流，您需要安装os type，使用npm:

$npm install-g操作系统类型

此external node.js实用程序用于对已处理的数据包执行财务建模。

财政部.来源-规范.yaml

每个源规范都包含有关单个财务数据包的信息。

顶级属性是：

`标题`

数据包的标题或显示名称

`数据集名称`[可选]

用作数据包名称的段塞。

如果没有提供，将使用标题的重读版本。

`资源名称`[可选]

在最终数据包中用作主要资源名称的段塞。

如果未提供，则将使用数据集名称。

`所有者ID`

此数据包所有者的ID。

此标识符用于生成各种路径和存储名称。

`来源`

包含财政数据包的非空数据源列表。

每个数据源都具有以下属性：

url：数据的位置
名称：[可选]此源的名称（稍后将用作中间资源名称）

其他制表符参数也可以添加为此处的属性，例如工作表，编码，压缩等。

`字段`

包含财务数据包字段的非空列表。

每个字段定义都具有以下属性：

标题：结果资源中字段的名称。
标题[可选]：结果资源中字段的显示名称
columntype：字段的columntype。
选项：要添加到字段的额外选项，例如json表模式属性，如小数字符等。

`测量值`[可选]

用于度量标准化处理的额外信息。（度量值规范化是将度量值的数量减少到一个，同时将行数相乘并添加额外列以包含用于标识原始度量值的值的过程）。

包含以下子属性：

货币：输出度量值列的货币代码
标题[可选]：输出度量值列的标题
映射：取消激活映射。

取消激活映射是从度量值的名称到其取消激活数据的映射。

"unpivoting data"是从额外列的名称到值的映射

示例：

measures:currency:GTQmapping:APPROVED:PHASE_ID:"0"PHASE:InicialRELEASED:PHASE_ID:"1"PHASE:VigenteCOMMITTED:PHASE_ID:"2"PHASE:Comprometido

货币[可选]：要转换为的货币代码列表（默认为"美元"）。有关详细信息，请参见下一节

`货币换算`[可选]

有关以其他货币添加一个或多个测量值列的说明。

日期度量值[可选]：可以从中提取日期的列名。如果没有提供，将根据列类型进行猜测。
标题[optonial]：货币换算度量值列的标题。

`数据包URL`[可选]

包含此数据来自的源数据包的URL。如果提供此数据包的元数据，则将从此URL加载。

`重复数据消除`[可选]

如果true，则将处理源数据以删除重复行（即主键中具有相同值的行）。将对这些行的测量值求和，以便生成单个输出行。

`后处理`[可选]

将应用于数据的额外处理器（和参数）的列表。格式与任何pipeline-spec.yaml中的格式相同

`抑制操作系统[可选，默认值为false]`

如果false，则在数据存储上创建与openspending兼容的数据包。这个基本数据包确保一个基本的fdp可以用openspending进行编辑。用os conductor创建的包已经创建了这个工件，因此将使用suppress os:true，以防止不必要地创建另一个工件。

`保留工件[可选，默认为false]`

默认情况下，在成功运行所有管道后，将删除管道项目（管道执行期间创建的临时目录和文件）。要保留工件，请将此选项设置为true

`生成的管道`

`/非规范化的流量`

加载外部元数据
从所有来源收集所有数据
将不同的源合并到一个统一的流中
测量是否正常化
是否进行货币换算
行重复数据消除
执行额外的处理步骤

输出：

非规范化数据（本地文件）
在单独的资源中列出会计年度（本地文件）
更新操作系统包注册表（如果已配置）

`/finalize_datapackage_flow_拆分器`

（取决于/denormalized\u flow）

加载非规范化的包
每年分别写入经过筛选的数据副本

`/完成数据包流`

< >（取决于/finalize\u datapackage\u flow\u拆分器）从拆分器管道以及完整的非规范化数据集加载所有资源输出：将结果存储在s3 bucket中带有数据包的zip文件（如果未配置s3存储桶）更新操作系统包注册表（如果已配置） /维度流{层次结构} （取决于/denormalized\u flow）加载非规范化数据仅选取层次结构列添加自动递增ID列删除重复项输出：规范化层次结构数据（本地文件） /标准化的流量（取决于/denormalized\u flow和所有/dimension\u flow{hierarchy}）将非规范化数据加载为事实表加载所有规范化层次结构数据创建巴贝奇模型用规范化层次结构表中的相应ID替换事实表中的所有层次结构列输出：规范化事实表（本地文件）更新操作系统包注册表（如果已配置） /转储程序流{层次结构} （取决于相应的/dimension\u flow{hierarchy}）加载规范化层次结构数据修复主键中的空值（用空字符串替换它们）输出将数据保存为SQL数据库中的单个表 /翻车机流量（取决于/normalized\u flow）加载规范化事实表数据修复主键中的空值（用空字符串替换它们）输出将数据保存为SQL数据库中的单个表 /翻车机流量更新状态（取决于/dumper_flow）输出更新操作系统包注册表（如果已配置），说明已成功加载该包贡献请阅读投稿指南：如何贡献标签：数据名称标题管道数据包规范化财务 fiscal pipelines datapackage 欢迎加入QQ群-->： 979659372 推荐PyPI第三方库 pypyorm 简易orm包 core-reimbursements 研究核心erm-报销模块 gridaurora 极光和电离层模型的网格划分 screenshot 在macos上截图 django-nomad-country-blogs 一个极简的Django博客系统，用于维护特定国家的博客。 lmso-algorithm 一种优化的lms算法 mediagoblin-indexedsearch gnu mediagoblin的搜索插件。 dogslow 一个django中间件，记录慢请求的回溯。 django-polls django的一个简单的投票应用程序 django-dual-authentication 允许使用用户名或电子邮件地址进行身份验证。 makinyan python数据分析工具 lambda-pyathena 适用于Amazon Athena的符合Python DB API 2.0（PEP 249）的客户端 parle python actor运行库 georss-wa-dfes-client 华盛顿州消防和应急服务部（DFES）FEED的乔治斯客户图书馆。 uservice-logging 微服务的日志记录实用程序。

导航栏项目描述版本历史下载文件项目链接首页标签许可证: BSD许可证（BSD 3条款）作者信息:: 暂无维护者 akariv brew okfn vitorbaptista 最新PyPI项目 italian_vip_says UFx vofs fake_item_generator NerEva django-monologue fio_product_attribute_strict climailsystem pyshape tbb-devel npy-append-arra anthill.tal.macrorenderer odoo11-addon-stock-a uuuu contextil fyl_nester appomatic_renderable teacher chuletas slackbot_ce 最新Python常见问题我是否正确构建了这个递归神经网络我是否正确理解acquire和realease是如何在python库“线程化”中工作的我是否正确理解Keras中的批次大小？我是否正确理解PyTorch的加法和乘法？我是否正确组织了我的Django应用程序？我是否正确计算执行时间？如果是这样，那么并行处理将花费更长的时间。这看起来很奇怪我是否每次创建新项目时都必须在PyCharm中安装numpy？（安装而不是导入）我是否每次运行jupyter笔记本时都必须重新启动内核？我是否用python安装了socks模块？我是否真的需要知道超过一种语言，如果我想要制作网页应用程序？我是否缺少spaCy柠檬化中的预处理功能？我是否缺少给定状态下操作的检查？我是否能够使用函数“count（）”来查找密码中大写字母的数量(（Python）我是否能够使用用户输入作为colorama模块中的颜色？我是否能够创建一个能够添加新Django.contrib.auth公司没有登录到管理面板的用户？

datapackage-pipelines-fiscal 1.2.4

datapackage-pipelines-fiscal的Python项目详细描述

财政数据包管道

环境变量

依赖关系

财政部.来源-规范.yaml

标题

数据集名称[可选]

资源名称[可选]

所有者ID

来源

字段

测量值[可选]

货币换算[可选]

数据包URL[可选]

重复数据消除[可选]

后处理[可选]

抑制操作系统[可选，默认值为false]

保留工件[可选，默认为false]

生成的管道

/非规范化的流量

/finalize_datapackage_flow_拆分器

/完成数据包流

/维度流{层次结构}

/标准化的流量

/转储程序流{层次结构}

/翻车机流量

/翻车机流量更新状态

贡献

推荐PyPI第三方库

pypyorm

core-reimbursements

gridaurora

screenshot

django-nomad-country-blogs

lmso-algorithm

mediagoblin-indexedsearch

dogslow

django-polls

django-dual-authentication

makinyan

lambda-pyathena

parle

georss-wa-dfes-client

uservice-logging

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题