Python hadoop-inspector包_程序模块 - PyPI

用于管理hadoop数据质量、可管理性和健康的度量和检查工具

hadoop-inspector的Python项目详细描述

Hadoop_检查器

要查看我们的完整文档集，请参见我们的wiki page

背景

20年来，数据质量问题一直困扰着分析系统：持续出现在项目失败的四大原因中。

在这个空间中，数据质量问题显得很大，这是一个很小的缺陷可能被安全地忽略或遗忘在事务性的世界里妨碍并导致用户质疑我们的信誉数月。

大数据和数据科学的出现和创新减少了这个挑战。特别是在hadoop上：*数据通常缺少任何强制约束以确保数据有效性*数据正在增加的速度比以往任何时候都快，上游和etl的研究时间更少管道问题*我们正在建立庞大的系统，有时有数百个我们经常有民主化的途径到我们的集群-有几十个不同的人添加数据。

此外，在这些大型集群中，大多数团队都很难遵守政策和其他要求，无论是法规、公司或由他们自己的团队定义。这些可能定义了一般的数据保留要求，或单个表的特定要求。他们可能定义表命名约定、安全要求或统计老化&；收集要求。

目标

hadoop检查器是为了满足管理数据质量的需要而构建的。在大型、复杂且不断加载的集群中在开发过程中通过简单的qa测试无法实现。它提供了更像汽车装配线的解决方案：持续质量能够解释上游系统变化的控制（QC）；意外更改生产、数据迁移错误和ETL/摄取缺陷。

当前状态

软件主要由三部分组成：

hadoopinspector-runner.py-将结果写入 sqlite数据库，可以生成测试结果报告。这是此时的主要和最新组件。
hapinsp_httpserver.py-为用户界面提供服务。
hadoopinspector-demogen.py-可以生成50000多个检查结果针对一个假设的用户hadoop环境。这习惯了练习ui。

更多信息在 wiki

安装

pip安装hadoopinspector
需要python 2.7

许可

0.1.6-修复github帐户的setup.py引用

0.1.5-改进数据启动和停止时间戳

使这些保留变量
将它们包含在基本跑步者报告中

0.1.4-从注册表json文件中删除inst&db

添加正在prod中使用的小修复程序
向runner添加–ssl选项
向Runner添加–版本选项
繁重的重构和内务管理

0.1.3-添加日志记录

改进注册表json验证和用户错误报告
修复测试撕裂留下的一些文件
修复TOX错误
修复其他次要缺陷

0.1.2-修复检查显示问题

0.1.1-remov runtests-pytests不必要的测试包

0.1.0-更新changelog&；u版本以反映版本。

0.0.3-重构服务器以在python2.7上运行-升级runner以运行设置检查以支持增量检查

0.0.2-对Runner进行了大量重构，增加了大量测试

0.0.1-初始版本-演示生成器-简单报告

欢迎加入QQ群-->： 979659372

hadoop-inspector 0.1.6

hadoop-inspector的Python项目详细描述

Hadoop_检查器

背景

目标

当前状态

安装

许可

推荐PyPI第三方库

penncoursereview

Flask-Storage

deployrecipes

PyWebRunner

jupyterlab-solutions

simone

conf

django-faves

MarkdownSubscript

ariadne-extensions

z3c.formjsdemo

sandcage

exofrills

PyMellat

twelve-tone

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

hadoop-inspector 0.1.6

hadoop-inspector的Python项目详细描述

Hadoop_检查器

背景

目标

当前状态

安装

许可

推荐PyPI第三方库

penncoursereview

Flask-Storage

deployrecipes

PyWebRunner

jupyterlab-solutions

simone

conf

django-faves

MarkdownSubscript

ariadne-extensions

z3c.formjsdemo

sandcage

exofrills

PyMellat

twelve-tone

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签