用于管理hadoop数据质量、可管理性和健康的度量和检查工具

hadoop-inspector的Python项目详细描述


Hadoop_检查器

要查看我们的完整文档集,请参见我们的wiki page

背景

20年来,数据质量问题一直困扰着分析系统: 持续出现在项目失败的四大原因中。

在这个空间中,数据质量问题显得很大,这是一个很小的缺陷 可能被安全地忽略或遗忘在事务性的世界里妨碍 并导致用户质疑我们的信誉数月。

大数据和数据科学的出现和创新 减少了这个挑战。特别是在hadoop上:*数据通常 缺少任何强制约束以确保数据有效性*数据正在 增加的速度比以往任何时候都快,上游和etl的研究时间更少 管道问题*我们正在建立庞大的系统,有时有数百个 我们经常有民主化的途径 到我们的集群-有几十个不同的人添加数据。

此外,在这些大型集群中,大多数团队都很难遵守 政策和其他要求,无论是法规、公司或 由他们自己的团队定义。这些可能定义了一般的数据保留 要求,或单个表的特定要求。他们可能 定义表命名约定、安全要求或统计老化&; 收集要求。

目标

hadoop检查器是为了满足管理数据质量的需要而构建的。 在大型、复杂且不断加载的集群中 在开发过程中通过简单的qa测试无法实现。它提供了 更像汽车装配线的解决方案:持续质量 能够解释上游系统变化的控制(QC); 意外更改生产、数据迁移错误和ETL/摄取 缺陷。

当前状态

软件主要由三部分组成:

  • hadoopinspector-runner.py-将结果写入 sqlite数据库,可以生成测试结果报告。这是 此时的主要和最新组件。
  • hapinsp_httpserver.py-为用户界面提供服务。
  • hadoopinspector-demogen.py-可以生成50000多个检查结果 针对一个假设的用户hadoop环境。这习惯了 练习ui。

更多信息在 wiki

安装

  • pip安装hadoopinspector
  • 需要python 2.7

许可

此源代码受BSD许可证保护。见文件“许可证” 在源代码根目录中查找完整语言或引用它 此处:http://opensource.org/licenses/BSD-3-Clause版权所有2015、2016 威尔·法默和肯·法默

0.1.6-修复github帐户的setup.py引用

0.1.5-改进数据启动和停止时间戳

  • 使这些保留变量
  • 将它们包含在基本跑步者报告中

0.1.4-从注册表json文件中删除inst&db

  • 添加正在prod中使用的小修复程序
  • 向runner添加–ssl选项
  • 向Runner添加–版本选项
  • 繁重的重构和内务管理

0.1.3-添加日志记录

  • 改进注册表json验证和用户错误报告
  • 修复测试撕裂留下的一些文件
  • 修复TOX错误
  • 修复其他次要缺陷

0.1.2-修复检查显示问题

0.1.1-remov runtests-pytests不必要的测试包

0.1.0-更新changelog&;u版本以反映版本。

0.0.3-重构服务器以在python2.7上运行-升级runner以运行 设置检查以支持增量检查

0.0.2-对Runner进行了大量重构,增加了大量测试

0.0.1-初始版本-演示生成器-简单报告

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java系统。出来打印导致延迟?   java如何使用dasein API连接Azure云(blob存储)   java如何将Jframe cardlayout中的“card”从属于card的Jpanel更改为另一个类?   java如何在单个消息框中显示循环的所有迭代?   java如何设置netbeans保存项目的操作?   java网站的某些选项在web视图中不起作用   java如何在安卓中打开从右到左的菜单滑动条   java更容易反转由静态方法(函数接口)内联创建的比较器?   映射Java HashMap。获取(键)和树形图。获取equals和compareTo方法的(键)用法   java Health endpoints只显示“status:up”,不显示敏感信息   java当我一直按back按钮登录时,字段显示以前插入的用户数据   JTable单元中的java图像显示   go Java vs.Golang for HOTP(rfc4226)   java使用函数链减少分支和清理代码,这有意义吗   java我应该为每个查询创建一个新的DB连接吗?   java推荐的函数调用方法(是否使用CompiledScript?)   java截断分区和地板分区有什么区别?   没有spring引导的java Profile特定属性文件?   异常如何在java中从控制台读取密码?