用于管理hadoop数据质量、可管理性和健康的度量和检查工具
hadoop-inspector的Python项目详细描述
Hadoop_检查器
要查看我们的完整文档集,请参见我们的wiki page
背景
20年来,数据质量问题一直困扰着分析系统: 持续出现在项目失败的四大原因中。
在这个空间中,数据质量问题显得很大,这是一个很小的缺陷 可能被安全地忽略或遗忘在事务性的世界里妨碍 并导致用户质疑我们的信誉数月。
大数据和数据科学的出现和创新 减少了这个挑战。特别是在hadoop上:*数据通常 缺少任何强制约束以确保数据有效性*数据正在 增加的速度比以往任何时候都快,上游和etl的研究时间更少 管道问题*我们正在建立庞大的系统,有时有数百个 我们经常有民主化的途径 到我们的集群-有几十个不同的人添加数据。
此外,在这些大型集群中,大多数团队都很难遵守 政策和其他要求,无论是法规、公司或 由他们自己的团队定义。这些可能定义了一般的数据保留 要求,或单个表的特定要求。他们可能 定义表命名约定、安全要求或统计老化&; 收集要求。
目标
hadoop检查器是为了满足管理数据质量的需要而构建的。 在大型、复杂且不断加载的集群中 在开发过程中通过简单的qa测试无法实现。它提供了 更像汽车装配线的解决方案:持续质量 能够解释上游系统变化的控制(QC); 意外更改生产、数据迁移错误和ETL/摄取 缺陷。
当前状态
软件主要由三部分组成:
- hadoopinspector-runner.py-将结果写入 sqlite数据库,可以生成测试结果报告。这是 此时的主要和最新组件。
- hapinsp_httpserver.py-为用户界面提供服务。
- hadoopinspector-demogen.py-可以生成50000多个检查结果 针对一个假设的用户hadoop环境。这习惯了 练习ui。
更多信息在 wiki
安装
- pip安装hadoopinspector
- 需要python 2.7
许可
此源代码受BSD许可证保护。见文件“许可证” 在源代码根目录中查找完整语言或引用它 此处:http://opensource.org/licenses/BSD-3-Clause版权所有2015、2016 威尔·法默和肯·法默
0.1.6-修复github帐户的setup.py引用
0.1.5-改进数据启动和停止时间戳
- 使这些保留变量
- 将它们包含在基本跑步者报告中
0.1.4-从注册表json文件中删除inst&db
- 添加正在prod中使用的小修复程序
- 向runner添加–ssl选项
- 向Runner添加–版本选项
- 繁重的重构和内务管理
0.1.3-添加日志记录
- 改进注册表json验证和用户错误报告
- 修复测试撕裂留下的一些文件
- 修复TOX错误
- 修复其他次要缺陷
0.1.2-修复检查显示问题
0.1.1-remov runtests-pytests不必要的测试包
0.1.0-更新changelog&;u版本以反映版本。
0.0.3-重构服务器以在python2.7上运行-升级runner以运行 设置检查以支持增量检查
0.0.2-对Runner进行了大量重构,增加了大量测试
0.0.1-初始版本-演示生成器-简单报告