对机器学习的数据流执行QA的包。
mlqa的Python项目详细描述
MLQA
对机器学习的数据流执行QA的包。在
简介
MLQA是一个Python包,用于帮助数据科学家、分析员和开发人员对pandas dataframes和1d数组执行质量保证(即QA),特别是对于机器学习建模数据流。它被设计为与logging库一起工作,以描述性的方式记录和通知QA步骤。它包括用于不同QA活动的独立函数(即checkers)和用于集成数据QA能力的DiffChecker类。在
安装
你可以用pip安装MLQA。在
pip install mlqa
MLQA依赖于Pandas和Numpy,并在python3.5+中工作。在
快速启动
DiffChecker设计用于对ML的数据流执行QA。您可以轻松地保存原始数据中的统计信息,如缺失值率、平均值、最小值/最大值、百分位值、异常值等,然后与新数据进行比较。如果希望将预测数据与训练数据保持在相同的假设下,这一点尤其重要。在
下面是一个关于它如何工作的快速示例,只需从输入数据启动并保存统计信息。在
>>>frommlqa.identifiersimportDiffChecker>>>importpandasaspd>>>dc=DiffChecker()>>>dc.fit(pd.DataFrame({'mean_col':[1,2]*50,'na_col':[None]*50+[1]*50}))
然后,您可以检查新的数据,如果它对给定的条件是合适的。下面,您可以看到一些数据在列mean_col
中非常相似,但是在列na_col
中增加了NA计数。默认阈值为0.5,这意味着如果NA比率比原始数据高出50%,则应该可以。原始数据中的钠利用率为50%,因此高达75%(即50*(1+0.5))应该可以。新数据中的不合格率为70%,正如预期的那样,QA通过了。在
请参阅Documentation/Quickstart上的更多示例。您也可以阅读完整的文档here。在
测试
测试是用unittest编写的,可以位于tests文件夹中。{a10}中还有一些测试要运行。在
许可证
- 项目
标签: