对机器学习的数据流执行QA的包。

mlqa的Python项目详细描述


MLQA

对机器学习的数据流执行QA的包。在

简介

MLQA是一个Python包,用于帮助数据科学家、分析员和开发人员对pandas dataframes和1d数组执行质量保证(即QA),特别是对于机器学习建模数据流。它被设计为与logging库一起工作,以描述性的方式记录和通知QA步骤。它包括用于不同QA活动的独立函数(即checkers)和用于集成数据QA能力的DiffChecker类。在

安装

你可以用pip安装MLQA。在

pip install mlqa

MLQA依赖于Pandas和Numpy,并在python3.5+中工作。在

快速启动

DiffChecker设计用于对ML的数据流执行QA。您可以轻松地保存原始数据中的统计信息,如缺失值率、平均值、最小值/最大值、百分位值、异常值等,然后与新数据进行比较。如果希望将预测数据与训练数据保持在相同的假设下,这一点尤其重要。在

下面是一个关于它如何工作的快速示例,只需从输入数据启动并保存统计信息。在

>>>frommlqa.identifiersimportDiffChecker>>>importpandasaspd>>>dc=DiffChecker()>>>dc.fit(pd.DataFrame({'mean_col':[1,2]*50,'na_col':[None]*50+[1]*50}))

然后,您可以检查新的数据,如果它对给定的条件是合适的。下面,您可以看到一些数据在列mean_col中非常相似,但是在列na_col中增加了NA计数。默认阈值为0.5,这意味着如果NA比率比原始数据高出50%,则应该可以。原始数据中的钠利用率为50%,因此高达75%(即50*(1+0.5))应该可以。新数据中的不合格率为70%,正如预期的那样,QA通过了。在

^{pr2}$

请参阅Documentation/Quickstart上的更多示例。您也可以阅读完整的文档here。在

测试

测试是用unittest编写的,可以位于tests文件夹中。{a10}中还有一些测试要运行。在

许可证

MIT

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java创建猜谜游戏程序   JavaWebSocketContainer。connectToServer似乎挂起了   如何在java中中断函数   java c#socket client multiple BeginSend()未到达服务器   不可见的组件然后在Java中的窗格之间切换   java在应用程序类中使用静态接口安全吗?   java等待函数完成,直到回调到来   使用DataOutputStream时的java新行,Android   java服务对象的定义是什么?   基于视图的javahibernate复合密钥   java将varchar连接到char在JPA(oracle)中不起作用   如何在java中通过point类读取多个点?