badfish—python中的一个缺失数据分析和争用库

badfish的Python项目详细描述


badfish引入missframe,它是pandasDataFrame上的包装器, 纠结和调查丢失的数据。它打开了一个易于使用的 用于总结和探索缺失模式的api。

badfish提供了一些方法,使得调查任何 数据争用、调查、ETL过程中的系统问题 导致数据丢失。

api的灵感来自于当 正在探索丢失的数据。

badfish在其大多数方法中使用wherehowapi来 准备要处理的数据子集。where:处理 缺少数据where指定的列。how:要么all |any列应该丢失。

例如,mf.counts(columns = ['Age', 'Gender'])将给出 整个数据集中缺少值。

而,mf.counts(where=['Income'], columns = ['Age', 'Gender']) 会给出数据子集中丢失值的计数,其中Income 已经不见了。

安装

pip install badfish

用法

>>> import badfish as bf
>>> mf = bf.MissFrame(df)

示例

不久将添加一个exmaple ipython笔记本。

计数

每列缺少数据的基本计数。

>>> mf.counts(where=['gender', 'age'], how='all', columns=['Income', 'Marital Status'])

模式

获取缺少数据的列的不同组合的计数。 True表示丢失,False表示存在。

>>> mf.pattern()

同样的事情也可以以情节的形式表现出来(灵感来自vim R中的包装)

>>> mf.plot(kind='pattern')

Example plot:

注意:此方法中可以同时使用wherehow

项目集挖掘

使用频率项集挖掘查找丢失数据的子组 一起。注意:这使用pymining包。

>>> itemsets, rules = mf.frequency_item_set()

队列

尝试查找列值之间的重要组差异 除GROUP子句中指定的以外。在上创建的组 GROUP子句中缺少或不缺少列的依据。 内部使用scipy.stats.ttest_ind

此方法对每个列中的值而不是列名起作用。

注:实验方法。

>>> mf.cohort(group=['gender'], columns=['Income'])

许可证

请看repository license

一般来说,我们有许可的恶鱼,使其广泛使用 可能的。

要求捐款

如果您有任何想法、问题或功能要求,请随时打开 发布,发送公关或联系我们。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
Gson类中的java验证错误   If和elseif之间的java差异?   字典Java8地图。输入比较器   java连接到远程计算机以获得WMI支持   java如何使用改型处理JSON对象中的空值   在Java中使用Comparator时不可编译的源代码   java将Jar添加到JSP的运行时路径   带有随机对象的while循环的java大O时间复杂性   java可以在不考虑参数的情况下模拟方法吗?   java我有一个简单的代码,它不工作。无法修复错误“println”   向eclipse添加Xively java库   java是否可以启用本机代码的缓存?   全局变量如何在Java中的所有类之间共享要使用的语言环境?   Java内存游戏如何翻转单个卡?