badfish—python中的一个缺失数据分析和争用库
badfish的Python项目详细描述
badfish引入missframe,它是pandasDataFrame上的包装器, 纠结和调查丢失的数据。它打开了一个易于使用的 用于总结和探索缺失模式的api。
badfish提供了一些方法,使得调查任何 数据争用、调查、ETL过程中的系统问题 导致数据丢失。
api的灵感来自于当 正在探索丢失的数据。
badfish在其大多数方法中使用where和howapi来 准备要处理的数据子集。where:处理 缺少数据where指定的列。how:要么all |any列应该丢失。
例如,mf.counts(columns = ['Age', 'Gender'])将给出 整个数据集中缺少值。
而,mf.counts(where=['Income'], columns = ['Age', 'Gender']) 会给出数据子集中丢失值的计数,其中Income 已经不见了。
安装
pip install badfish
用法
>>> import badfish as bf >>> mf = bf.MissFrame(df)
示例
不久将添加一个exmaple ipython笔记本。
计数
每列缺少数据的基本计数。
>>> mf.counts(where=['gender', 'age'], how='all', columns=['Income', 'Marital Status'])
模式
获取缺少数据的列的不同组合的计数。 True表示丢失,False表示存在。
>>> mf.pattern()
同样的事情也可以以情节的形式表现出来(灵感来自vim R中的包装)
>>> mf.plot(kind='pattern') Example plot:
注意:此方法中可以同时使用where和how。
项目集挖掘
使用频率项集挖掘查找丢失数据的子组 一起。注意:这使用pymining包。
>>> itemsets, rules = mf.frequency_item_set()
队列
尝试查找列值之间的重要组差异 除GROUP子句中指定的以外。在上创建的组 GROUP子句中缺少或不缺少列的依据。 内部使用scipy.stats.ttest_ind。
此方法对每个列中的值而不是列名起作用。
注:实验方法。
>>> mf.cohort(group=['gender'], columns=['Income'])
要求捐款
如果您有任何想法、问题或功能要求,请随时打开 发布,发送公关或联系我们。