badfish—python中的一个缺失数据分析和争用库

badfish的Python项目详细描述


badfish引入missframe,它是pandasDataFrame上的包装器, 纠结和调查丢失的数据。它打开了一个易于使用的 用于总结和探索缺失模式的api。

badfish提供了一些方法,使得调查任何 数据争用、调查、ETL过程中的系统问题 导致数据丢失。

api的灵感来自于当 正在探索丢失的数据。

badfish在其大多数方法中使用wherehowapi来 准备要处理的数据子集。where:处理 缺少数据where指定的列。how:要么all |any列应该丢失。

例如,mf.counts(columns = ['Age', 'Gender'])将给出 整个数据集中缺少值。

而,mf.counts(where=['Income'], columns = ['Age', 'Gender']) 会给出数据子集中丢失值的计数,其中Income 已经不见了。

安装

pip install badfish

用法

>>> import badfish as bf
>>> mf = bf.MissFrame(df)

示例

不久将添加一个exmaple ipython笔记本。

计数

每列缺少数据的基本计数。

>>> mf.counts(where=['gender', 'age'], how='all', columns=['Income', 'Marital Status'])

模式

获取缺少数据的列的不同组合的计数。 True表示丢失,False表示存在。

>>> mf.pattern()

同样的事情也可以以情节的形式表现出来(灵感来自vim R中的包装)

>>> mf.plot(kind='pattern')

Example plot:

注意:此方法中可以同时使用wherehow

项目集挖掘

使用频率项集挖掘查找丢失数据的子组 一起。注意:这使用pymining包。

>>> itemsets, rules = mf.frequency_item_set()

队列

尝试查找列值之间的重要组差异 除GROUP子句中指定的以外。在上创建的组 GROUP子句中缺少或不缺少列的依据。 内部使用scipy.stats.ttest_ind

此方法对每个列中的值而不是列名起作用。

注:实验方法。

>>> mf.cohort(group=['gender'], columns=['Income'])

许可证

请看repository license

一般来说,我们有许可的恶鱼,使其广泛使用 可能的。

要求捐款

如果您有任何想法、问题或功能要求,请随时打开 发布,发送公关或联系我们。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
与SpringJPA相比,JavaHazelcast内存数据网格非常慢   java如何从Netbeans从命令行创建的ant项目运行单个junit测试?   java多个eclipse概要文件   java集合存储值还是引用?   java从两个自定义对象列表中删除公共元素   java密钥库、HttpClient和HTTPS:有人能给我解释一下这段代码吗?   java使用Appengine中的域别名帐户发送电子邮件   java如何在安卓中获得用户定义的“设备名称”?   java错误:包com。太阳工具。javac。util不存在   导出后Java Eclipse项目出现问题   组织。openqa。硒。WebDriverException:java。网ConnectException:无法连接到本地主机/0:0:0:0:0:0:0   java在字符串中追加文本   java在Pig中按名称获取字段?   java如何打印播放中对象的值   Java静态修饰符对运行时性能有积极影响吗?   Java计时器   java是否值得线程化一个需要1秒才能完成的操作?