Python badfish包_程序模块 - PyPI

badfish—python中的一个缺失数据分析和争用库

badfish的Python项目详细描述

badfish引入missframe，它是pandasDataFrame上的包装器，纠结和调查丢失的数据。它打开了一个易于使用的用于总结和探索缺失模式的api。

badfish提供了一些方法，使得调查任何数据争用、调查、ETL过程中的系统问题导致数据丢失。

api的灵感来自于当正在探索丢失的数据。

badfish在其大多数方法中使用where和howapi来准备要处理的数据子集。where：处理缺少数据where指定的列。how：要么all |any列应该丢失。

例如，mf.counts(columns = ['Age', 'Gender'])将给出整个数据集中缺少值。

而，mf.counts(where=['Income'], columns = ['Age', 'Gender']) 会给出数据子集中丢失值的计数，其中Income 已经不见了。

安装

pip install badfish

用法

>>> import badfish as bf
>>> mf = bf.MissFrame(df)

示例

不久将添加一个exmaple ipython笔记本。

计数

每列缺少数据的基本计数。

>>> mf.counts(where=['gender', 'age'], how='all', columns=['Income', 'Marital Status'])

模式

获取缺少数据的列的不同组合的计数。 True表示丢失，False表示存在。

>>> mf.pattern()

同样的事情也可以以情节的形式表现出来（灵感来自vim R中的包装）

>>> mf.plot(kind='pattern')

Example plot:

注意：此方法中可以同时使用where和how。

项目集挖掘

使用频率项集挖掘查找丢失数据的子组一起。注意：这使用pymining包。

>>> itemsets, rules = mf.frequency_item_set()

队列

尝试查找列值之间的重要组差异除GROUP子句中指定的以外。在上创建的组 GROUP子句中缺少或不缺少列的依据。内部使用scipy.stats.ttest_ind。

此方法对每个列中的值而不是列名起作用。

注：实验方法。

>>> mf.cohort(group=['gender'], columns=['Income'])

许可证

请看repository license。

一般来说，我们有许可的恶鱼，使其广泛使用可能的。

要求捐款

如果您有任何想法、问题或功能要求，请随时打开发布，发送公关或联系我们。

作者

Harsh Nisar&；Deshana Desai

有趣的链接

欢迎加入QQ群-->： 979659372

badfish 0.1.2

badfish的Python项目详细描述

安装

用法

示例

计数

模式

项目集挖掘

队列

许可证

要求捐款

作者

有趣的链接

推荐PyPI第三方库

etianen-cms

aliyun-python-sdk-nls-cloud-meta

odoo9-addon-contract-variable-quantit

render_pipeline

madarrays

mr.awsome.ansible

liskov

Products.PloneTableless

plydata

wisdoms

cffconvert

django-yama

odoo12-addon-mis-builder-budget

meos-sdk

greengrasssdk

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

badfish 0.1.2

badfish的Python项目详细描述

安装

用法

示例

计数

模式

项目集挖掘

队列

许可证

要求捐款

作者

有趣的链接

推荐PyPI第三方库

etianen-cms

aliyun-python-sdk-nls-cloud-meta

odoo9-addon-contract-variable-quantit

render_pipeline

madarrays

mr.awsome.ansible

liskov

Products.PloneTableless

plydata

wisdoms

cffconvert

django-yama

odoo12-addon-mis-builder-budget

meos-sdk

greengrasssdk

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签