pandas数据帧的交互式清理

sherlockml-dataclean的Python项目详细描述


jupyter笔记本扩展和python库,用于交互式清理pandas数据帧,可选择多种技术,从简单替换缺失值到使用受限的boltzmann机器进行插补。

安装

pip install sherlockml-dataclean
jupyter nbextension enable dataclean --py --sys-prefix

用法

像平常一样使用你的笔记本。当python内核中存在pandas数据帧时,您应该会在工具栏中的数据清理器图标上看到一个新的通知。名称以下划线开头的数据帧将被忽略。

Data Cleaner toolbar icon.

数据清理器工具栏图标。

单击图标将打开一个浮动窗口,其中包含内核中数据帧的摘要。单击其中一个数据帧的名称将显示一些数据清理器控件和数据帧列上的一些摘要统计信息。

Data Cleaner window.

数据清理程序窗口。

单击其中一列的名称将显示特定于该列的数据清理工具,直方图或条形图显示这些值的分布。创建步骤时,这将对数据分发产生的效果显示为预览。

Creating a data cleaning step on a column.

在列上创建数据清理步骤。

您还可以选择使用受限制的boltzmann机器在数据帧中填充缺失和错误键入的值。这使用sherlockml boltzmannclean包。

Creating a Restricted Boltzmann Machine cleaning step.

创建受限制的Boltzmann机器清洁步骤。

创建步骤后,这些步骤将被添加到处理管道中,该管道可以在“管道”小部件中查看。

A data cleaning pipeline.

数据清理管道。

可以使用这些控件修改或删除这些步骤,准备好后,可以在数据帧上执行管道或将其输出到代码。执行管道将在内核中创建一个后缀为“_cleaned”的新数据帧,而导出将在笔记本中创建一个新的代码单元,定义一个将执行管道清理步骤的python函数。

An exported pipeline.

导出的管道。

注意事项

不支持重复的或非字符串的列名。

对于超过1000行的数据帧,1000行的示例将用于预览和创建处理管道,整个数据帧仅在执行管道时操作。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
编译器构造为什么在Java中允许初始化对Null的引用?   java手动调用javax的actionPerformed。摆动计时器   使用git分支的java Maven版本控制   Java8句子流   java JPA OneToOne和OneToMany实体实例化/创建   java如何将值添加到列表<Map<String,Object>>?   java如何使用ComboBox在一个框架内更改JPanel。getSelectedIndex()   java在比较XML和xmlunit时忽略文本差异   java无法从其他pc连接到本地主机   Java中分配对象id的优雅方式   Java中静态变量的使用   java试图从Neteller获取OAuth访问令牌时产生错误:“服务器返回HTTP响应代码:401表示URL”   Java:基元类型是否会影响性能?   java可以让hasNext()不区分大小写吗?   基于AutoCompleteTextView建议属性或AutoCompleteTextView值的java Android搜索   java流文件到firefox浏览器有时无法打开应用程序对话框   在没有ArrayList的Java中返回数组中的搜索结果   复制java。木卫一。IOException:数据错误(CRC)   java为什么我在尝试删除Facebook测试用户时会出现“方法未实现”错误   java如何使用JNA调用SetProcessReliationPolicy