自动数据清理工具

datacleanbot的Python项目详细描述


License: MIT

数据清理机器人

自动数据清理工具。 主要目标是开发一个python工具datacleanbot,以便: 给定表示监督学习问题的随机解析原始数据集,python工具能够自动识别潜在问题,并以有效的方式将结果和建议报告给最终用户。

安装

$ pip install datacleanbot

快速启动

从openml获取数据:

>>> import openml as oml
>>> data = oml.datasets.get_dataset(id) # id: openml dataset id
>>> X, y, features = data.get_data(target=data.default_target_attribute, return_attribute_names=True)
>>> Xy = data.get_data()

使用datacleanbot自动清理数据

>>> import datacleanbot.dataclean as dc
>>> Xy = dc.autoclean(Xy, data.name, features)

说明

datacleanbot具有以下功能:

  • 提供给定数据集的概述报告
    • 最重要的功能
    • 统计信息(例如,平均值、最大值、最小值)
    • 功能的数据类型
  • 清除原始数据集中的常见数据问题
    • 重复记录
    • 列名不一致
    • 缺少值
    • 异常值

有意义的自动机的三个方面用粗体标记。

用户指南

用户指南可在datacleanbot找到。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java线程执行器服务   aspose如何通过java获得单词bookmark之前的所有文本内容?   一对一映射的java Hibernate合并问题   java SOAP XSD根元素问题   java如何保护我的Spring启动API   java使用GeoJson向google地图添加标记   java安卓:在SQLite中没有这样的列   java STS 2.8.0 StartExplorer/Legacy插件安装问题   java如何以编程方式获取AppBar高度?   在Java中将BigDecimal添加到BigDecimal   java不支持ntdll。dll是windows xp和windows vista的标准配置吗?   内容类型为application/xwwwformurlencoded的java Http Put请求在Spring中不起作用   java在数组中计算工资并返回答案   java数字/货币格式   elasticsearch java api中的弹性搜索查询