自动表规范化库

autonormalize的Python项目详细描述


自动规格化

CircleCI

autonormalize是一个用于自动数据表规范化的python库。它允许您从单个非规范化表构建EntitySet,并使用Featuretools生成用于机器学习的特性。

开始

安装

pip install featuretools[autonormalize]

卸载

pip uninstall autonormalize

演示

API参考

auto_entityset

auto_entityset(df, accuracy=0.98, index=None, name=None, time_index=None)

从数据帧创建规范化的EntitySet。

参数:

  • df(pd.dataframe):包含数据的数据帧

  • accuracy(0<;float<;=1.00;default=0.98):定义依赖关系所需的精度阈值(即,如果精度=0.98,则0.98行必须为真,依赖关系lhs-->;rhs)

  • index(str,可选):要作为df索引的列的名称

  • name(str,可选):创建的实体集的名称

  • time_index(str,可选):数据帧中时间列的名称。

返回:

  • entityset(ft.entity set):创建的实体集

find_dependencies

find_dependencies(df, accuracy=0.98, index=None)

使用dfd搜索算法在dataframe中查找依赖项。

返回:

  • dependencies(依赖项):在提供的约束中的数据中找到的依赖项

normalize_dataframe

normalize_dataframe(df, dependencies)

基于给定的依赖关系规范化数据帧。新创建的数据帧的键只能是字符串、Int或类别的列。根据优先级选择键:

  1. 最短长度
  2. 以属性的名称以某种形式显示“id”
  3. 在表中最左边有属性

返回:

  • new_dfs(list[pd.dataframe]):新数据帧列表

make_entityset

make_entityset(df, dependencies, name=None, time_index=None)

根据给定的依赖关系从dataframe创建规范化的entityset。键的选择方式与normalize_dataframe相同,如果任何键具有多个属性,则将创建新索引。

返回:

  • entityset(ft.entityset):创建的entityset

normalize_entity

normalize_entity(es, accuracy=0.98)

从具有单个实体的EntitySet返回新的规范化EntitySet

参数:

  • es(ft.entityset):要规范化的具有单个实体的entityset

返回:

  • new_es(ft.entityset):新的规范化实体集

专题实验室

Featuretools

autonormalize是由Feature Labs创建的开源项目。要查看我们正在开发的其他开源项目,请访问功能实验室Open Source。如果建立有影响力的数据科学管道对您或您的业务很重要,请get in touch

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何避免springbootstarterparent和dependency中的flyway包冲突   java文本文件写入不起作用   java获取名为DAO类的Bean创建异常   java类路径和清单文件   如何使用Java中的模式来获取像C中的“sscanf”这样的组?   java Spring自动连接具有构造函数的类   clientSecurity运行的java geode示例失败   java JavaFX:在FXML中从ResourceBundle访问非string对象   java登录到google firebase   java对象在通过构造函数后不会更改。为什么?   java(Android)对特定页面的操作webView   javascript如何在webview的js中从java调用变量   持久化—一种在Java中存储和检索对象而不使用关系数据库的简单方法?   java Ldap获取通讯组列表中的用户   java检查温度条件   java后退按钮警报框(Android Studio)   数组java列表问题:为什么我运行它时,它会在第三次打印时打印出4?   java相对路径与绝对路径