在管道中流畅地操作数据帧的框架。

datapipeml的Python项目详细描述


#数据管道ml
用于操作机器学习数据帧的管道api。

数据管道是一个包装pandas数据帧的框架,提供了一种更灵活的操作数据的方法。

基本概念:
-每个操作都执行到位。数据管道对象只保留一个对持续更新的pandas数据帧的引用。
-]每个操作都返回对self的引用,这允许流畅地链接方法。
-所调用的每个方法都在内部进行记录,以提高再现性和对制备管道的理解。例外情况是“加载”方法。
-~未实现方法的数据管道调用默认为内部数据帧对象。这允许快速访问某些方法,例如shape和head,但请注意,这些调用不会被记录,也不会返回数据管道对象。如果需要使用未实现的函数,请使用update方法继续操作数据管道。









``
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
>>
>>>

>>>>
>>>>>
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>\
>;.drop(“标签”)\
>;>;.drop_sparse()\
>;.drop_duplicates()\
>;.fill_null()\
>;.remove_outliers()\
>;.normalize()\
>;.set_one_hot()\
>;..split_train_test(by=“date”)


匿名id
没有要删除的稀疏列
找到0个重复行
填充列[“已供资金额”、“贷款金额”、“合作伙伴id”、“贷款月内期限”、“贷款月数”]
从[“已供资金额”、“贷款金额”、“合作伙伴id”、“贷款月内期限”中删除异常值,“贷方帐户”]
规范化[“资金帐户”、“贷款帐户”、“合作伙伴帐户”、“期限帐户(以月为单位)”、“贷方帐户”]
编码列[“活动”、“部门”、“国家代码”、“国家”、“货币”、“还款间隔”]

>;>;x.保留数值(
>;>;y.保留数值(


“已过帐时间”、“日期”、“已付款时间”、“借方时间”、“已付款时间”、“使用”}
正在删除列{“区域”、“已付款时间”、“日期”、“已付款时间”、“借方时间”、“已付款时间”、“使用”}

print(X.summary())
___________________________________________________________|
Method Name |Args |Kwargs |
___________________________________________________________|
anonymize |('id',) |{} |
set_index |('id',)|{}{
删除('tags',){}
删除稀疏(){}
删除重复(){}
填充空(){}
删除()异常值{}|
规范化(){}
设置一()热{}
分割列()测试{'按':'日期'}
保留()数值{}|
___________________________________________________________|
```

### Create target column and stratified folds
```
>>> folds = DataPipe.load("data/kiva_loans_sample.csv.gz")\
>>> .set_index("id")\
>>> .drop_duplicates()\
>>> .fill_null()\
>>;。删除“异常值”\
>;.normalize()\
>;.set“u one_hot()\
>;.create_column(“high_loan”,lambda x:1 if x[“loan_amount”]>;2000 else 0)\
>;.keep_numerics()\
>;.create_folds(stratify_by=“high_loan”)

“贷方帐户”]
规范化[“已供资帐户”、“贷款帐户”、“合作伙伴帐户”、“期限帐户(以月为单位)”、“贷方帐户”]
一个热编码列[“活动”、“部门”、“国家代码”、“国家”、“货币”、“借方帐户”、“还款间隔”]
创建列高贷款
删除列{“标记”、“已供资帐户时间”、“已付款帐户时间”、“地区”,“使用”、“发布时间”、“日期”}
```

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何将异步类的结果放入mainActivity EditText   java LDAP目录管理器服务提供,OutOfMemory   java Cassandra NoHostAvailableException,但仍存在活动节点   springboot应用程序的java启动线程   如果poll不一定返回第一项,那么java是ConcurrentLinkedQueue的好选择吗?   解析XML时JSON中出现java意外字符串   当'key'是两个整数时,如何输出Java HashMap键?   java为什么不显示在jsp页面中   java使用流式API转换映射列表中的值   JavaJPA+Spring:基于在持久化实体之前接收到的值,将外键列映射到ID   java如何使用selenium读取pdf文件   Canny之后的java对象提取   DSpace没有列出集合,java。lang.NumberFormatException:null   java我可以为数据库表主键设置一个最大值吗?   java如何定义Javadoc链接,可以通过单击   @java/spring中的SessionAttribute是否丢失数据?