运行FeatureTools以自动化Spark上分布式的功能工程。

featuretools4s的Python项目详细描述


##火花专用工具(专用工具4)

1.什么是特色工具?
featuretools是一个python库,由麻省理工学院的featurelab开放源码,旨在自动化机器学习应用程序中的特征工程过程。

有关FeatureTools的更多详细信息,请访问[官方网站](https://docs.featuretools.com/index.html)


*featuretools4s*是我编写的一个python库,旨在使用**spark**扩展
featuretools,使其能够为数十亿行数据生成
功能,通常
被认为不可能在使用
original featuretools library with pandas的单机上处理。

*FeatureTools4s*提供的**API与原来的
FeatureTools几乎相同,使用户完全不必在FeatureTools和FeatureTools4s之间传输
因此,我们建议读者先学习FeatureTools,然后就可以轻松地使用FeatureTools4s.*

2。如何使用功能工具4?第一个安装*特征工具4S*通过PIP:Bash
PIP3安装特征工具4S BR/>‘BR/> BR/>然后使用*特征工具4S*的一个简单的例子如下:< Prth/Byth.Br/>导入特征工具4S作为PtSpyk.FTS
os.environ[“path”]=“c:\ python36;“+os.environ[“path”]
pd.set_option('display.expand_frame_repr',false)
spark=sparksession.builder.master(“local[*”).getorcreate()

order庘df=spark.read.csv(“resources/order.csv”,header=true,inferschema=true).sort(“sales廑tax”)
customer廑df=spark.read.csv(“resources/customer.csv”,header=true,inferschema=true)


es.entity廑from廑dataframe(“order”,order廑df,index=“order廑num”,time廑index=“wo timestamp”)
es.entity廑index=“cust_num”)
es.add_relationship(fts.relationship(es[“customer”][“cust_num”],es[“order”][“cust_num”])

features=fts.dfs(spark,entityset=es,target_entity=“customer”,primary_col=“cust_num”,num_partition=5)
features.show()
```

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
使用jaxrpc的Java eclipse WebService客户端   java编程方式在对象上写入名称   java Spring批处理:重试后跳过   java Android错误:错误:任务执行失败:应用程序:transformClassesWithDexForDebug'   带有清单文件nullPointerException的java Android元数据   spring Java Quartz调度作业停止运行   JavaMockito:如何在不调用实际方法的情况下,模拟带有参数和无效返回类型的静态方法?   java Tomcat连接池问题无法在关闭的连接上调用方法   java如何交换列表中的项目?   java如何停止线程并通过Toast在线程中正确显示文本?   java为什么连续写入OutputStream时偏移量0不会导致重复字节?   java我无法生成头文件   不兼容的返回类型错误java   修改值后键值对的java Jolt转换规范   java有自动更新Javadoc的工具吗?   java线程如何在ints自身实例类中共享变量   java继承一个非gwt模块   java Hibernate xml配置   使用netty4异步调用的java链接HTTP请求响应