运行FeatureTools以自动化Spark上分布式的功能工程。
featuretools4s的Python项目详细描述
##火花专用工具(专用工具4)
1.什么是特色工具?
featuretools是一个python库,由麻省理工学院的featurelab开放源码,旨在自动化机器学习应用程序中的特征工程过程。
有关FeatureTools的更多详细信息,请访问[官方网站](https://docs.featuretools.com/index.html)
。
*featuretools4s*是我编写的一个python库,旨在使用**spark**扩展
featuretools,使其能够为数十亿行数据生成
功能,通常
被认为不可能在使用
original featuretools library with pandas的单机上处理。
*FeatureTools4s*提供的**API与原来的
FeatureTools几乎相同,使用户完全不必在FeatureTools和FeatureTools4s之间传输
因此,我们建议读者先学习FeatureTools,然后就可以轻松地使用FeatureTools4s.*
2。如何使用功能工具4?第一个安装*特征工具4S*通过PIP:Bash
PIP3安装特征工具4S BR/>‘BR/> BR/>然后使用*特征工具4S*的一个简单的例子如下:< Prth/Byth.Br/>导入特征工具4S作为PtSpyk.FTS
。
os.environ[“path”]=“c:\ python36;“+os.environ[“path”]
pd.set_option('display.expand_frame_repr',false)
spark=sparksession.builder.master(“local[*”).getorcreate()
order庘df=spark.read.csv(“resources/order.csv”,header=true,inferschema=true).sort(“sales廑tax”)
customer廑df=spark.read.csv(“resources/customer.csv”,header=true,inferschema=true)
es.entity廑from廑dataframe(“order”,order廑df,index=“order廑num”,time廑index=“wo timestamp”)
es.entity廑index=“cust_num”)
es.add_relationship(fts.relationship(es[“customer”][“cust_num”],es[“order”][“cust_num”])
features=fts.dfs(spark,entityset=es,target_entity=“customer”,primary_col=“cust_num”,num_partition=5)
features.show()
```
1.什么是特色工具?
featuretools是一个python库,由麻省理工学院的featurelab开放源码,旨在自动化机器学习应用程序中的特征工程过程。
有关FeatureTools的更多详细信息,请访问[官方网站](https://docs.featuretools.com/index.html)
。
*featuretools4s*是我编写的一个python库,旨在使用**spark**扩展
featuretools,使其能够为数十亿行数据生成
功能,通常
被认为不可能在使用
original featuretools library with pandas的单机上处理。
*FeatureTools4s*提供的**API与原来的
FeatureTools几乎相同,使用户完全不必在FeatureTools和FeatureTools4s之间传输
因此,我们建议读者先学习FeatureTools,然后就可以轻松地使用FeatureTools4s.*
2。如何使用功能工具4?第一个安装*特征工具4S*通过PIP:Bash
PIP3安装特征工具4S BR/>‘BR/> BR/>然后使用*特征工具4S*的一个简单的例子如下:< Prth/Byth.Br/>导入特征工具4S作为PtSpyk.FTS
。
os.environ[“path”]=“c:\ python36;“+os.environ[“path”]
pd.set_option('display.expand_frame_repr',false)
spark=sparksession.builder.master(“local[*”).getorcreate()
order庘df=spark.read.csv(“resources/order.csv”,header=true,inferschema=true).sort(“sales廑tax”)
customer廑df=spark.read.csv(“resources/customer.csv”,header=true,inferschema=true)
es.entity廑index=“cust_num”)
es.add_relationship(fts.relationship(es[“customer”][“cust_num”],es[“order”][“cust_num”])
features=fts.dfs(spark,entityset=es,target_entity=“customer”,primary_col=“cust_num”,num_partition=5)
features.show()
```