贝叶斯影响特征提取框架。一个简单的特征提取框架,从不同的数据源提取数据并将其导出为易于共享的格式。

fex的Python项目详细描述


#一个简单的特征提取框架


此任务通常包括查询一个或多个数据库、复杂连接以计算特征(例如,一个患者的不同诊断数,可能分布在多个表上),然后将此过程的结果保存到一个可用于训练模型的平面表中。此平面表必须定期重新计算(例如更改功能后),并且必须在多人之间共享。此外,我们始终希望记录用于计算特定功能集的代码。如果没有这些,我们可能最终会遇到这样的情况:我们有一个可以工作的模型,但是我们不记得我们是如何计算特征来训练它的。fex简化了这个过程。



此模式确保没有未提交的更改,并将从git远程url和最新提交哈希计算的唯一标识符前置到生成的数据文件。请注意,此机制只跟踪对代码的更改,不会注意是否将参数传递给功能提取程序。
*功能提取程序的结果缓存到pickle中,只要特征提取程序的源代码没有更改。
*可以通过运行程序的命令行参数(`--cache path`)指定缓存文件的路径。
*可以在命令行(`--path`)上指定输出CSV文件的路径。
*可以使用运行程序的“---no cache”标志停用缓存。



##quickstart

只需编写一个继承自featureextractor的类并重写其“extract”方法。在某一点上,它应该使用pandas数据帧调用“emit”,这是提取的结果。(在将来,我们可能会将其扩展为允许多次发射,但现在它必须只发射一次。)

然后使用fex runner执行它。

```
/usr/bin/env python
将panda导入为pd
导入fex


类示例feature1(fex.feature extractor):
“第一个示例featureextractor,超级酷。“

def extract(self):
”用自定义逻辑重写方法。


这是一个进行数据提取和转换的地方。

”data={'col1':[42]}
data廑frame=pd.dataframe(data,index=[1])
self.emit(数据帧)

fex.runner.run(examplefeature1())
````

请参见[examples/simple-example.py](examples/simple-example.py)获取稍微复杂一点的示例,您可以直接运行该示例来查看结果。运行“examples/simple-example.py--help”查看所有命令行参数。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
Java泛型和基类   ProcessBuilder或DefaultExecutor启动的“RunAs”子进程的java读取标准输出   java应用程序在尝试登录时突然停止   Java:神秘的Java未捕获异常处理程序[带代码]   java JavaFX NumberAxis自动范围无限循环   最新版本和旧版本冲突的java双Maven依赖关系   java如何导入带有部署变量类名的静态函数?   编译器构造不同的JDK更新会产生不同的Java字节码吗?   java无法在struts 1.1中上载任何超过250 MB大小的文件   java调整jcombobox下拉菜单的宽度   java如何在某些情况下忽略@SQLDelete注释   在Eclipse for Java EE developers edition中禁用HTML警告   java HttpUrlConnection重置请求属性   java@Provider资源未在rest应用程序中注册   java TOP N使用JPA连接   java在使用反射调用方法时区分int和Integer参数