以scikit-learn为灵感的熊猫特征提取和数据处理管道。
pipesnake的Python项目详细描述
#` pipesnake `
*受pandas sklearn启发的流水线数据处理器*
`pipesnake'是一种能够处理pandas数据帧的数据处理流水线。在许多情况下,
数据帧用于清理数据、预处理数据和执行功能工程,
`pipesnake`尝试简化这些步骤,创建复杂的管道。
[文档](docs/source/index.rst);[示例](examples/readme.md);
有两个简单的原因:
*在许多情况下,pandas dataframe非常容易构建特征提取程序或数据预处理程序在许多情况下,拥有一个同时处理"x"和"y"的管道是很有用的
如何使用"pipesnake"?
简单的安装方法:
`pip install——升级https://github.com/pierluigi failla/pipesnakpepepe蛇/tarball/master`
>要获得github上的最新版本,或者:要获得github上的最新版本,或者:
<编码<
br/>
您可以结合"seriespipe"和"parallelpipe"构建自己的管道,它们都可以处理"transformer"的列表
。
继承的"transformer"对象是一个类,它实现了pipesnake.base import transformer中的抽象"base.transformer"方法:
``python
def-fit_x(self,x):
<;您的实现>;
def-fit_y(self,y):
<;您的实现>;
def-transform_x(self,x):
<;您的实现>;
def-transform_x(self,x):
<;your implementation>;
def inverse_transform y(self,y):
<;your implementation>;
````
拥有所有所需的"transformers"后,可以使用pipesnake中的"seriespipe"或"parallelpipe"创建用于功能工程或数据处理的管道。pipe从pipesnake中导入parallelpipe
``python
。pipe从pipesnake中导入parallelpipe
。pipe导入seriespipe
pipe=seriespipe(transformers=[
parallelpipe(transformers=[
mytransformer1(<;params>;),
mytransformer2(<;params>;),
],
mytransformer3(<;params>;),
],
`````
|名称简短说明
--ber
`pipenskae.transformers.deeplearning``lstmpacker`pack rows以便用作lstm网络的输入
`pipenskae.transformers.dropper``dropduplicates`删除重复行和/或列
`pipenskae.transformers.dropper``dropnancols`删除带nans的列
`pipenskae.transformers.dropper``dropnanrows`删除行带nans的s
`pipenskae.transformers.financial` `forentreturn`;将列转换为`财务回报`:r\t=(x-t-x{t-1})/x{t-1}
`pipenskae.transformers.pumpter`` replaceplupter`` replaceplupter` 124;输入nans替换nans
`pipenskae.transformers.pumpter` `` replaceplupter` ` `;输入nans替换nans;输入nans替换nans
`pipenskae.trans变形金刚.transformers.pumpanskae.pumpers.pumper` ` ` `杂项`|`将"x"和"y"转换为特定的numpy类型
`pipenskae.transformers.misc` `copycat`向前复制数据集
`pipenskae.transformers.scaler` `minmaxscaler` min max scaler
`pipenskae.transformers.scaler` `stdscaler`标准偏差scaler
`pipenskae.transformers.scaler` `madscaler`中间绝对偏差scaler
`pipenskae.transformers.scaler` `unitlenghtscaler`将特征向量缩放为norm 1.0
`pipenskae.transformers.selector``columnselector`;选择要保留的给定列名列表
`pipenskae.transformers.stats``ToSymbolProbability`;将列中的值转换为它们的概率
首先获取存储库的副本:
`git clone https://github.com/scikit learn/scikit learn.git`
就"pipesnake"的早期阶段而言,您可以贡献很多东西:
**library;
**transformers**:开发新的通用transformers以与社区共享;
**tests**:编写更好的测试以扩展覆盖范围并减少代码回归;
*受pandas sklearn启发的流水线数据处理器*
`pipesnake'是一种能够处理pandas数据帧的数据处理流水线。在许多情况下,
数据帧用于清理数据、预处理数据和执行功能工程,
`pipesnake`尝试简化这些步骤,创建复杂的管道。
[文档](docs/source/index.rst);[示例](examples/readme.md);
有两个简单的原因:
*在许多情况下,pandas dataframe非常容易构建特征提取程序或数据预处理程序在许多情况下,拥有一个同时处理"x"和"y"的管道是很有用的
如何使用"pipesnake"?
简单的安装方法:
`pip install——升级https://github.com/pierluigi failla/pipesnakpepepe蛇/tarball/master`
>要获得github上的最新版本,或者:要获得github上的最新版本,或者:
<编码<
br/>
您可以结合"seriespipe"和"parallelpipe"构建自己的管道,它们都可以处理"transformer"的列表
。
继承的"transformer"对象是一个类,它实现了pipesnake.base import transformer中的抽象"base.transformer"方法:
``python
def-fit_x(self,x):
<;您的实现>;
def-fit_y(self,y):
<;您的实现>;
def-transform_x(self,x):
<;您的实现>;
def-transform_x(self,x):
<;your implementation>;
def inverse_transform y(self,y):
<;your implementation>;
````
拥有所有所需的"transformers"后,可以使用pipesnake中的"seriespipe"或"parallelpipe"创建用于功能工程或数据处理的管道。pipe从pipesnake中导入parallelpipe
``python
。pipe从pipesnake中导入parallelpipe
。pipe导入seriespipe
pipe=seriespipe(transformers=[
parallelpipe(transformers=[
mytransformer1(<;params>;),
mytransformer2(<;params>;),
],
mytransformer3(<;params>;),
],
`````
|名称简短说明
--ber
`pipenskae.transformers.deeplearning``lstmpacker`pack rows以便用作lstm网络的输入
`pipenskae.transformers.dropper``dropduplicates`删除重复行和/或列
`pipenskae.transformers.dropper``dropnancols`删除带nans的列
`pipenskae.transformers.dropper``dropnanrows`删除行带nans的s
`pipenskae.transformers.financial` `forentreturn`;将列转换为`财务回报`:r\t=(x-t-x{t-1})/x{t-1}
`pipenskae.transformers.pumpter`` replaceplupter`` replaceplupter` 124;输入nans替换nans
`pipenskae.transformers.pumpter` `` replaceplupter` ` `;输入nans替换nans;输入nans替换nans
`pipenskae.trans变形金刚.transformers.pumpanskae.pumpers.pumper` ` ` `杂项`|`将"x"和"y"转换为特定的numpy类型
`pipenskae.transformers.misc` `copycat`向前复制数据集
`pipenskae.transformers.scaler` `minmaxscaler` min max scaler
`pipenskae.transformers.scaler` `stdscaler`标准偏差scaler
`pipenskae.transformers.scaler` `madscaler`中间绝对偏差scaler
`pipenskae.transformers.scaler` `unitlenghtscaler`将特征向量缩放为norm 1.0
`pipenskae.transformers.selector``columnselector`;选择要保留的给定列名列表
`pipenskae.transformers.stats``ToSymbolProbability`;将列中的值转换为它们的概率
首先获取存储库的副本:
`git clone https://github.com/scikit learn/scikit learn.git`
就"pipesnake"的早期阶段而言,您可以贡献很多东西:
**library;
**transformers**:开发新的通用transformers以与社区共享;
**tests**:编写更好的测试以扩展覆盖范围并减少代码回归;