灵巧的机器学习工具本着科学的精神学习。
xklearn的Python项目详细描述
附加套件学习
机器学习组件,用于扩展scikit学习。所有组件都使用scikit的对象api来与scikit组件交互工作。它主要是一个工具集合,这些工具对于kaggle比赛非常有用。Extrakit Learn与Scikit Learn没有任何关联,只是受到它的启发。
安装
pip install xklearn
部件
- categoryencoder-类似于scikit的labelencoder,但支持nans和不可见的值。
- countencoder-基于值计数的列的分类功能工程。
- targetencoder-基于目标平均值的列上的分类功能工程。
- 多列编码器-对多列应用列编码器。
- 文件夹-k-fold on scikit估计器包装在估计器中。
- foldlightgbm-lgbm上的k-fold包装在估计器中。
- foldxgboost-将xgboost的k-fold封装到估计器中。
- stackclassifier-使用元分类器堆叠分类器的集合。
- stackregressor-使用元回归器堆栈回归器的集合。
层次结构
xklearn
â"‚
â"œâ"€â"€ preprocessing
â"‚ â"œâ"€â"€ CategoryEncoder
â"‚ â"œâ"€â"€ CountEncoder
â"‚ â"œâ"€â"€ TargetEncoder
â"‚ â""â"€â"€ MultiColumnEncoder
â"‚
â""â"€â"€ models
â"œâ"€â"€ FoldEstimator
â"œâ"€â"€ FoldLightGBM
â"œâ"€â"€ FoldXGBoost
â"œâ"€â"€ StackClassifier
â""â"€â"€ StackRegressor
示例
from xklearn.models import FoldEstimator
类别编码器
包装scikit的labelencoder,允许处理丢失和未显示的值。
参数
未显示
-处理未显示值的策略。有关选项,请参见下面的更换策略。
丢失
-处理丢失值的策略。有关选项,请参见下面的更换策略。
替代策略
'encode'
-将值替换为-1。
'nan'
-用np.nan替换值。
"错误"
-提高值错误。
示例
fromxklearn.preprocessingimportCategoryEncoder...ce=CategoryEncoder(unseen='nan',missing='nan')X[:,0]=ce.fit_transform(X[:,0])
计数编码器
在训练期间,将分类值替换为它们各自的值计数。在预测期间,计数为1的类和以前未看到的类被编码为1或NaN。
参数
未显示
-处理未显示值的策略。有关选项,请参见下面的更换策略。
丢失
-处理丢失值的策略。有关选项,请参见下面的更换策略。
替代策略
'one'
-将值替换为1。
'nan'
-用np.nan替换值。
"错误"
-提高值错误。
示例
αααα5目标编码器
使用可选平滑对分类特征执行目标平均编码。
参数
平滑
-平滑权重。
未显示
-处理未显示值的策略。有关选项,请参见下面的更换策略。
丢失
-处理丢失值的策略。有关选项,请参见下面的更换策略。
替代策略
'global'
-用global target mean替换值。
'nan'
-用np.nan替换值。
"错误"
-提高值错误。
示例
fromxklearn.preprocessingimportTargetEncoder...te=TargetEncoder(smoothing=10)X[:,0]=te.fit_transform(X[:,0],y)
多柱编码器
在多个列上应用列编码器。
参数
enc
-将应用于选定列的基本编码器
列
-列选择,可以是bool mask、index或none(默认值为none)。
示例
fromxklearn.preprocessingimportCountEncoderfromxklearn.preprocessingimportMultiColumnEncoder...columns=[1,3,4]enc=CountEncoder()mce=MultiColumnEncoder(enc,columns)X=mce.fit_transform(X)
文件夹
将k-fold封装到估计器中,估计器在拟合时自动对选定的折叠方法执行交叉验证。在拟合后,可以选择性地用作k个估计器的叠加集合。
参数
est
-基本估计器。
折叠
-折叠交叉验证对象,即Kfold和StratifedkFold。
度量值
-评估度量值。
重新安装已满
-指示安装后行为的标志。true将对完整数据进行完全重新装配,false将使其成为在不同折叠上训练的叠合奏。
详细
-适合时打印折叠分数的标志。
示例
fromxklearn.modelsimportFoldEstimator...base=RandomForestRegressor(n_estimators=10)fold=KFold(n_splits=5)est=FoldEstimator(base,fold=fold,metric=mean_squared_error,verbose=1)est.fit(X_train,y_train)est.predict(X_test)
输出:
Finished fold 1 with score: 200.80226317887826
Finished fold 2 with score: 261.23652389345705
Finished fold 3 with score: 169.2403756418383
Finished fold 4 with score: 186.79152045026424
Finished fold 5 with score: 205.08937161000628
Finished with a total score of: 204.6812549487968
折叠灯BM
将k-fold封装到估计器中,该估计器在拟合时自动在选定的折叠方法上对lgbm执行交叉验证。在拟合后,可以选择性地用作k个估计器的叠加集合。
参数
lgbm
-基本估计器。
折叠
-折叠交叉验证对象,即Kfold和StratifedkFold。
度量值
-评估度量值。
拟合参数
-应输入拟合方法的参数字典。
重新安装已满
-指示安装后行为的标志。true将对完整数据进行完全重新装配,false将使其成为在不同折叠上训练的叠合奏。
重新安装参数
-如果重新安装已满,应输入到重新安装的参数字典=false。
详细
-适合时打印折叠分数的标志。
示例
pip install xklearn
0
输出:
pip install xklearn
1
foldxgboost
将k-fold封装到估计器中,该估计器在拟合时自动对选定的折叠方法上的xgboost执行交叉验证。在拟合后,可以选择性地用作k个估计器的叠加集合。
参数
xgb
-基本估计器。
折叠
-折叠交叉验证对象,即Kfold和StratifedkFold。
度量值
-评估度量值。
拟合参数
-应输入拟合方法的参数字典。
重新安装已满
-指示安装后行为的标志。true将对完整数据进行完全重新装配,false将使其成为在不同折叠上训练的叠合奏。
重新安装参数
-如果重新安装已满,应输入到重新安装的参数字典=false。
详细
-适合时打印折叠分数的标志。
示例
pip install xklearn
2
输出:
pip install xklearn
3
堆栈分类器
集成分类器,通过将分类器的输出用作输入功能来堆叠分类器的集成。
参数
clfs
-分类器集成列表。
meta_clf
-堆叠集成预测的元分类器。
keep_features
-标记以在原始功能上训练元分类器。
重新安装
-重新设置ENS的标志在安装期间启用分类器。
示例
pip install xklearn
4
堆栈回归器
集成回归器,通过将回归器的输出用作输入功能来堆叠回归器的集成。
参数
regs
-回归函数集合列表。
meta_reg
-集合预测的元回归器。
首先删除
:删除一级概率以避免多重共线。
keep_features
-标记在原始功能上训练元回归器。
重新装配
-标记在装配期间重新训练回归器的集合。
示例
pip install xklearn
5