灵巧的机器学习工具本着科学的精神学习。

xklearn的Python项目详细描述


附加套件学习

pypi versionlicense

机器学习组件,用于扩展scikit学习。所有组件都使用scikit的对象api来与scikit组件交互工作。它主要是一个工具集合,这些工具对于kaggle比赛非常有用。Extrakit Learn与Scikit Learn没有任何关联,只是受到它的启发。

安装

pip install xklearn

部件

层次结构

xklearn
â"‚
â"œâ"€â"€ preprocessing
â"‚   â"œâ"€â"€ CategoryEncoder
â"‚   â"œâ"€â"€ CountEncoder
â"‚   â"œâ"€â"€ TargetEncoder      
â"‚   â""â"€â"€ MultiColumnEncoder
â"‚
â""â"€â"€ models
    â"œâ"€â"€ FoldEstimator
    â"œâ"€â"€ FoldLightGBM
    â"œâ"€â"€ FoldXGBoost
    â"œâ"€â"€ StackClassifier
    â""â"€â"€ StackRegressor
示例
from xklearn.models import FoldEstimator

类别编码器

包装scikit的labelencoder,允许处理丢失和未显示的值。

参数

未显示-处理未显示值的策略。有关选项,请参见下面的更换策略。

丢失-处理丢失值的策略。有关选项,请参见下面的更换策略。

替代策略

'encode'-将值替换为-1。

'nan'-用np.nan替换值。

"错误"-提高值错误。

示例

fromxklearn.preprocessingimportCategoryEncoder...ce=CategoryEncoder(unseen='nan',missing='nan')X[:,0]=ce.fit_transform(X[:,0])

计数编码器

在训练期间,将分类值替换为它们各自的值计数。在预测期间,计数为1的类和以前未看到的类被编码为1或NaN。

参数

未显示-处理未显示值的策略。有关选项,请参见下面的更换策略。

丢失-处理丢失值的策略。有关选项,请参见下面的更换策略。

替代策略

'one'-将值替换为1。

'nan'-用np.nan替换值。

"错误"-提高值错误。

示例

αααα5

目标编码器

使用可选平滑对分类特征执行目标平均编码。

参数

平滑-平滑权重。

未显示-处理未显示值的策略。有关选项,请参见下面的更换策略。

丢失-处理丢失值的策略。有关选项,请参见下面的更换策略。

替代策略

'global'-用global target mean替换值。

'nan'-用np.nan替换值。

"错误"-提高值错误。

示例

fromxklearn.preprocessingimportTargetEncoder...te=TargetEncoder(smoothing=10)X[:,0]=te.fit_transform(X[:,0],y)

多柱编码器

在多个列上应用列编码器。

参数

enc-将应用于选定列的基本编码器

-列选择,可以是bool mask、index或none(默认值为none)。

示例

fromxklearn.preprocessingimportCountEncoderfromxklearn.preprocessingimportMultiColumnEncoder...columns=[1,3,4]enc=CountEncoder()mce=MultiColumnEncoder(enc,columns)X=mce.fit_transform(X)

文件夹

将k-fold封装到估计器中,估计器在拟合时自动对选定的折叠方法执行交叉验证。在拟合后,可以选择性地用作k个估计器的叠加集合。

参数

est-基本估计器。

折叠-折叠交叉验证对象,即Kfold和StratifedkFold。

度量值-评估度量值。

重新安装已满-指示安装后行为的标志。true将对完整数据进行完全重新装配,false将使其成为在不同折叠上训练的叠合奏。

详细-适合时打印折叠分数的标志。

示例

fromxklearn.modelsimportFoldEstimator...base=RandomForestRegressor(n_estimators=10)fold=KFold(n_splits=5)est=FoldEstimator(base,fold=fold,metric=mean_squared_error,verbose=1)est.fit(X_train,y_train)est.predict(X_test)

输出:

Finished fold 1 with score: 200.80226317887826
Finished fold 2 with score: 261.23652389345705
Finished fold 3 with score: 169.2403756418383
Finished fold 4 with score: 186.79152045026424
Finished fold 5 with score: 205.08937161000628
Finished with a total score of: 204.6812549487968

折叠灯BM

将k-fold封装到估计器中,该估计器在拟合时自动在选定的折叠方法上对lgbm执行交叉验证。在拟合后,可以选择性地用作k个估计器的叠加集合。

参数

lgbm-基本估计器。

折叠-折叠交叉验证对象,即Kfold和StratifedkFold。

度量值-评估度量值。

拟合参数-应输入拟合方法的参数字典。

重新安装已满-指示安装后行为的标志。true将对完整数据进行完全重新装配,false将使其成为在不同折叠上训练的叠合奏。

重新安装参数-如果重新安装已满,应输入到重新安装的参数字典=false。

详细-适合时打印折叠分数的标志。

示例

pip install xklearn
0

输出:

pip install xklearn
1

foldxgboost

将k-fold封装到估计器中,该估计器在拟合时自动对选定的折叠方法上的xgboost执行交叉验证。在拟合后,可以选择性地用作k个估计器的叠加集合。

参数

xgb-基本估计器。

折叠-折叠交叉验证对象,即Kfold和StratifedkFold。

度量值-评估度量值。

拟合参数-应输入拟合方法的参数字典。

重新安装已满-指示安装后行为的标志。true将对完整数据进行完全重新装配,false将使其成为在不同折叠上训练的叠合奏。

重新安装参数-如果重新安装已满,应输入到重新安装的参数字典=false。

详细-适合时打印折叠分数的标志。

示例

pip install xklearn
2

输出:

pip install xklearn
3

堆栈分类器

集成分类器,通过将分类器的输出用作输入功能来堆叠分类器的集成。

参数

clfs-分类器集成列表。

meta_clf-堆叠集成预测的元分类器。

keep_features-标记以在原始功能上训练元分类器。

重新安装-重新设置ENS的标志在安装期间启用分类器。

示例

pip install xklearn
4

堆栈回归器

集成回归器,通过将回归器的输出用作输入功能来堆叠回归器的集成。

参数

regs-回归函数集合列表。

meta_reg-集合预测的元回归器。

首先删除:删除一级概率以避免多重共线。

keep_features-标记在原始功能上训练元回归器。

重新装配-标记在装配期间重新训练回归器的集合。

示例

pip install xklearn
5

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
与SpringJPA相比,JavaHazelcast内存数据网格非常慢   java如何从Netbeans从命令行创建的ant项目运行单个junit测试?   java多个eclipse概要文件   java集合存储值还是引用?   java从两个自定义对象列表中删除公共元素   java密钥库、HttpClient和HTTPS:有人能给我解释一下这段代码吗?   java使用Appengine中的域别名帐户发送电子邮件   java如何在安卓中获得用户定义的“设备名称”?   java错误:包com。太阳工具。javac。util不存在   导出后Java Eclipse项目出现问题   组织。openqa。硒。WebDriverException:java。网ConnectException:无法连接到本地主机/0:0:0:0:0:0:0   java在字符串中追加文本   java在Pig中按名称获取字段?   java如何打印播放中对象的值   Java静态修饰符对运行时性能有积极影响吗?   Java计时器   java是否值得线程化一个需要1秒才能完成的操作?